前言

前言

数据科学是一个多样化且正在发展的领域,它涉及数学与计算机科学的许多子领域。在数据科学家所研究的领域中,多种学科交织在一起,统计学、线性代数、数据库、机器智能以及数据可视化仅是其中的一部分。各种技术大量存在,用于数据科学实践的工具也正在快速演化。本书基于清晰的、面向对象的 Java 代码,主要讨论一些核心的基本原理。本书将激励你立刻着手实践数据科学技能,希望你可以在开发下一代数据科学技术时处于领先位置。

读者对象

本书面向的是那些已经熟悉应用开发概念的科学家和工程师,他们想直接从事数据科学研究。本书将循序渐进地引导读者进入数据科学的工作流程,在解释数学原理的同时给出代码示例。对于想深入学习数据科学的读者而言,本书是个完美的出发点。

写作初衷

我撰写本书是为了开启一项运动。由于 R 语言和 Python 语言的推动,数据科学迅速成为热门研究领域,但很少有数据科学从业人士冒险涉足 Java 世界。显然,数据探索工具适合采用解释型语言,但是在工程与科学混合的领域,必须综合考虑可伸缩性、稳健性以及便利性。Java 也许正是那种能够满足上述所有要求的语言。如果本书对你有所鼓舞,那么期待你可以向众多支持数据科学的 Java 开源项目贡献代码。

数据科学现状

数据科学正在不断变化,包括其应用范围以及实践数据科学的人。技术的发展非常快,仅需要几年甚至几个月的时间,顶级的算法就会过时。对于实际的解决方案,人们抛弃了长期采用的标准化做法。成功道路上的障碍通常是由定量科学未曾涉及的领域内的人士克服的。目前,数据科学已经是一门本科生课程了。在未来,要想取得成功,只有一条途径,即掌握数学、熟悉代码,并知悉所要解决的问题。

本书导读

本书是一场穿越数据科学工作流程的逻辑之旅。第 1 章讨论获取数据、清理数据以及以最纯粹的方式排列数据的众多方法,并讨论把数据输出至文件或者进行绘制的基本方法。第 2 章讨论把数据视为矩阵的重要概念,这一章将详细回顾矩阵的运算。有了数据并且知道数据应当采用何种数据结构后,第 3 章引入测试数据来源和有效性的基本概念。第 4 章直接使用第 2 章和第 3 章的概念,把数据转换为稳定、可用的数值。第 5 章介绍一些实用的监督型学习算法与无监督型学习算法,以及评估这些算法是否成功的方法。第 6 章提供快速指南,采用适合数据科学算法的定制组件,设置并运行 MapReduce 任务。附录 A 给出了一些有用的数据集。

排版约定

本书使用了下列排版约定。

黑体

  表示新术语或重点强调的内容。

等宽字体(constant width

  表示程序片段,以及正文中出现的变量、函数名、数据库、数据类型、环境变量、语句和关键字等。

加粗等宽字体(constant width bold

  表示应该由用户输入的命令或其他文本。

等宽斜体(constant width italic

  表示应该由用户输入的值或根据上下文确定的值替换的文本。

 该图标表示提示或建议。

 该图标表示一般注记。

 该图标表示警告或警示。

使用代码示例

补充材料(代码示例、练习等)可以从 https://github.com/oreillymedia/Data_Science_with_Java 下载。

本书是要帮你完成工作的。一般来说,如果本书提供了示例代码,你可以把它用在你的程序或文档中。除非你使用了很大一部分代码,否则无须联系我们获得许可。比如,用本书的几个代码片段写一个程序就无须获得许可,销售或分发 O'Reilly 图书的示例光盘则需要获得许可;引用本书中的示例代码回答问题无须获得许可,将书中大量的代码放到你的产品文档中则需要获得许可。

我们很希望但并不强制要求你在引用本书内容时加上引用说明。引用说明一般包括书名、作者、出版社和 ISBN,比如“Data Science with Java by Michael Brzustowicz (O'Reilly). Copyright 2017 Michael Brzustowicz, 978-1-491-93411-1”。

如果你觉得自己对示例代码的用法超出了上述许可的范围,欢迎你通过 permissions@oreilly.com 与我们联系。

O'Reilly Safari

Safari(前身为 Safari Books Online)是一个会员制的培训和参考平台,面向企业、政府、教育从业者和个人。

Safari 用户可访问 O'Reilly Media、Harvard Business Review、Prentice Hall Professional、Addison- Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology 等 250 多家出版社的上千种图书、培训视频、学习路径、交互式教程和精选播放列表。

如需了解更多信息,请访问 http://oreilly.com/safari

联系我们

请把对本书的评价和问题发给出版社。1

1可以访问本书图灵社区页面(https://www.ituring.com.cn/book/2082)下载示例代码并提交中文版勘误。——编者注

美国:

  O'Reilly Media, Inc.

  1005 Gravenstein Highway North

  Sebastopol, CA 95472

中国:

  北京市西城区西直门南大街 2 号成铭大厦 C 座 807 室(100035)

  奥莱利技术咨询(北京)有限公司

对于本书的评论和技术性问题,请发送电子邮件到:bookquestions@oreilly.com

要了解更多 O'Reilly 图书、培训课程、会议和新闻的信息,请访问以下网站:http://www.oreilly.com

我们在 Facebook 的地址如下:http://facebook.com/oreilly

请关注我们的 Twitter 动态:http://twitter.com/oreillymedia

我们的 YouTube 视频地址如下:http://www.youtube.com/oreillymedia

致谢

我要感谢本书的编辑,O'Reilly 出版公司的 Nan Barber 与 Brian Foster,感谢他们在写作过程中不断给予我激励与指导。

我还要感谢 O'Reilly 出版公司的工作人员 Melanie Yarbrough、Kristen Brown、Sharon Wilkey、Jennie Kimmel、Allison Gillespie、Laurel Ruma、Seana McInerney、Rita Scordamalgia、Chris Olson 以及 Michelle Gilliland,他们都为本书的出版做出了贡献。

本书得益于我的同事 Dustin Garvey、Jamil Abou-Saleh、David Uminsky 以及 Terence Parr 的许多技术评论与主张。我真诚地感激你们的帮助。

电子书

扫描如下二维码,即可购买本书中文版电子版。

{%}

目录