Jeroen Janssens是爱思唯尔(世界领先的科技及医学出版公司)首席数据科学家,曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位,在荷兰蒂尔堡大学获得机器学习博士学位。他热衷于创建数据科学的开源工具,个人网站是http://jeroenjanssens.com/。Jeroen著有《命令行中的数据科学》一书。

作者自述《命令行中的数据科学》的来历:

大约5年前,在攻读博士学位期间,我逐步从使用微软Windows转为使用GUN/Linux。刚开始我有点谨小慎微,因此同时安装了这两个操作系统(也就是双系统启动)。后来,在这两个系统之间切换的需求越来越少,有时我甚至对Arch Linux修修补补,能从零开始自己定制操作系统。这时能用的只有命令行,而且想做什么完全随心所欲。很快,我就对使用命令行得心应手。最终,由于业余时间越来越宝贵,我决定使用名为Ubuntu的GNU/Linux发行版,因为它易于使用并且有庞大的社区。尽管如此,命令行仍然是我完成绝大部分工作的不二选择。

实际上,我后来认识到,命令行不单可以用于安装软件、配置系统以及搜索文件。于是我开始学习诸如cutsortsed这些命令行工具。这些工具都是将数据作为输入,对数据进行处理,然后打印结果。Ubuntu自带了相当多这样的工具。当明白可以将这些小工具结合起来使用时,我就对它入迷了。

当我拿到博士学位,成为一名数据科学家时,我想充分利用这种方法来做数据科学工作。幸亏有几个新的开源命令行工具,包括scrapejqjson2csv,我甚至能够使用命令行来完成抓取网站以及处理大量JSON数据这样的任务。2013年9月,我写了一篇名为“数据科学的7个命令行工具”的博客文章。让我吃惊的是,这篇文章获得很大反响。后来许多人向我推荐其他命令行工具,于是我开始考虑是否可以将这篇文章扩充成书。令人高兴的是,10个月之后,在许多才华横溢的人的帮助下,本书得以付梓。

分享这段个人经历不仅是想介绍本书的由来,更是希望你知道我也是需要学习命令行的。使用命令行与使用图形化用户界面迥然不同,刚开始可能是令人生畏的。但是,既然我能够学会它,你当然也没问题。不管你目前使用的是什么操作系统,也不管你现在是以什么方式做数据科学的工作,读完本书,你也能够利用命令行的强大能力。即使你已经熟悉命令行,或者甚至已经打算学习shell脚本,你仍然可能在书中发现一些有趣技巧或命令行工具,能用于未来的数据科学项目。

作品选读:为什么用命令行做数据科学工作

最终入选问题的提问者,将获得图灵社区送出的图灵电子书一本。

往期活动回顾:
《平面宇宙》作者A. K. 杜德尼教授访谈问题有奖征集,问题入选的获奖者有:好久不见,textpattern,喵了个咪的喵,normalme,空军,华元

《学习响应式设计》作者Clarissa Peterson访谈问题有奖征集,问题入选的获奖者有:喵了个咪的喵,normalme,fdy1045,好久不见,痛饮狂歌

《Swift与Cocoa框架开发》作者Paris Buttfield-Addison有奖问题征集,问题入选的获奖者有:好久不见,normalme,likeya,linqiangz

《你不知道的JavaScript》作者Kyle Simpson访谈问题有奖征集,问题入选的获奖者有:likeya,fdy1045,好久不见,深红,normalme,卞林


更多精彩,加入图灵访谈微信!