Cathy O'Neil是约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics。
Cathy是一位数学家,后来转型为数据科学家,她的个人博客http://mathbabe.org/很受欢迎,在博客中的“关于自己”部分,她说自己一直在期待下面这个问题能有更好的答案:非理论派的数学家能做些什么以让这个世界变得更加美好?她和哥伦比亚大学统计系兼职教授Rachel Schutt根据一门名为“数据科学导论”的课程撰写了《数据科学实战》一书。
Rachel(美国新闻集团旗下数据科学部门高级副总裁)向大学提议开设“数据科学导论”这门课程时,恰好认识了Cathy,那时她正在一个初创公司工作,职位是数据科学家。对于Rachel开课的尝试,她十分支持。后来Cathy和Rachel的博客中所有关于“数据科学导论”的条目,构成了《数据科学实战》的原始素材。
《数据科学实战》不是一本关于机器学习的教科书。恰恰相反,本书会多角度全方位、深入地介绍数据科学。它是对现有数据学科领域的纵览,试图为这一学科勾勒出一幅全景图。《数据科学实战》还是一本从人文主义角度、全面讲解数据科学的书。两位作者不仅关注工具、数学、模型、算法和代码,同时也很关注上述过程中的人性化考量。如何在数据科学中体现人文主义?你在建模和设计算法时,认识到你作为个人所应起到的作用,想想哪些东西是人所具备而电脑不具备的,比如基于道德的判断;向世界公布一种新的统计模型前,想想会为他人的生活带来什么样的影响。
作品选读:什么是数据科学
最终入选问题的提问者,将获得图灵社区送出的图灵电子书一本。
往期活动回顾:
《发布!》作者Michael Nygard访谈问题有奖征集,问题入选的获奖者有:slideclick,fdy1045,南岳山,华元,Juven《禽兽心理学》作者Anna Salter访谈问题有奖征集,问题入选的获奖者有:likeya,一阐提人,陈曦,normalme,cage,浅言,Zinger译
《JavaScript快速全栈开发》作者Azat Mardanov访谈问题有奖征集,问题入选的获奖者有:fedoral,cage,fdy1045,2gua
《代码本色:用编程模拟自然系统》作者Daniel Shiffman访谈问题有奖征集,问题入选的获奖者有:华元,旁观者,fdy1045,samael,2gua,孤光
对于新手来说可能不了解业务就不太好能提出关键的模型因子,请问有没有什么科学的工具以及学习方法,能够帮助分析以达到能快速确定模型因子目的?
Q2.怎样的数据是可信的?不确定数据的组合能否提供确定的参考值?
2. 对您来说,数据科学最吸引你的地方在哪里?
(问题2)对于现在的企业来说,数据量都非常大,PB级别的数据已经成为常见的现象,如果说我要得到一个模型的话,数据是需要抽取的,那么应该采多少数据,怎么采,可以使得用尽少的数据刻画出一个尽全面而有效的模型?
(问题3)作为一个即将毕业的研究生,走向顶级数据科学家的路是很漫长的,但是应该怎样走?
谢谢
1.目前来看,大数据的主要来源有两大类,一个是当前和过去积累的web数据,另一个是未来的物联网产生的大量数据。单就前者来说,为了更好更快地存取web数据,就已经诞生了nosql运动了,而传统的数据库理论界也提出了数据空间(dataspace)这种先有数据,后有模式的概念,请问您对这个有什么了解?除了Google的Alon Halevy,还有哪些人在研究这个或类似课题?
1. 是否觉得书中有些内容已经过时了?
2. 如果再版,希望再添加哪些内容?
2.很多公司都从大数据得益不少,但是也不少公司根据数据制定的政策和战略,却收益极少或亏损,您觉得他们在那里犯错误.
3.大家觉得大数据所能的是必然结果的分析和预判,您觉得未来偶然的事情是否可能通过其他事物的必然联系的得出呢.
4.很多人觉得大数据在很多方面的应用,其实是助长了人对原有习惯的依赖,这将限制人们对于多样化体验的尝试.您是如何看待呢.
5.您觉得什么人最合适从事数据分析的工作呢,具有什么性格和品质,以及相关学习之类的经历.
6.还有什么样的人应该去做理论派数据家,什么样的人应该去做非理论数学家.有没有经常在两者之间游离的人?他们状态如何.
1.越来越多的公司开始招聘数据分析师,您对那些刚从高校刚毕业、想从事数据分析工作的学生有什么建议?
2.针对社交网络的数据分析可以获得很多有用的数据,可是用户的隐私权也容易因此受到侵犯。从社交软件项目经理的角度,您认为该怎样保持二者的平衡?
3.推荐引擎可以将产品精准地投放给用户,而产品投放的准确率决定了推荐引擎的好坏。您认为怎样才能提高产品投放的准确率?
4.无论是金融分析还是医疗数据分析,构建一个好的模型都很重要。宽泛来讲,您认为什么才算一个“好的”模型?
5.大数据之潮席卷了中国,很多企业都想在大数据的浪潮中分一杯羹。您认为企业在利用数据进行决策的时候需要注意哪些问题?
6.您会出本书的第二版吗?