《数据科学入门(第2版)》资源链接清单

为方便读者查找,本文汇总了《数据科学入门(第2版)》一书中用到的部分网络资源链接。链接内容可能随时间变化,请读者知悉。

第2版前言

使用代码示例

  • GitHub网站joelgrus/data-science-from-scratch页面(https://github.com/joelgrus/data-science-from-scratch)

第2章 Python速成

2.28 进一步探索

  • Python教程(https://docs.python.org/3/tutorial/)
  • 官方IPython教程(https://ipython.readthedocs.io/en/stable/interactive/index.html)
  • mypy文档(https://mypy.readthedocs.io/en/stable/)

第3章 数据可视化 3.1 matplotlib

  • matplotlib库(https://matplotlib.org/)

3.5 延伸学习

  • matplotlib Gallery(https://matplotlib.org/gallery.html)
  • seaborn(https://seaborn.pydata.org/)
  • Altair(https://altair-viz.github.io/gallery/choropleth.html)
  • Bokeh(https://docs.bokeh.org/en/latest/)

第4章 线性代数

4.3 延伸学习

  • Jim Hefferon(圣迈克尔学院)写的书Linear Algebra(http://joshua.smcvt.edu/linearalgebra/)
  • David Cherney、Tom Denton、Rohit Thomas和 Andrew Waldron(加州大学戴维斯分校)合著的书Linear Algebra(https://www.math.ucdavis.edu/~linear/linear-guest.pdf)
  • Sergei Treil(布朗大学)的Linear Algebra Done Wrong(https://www.math.brown.edu/streil/papers/LADW/LADW_2017-09-04.pdf)

第5章 统计学

5.6 延伸学习

  • SciPy(https://www.scipy.org/)
  • pandas(https://pandas.pydata.org/)
  • StatsModels(https://www.statsmodels.org/stable/index.html)
  • Douglas Shafer和Zhiyi Zhang(Saylor Foundation)的Introductory Statistics(https://open.umn.edu/opentextbooks/textbooks/introductory-statistics)
  • David Lane(莱斯大学)的OnlineStatBook(http://onlinestatbook.com/)
  • OpenStax(OpenStax College)的Introductory Statistics(https://openstax.org/details/introductory-statistics)

第6章 概率

6.8 延伸学习

  • scipy.stats(https://docs.scipy.org/doc/scipy/reference/stats.html)
  • Charles M. Grinstead和J. Laurie Snell(American Mathematical Society)撰写的Introduction to Probability(http://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/book.html)

第7章 假设和推论

7.8 延伸学习

  • Coursera提供的数据分析和统计推断课程(https://www.coursera.org/specializations/statistics)

第8章 梯度下降

8.7 延伸学习

  • Matthew Boelkins、David Austin和Steven Schlicker的Active Calculus 1.0(https://scholarworks.gvsu.edu/books/10/)

第9章 获取数据

9.5 实例:使用Twitter API

  • Twitter的Developer网站(https://developer.twitter.com/)

9.6 延伸学习

  • Scrapy(https://scrapy.org/)
  • Kaggle(https://www.kaggle.com/datasets)

第10章 数据工作

10.9 延伸学习

  • scikit-learn的多种矩阵分解函数(https://scikit-learn.org/stable/modules/classes.html#module-sklearn.decomposition)

第11章 机器学习

11.7 延伸学习

  • Coursera机器学习课(https://www.coursera.org/learn/machine-learning)
  • Jerome H. Friedman、Robert Tibshirani 和Trevor Hastie(Springer)写的The Elements of Statistical Learning(https://web.stanford.edu/~hastie/ElemStatLearn//)

第12章 k最近邻法

12.2 实例:鸢尾花数据集

  • UCI Machine Learning Repository网站的Iris Data Set页面(https://archive.ics.uci.edu/ml/datasets/iris)

12.4 进一步探索

  • scikit-learn上的最近邻模型(https://scikit-learn.org/stable/modules/neighbors.html)

第13章 朴素贝叶斯算法

13.5 使用模型

  • Porter stemmer(https://tartarus.org/martin/PorterStemmer/)

13.6 延伸学习

  • Paul Graham 撰写的文章“A Plan for Spam”(http://www.paulgraham.com/spam.html)和“Better Bayesian Filtering”(http://www.paulgraham.com/better.html)

第15章 多元回归

15.9 延伸学习

  • scikit-learn的linear_model模块(https://scikit-learn.org/stable/modules/linear_model.html)
  • Python模块是statsmodels(https://www.statsmodels.org/stable/index.html)

第16章 逻辑回归

16.6 延伸学习

  • scikit-learn提供的逻辑回归模块(https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)
  • scikit-learn提供的支持向量机的模块(https://scikit-learn.org/stable/modules/svm.html)
  • LIBSVM(https://www.csie.ntu.edu.tw/~cjlin/libsvm/)

第17章 决策树

17.7 延伸学习

  • scikit-learn的决策树模型(https://scikit-learn.org/stable/modules/tree.html)
  • scikit-learn的ensemble模块(https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble)
  • XGBoost(https://xgboost.ai/)

第18章 神经网络

18.5 延伸学习

  • 作者的博客文章“Fizz Buzz in Tensorflow”(https://joelgrus.com/2016/05/23/fizz-buzz-in-tensorflow/)

第19章 深度学习

19.11 实例:MNIST

  • MNIST(http://yann.lecun.com/exdb/mnist/)

19.13 延伸学习

  • Ian Goodfellow、Yoshua Bengio和Aaron Courville所著的经典教材Deep Learning(https://www.deeplearningbook.org/)
  • PyTorch(https://pytorch.org/)

第20章 聚类分析

20.5 实例:色彩聚类

  • 像素的颜色(https://en.wikipedia.org/wiki/RGB_color_model)

20.7 延伸学习

  • scikit-learn的模块sklearn.cluster(https://scikit-learn.org/stable/modules/clustering.html)
  • SciPy(https://www.scipy.org/)

第21章 自然语言处理

21.2 n-gram语言模型

  • Mike Loukides的文章“What is data science?”(https://www.oreilly.com/radar/what-is-data-science/)

21.9 延伸学习

  • NLTK(http://www.nltk.org/)
  • Steven Bird、Ewan Klein和Edward Loper的书Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit(http://www.nltk.org/book/) gensim(https://radimrehurek.com/gensim/)
  • Andrej Karpathy的博文“The Unreasonable Effectiveness of Recurrent Neural Networks”(http://karpathy.github.io/2015/05/21/rnn-effectiveness/)
  • AllenNLP(https://allennlp.org/)

第22章 网络分析

22.4 延伸学习

  • 中心性指标(https://en.wikipedia.org/wiki/Centrality)
  • NetworkX(https://networkx.org/)
  • Gephi(https://gephi.org/)

第23章 推荐系统

23.5 矩阵分解

  • MovieLens 100k数据集(http://files.grouplens.org/datasets/movielens/ml-100k.zip)

23.6 延伸学习

  • Python库Surprise(http://surpriselib.com/)
  • Netflix Prize(https://www.netflixprize.com/)

第24章 数据库与SQL

24.12 延伸学习

  • SQLite(https://www.sqlite.org/index.html)
  • MySQL(https://www.mysql.com/)
  • PostgreSQL(https://www.postgresql.org/)
  • MongoDB(https://www.mongodb.com/2)
  • 维基百科上关于NoSQL的文章(https://en.wikipedia.org/wiki/NoSQL)

第25章 MapReduce

25.7 延伸学习

  • Hadoop(http://hadoop.apache.org/)
  • Spark(http://spark.apache.org/)

第27章 数据科学前瞻

27.1 IPython

  • IPython(http://ipython.org/)

27.3.1 NumPy

  • NumPy(https://numpy.org/)

27.3.3 scikit-learn

  • scikit-learn的文档中包含的许多案例(https://scikit-learn.org/stable/auto_examples/)

27.3.4 可视化

  • matplotlib网站上的例子(https://matplotlib.org/examples/)
  • matplotlib网站上的图库(https://matplotlib.org/gallery.html)
  • seaborn(https://seaborn.pydata.org/)
  • Bokeh(https://docs.bokeh.org/en/latest/)

27.3.5 R

  • R(https://www.r-project.org/)

27.4 寻找数据

  • Reddit的r/datasets论坛(https://www.reddit.com/r/datasets/)
  • Reddit的r/data论坛(https://www.reddit.com/r/data/)
  • 亚马逊网站的公共数据集(https://registry.opendata.aws/)
  • Kaggle(https://www.kaggle.com/)