入门数据分析最简单的途径就是去学习 Python 生态系统中,最流行也是最基础的库之一:Pandas,尤其对于从 Excel 转向 Python 的朋友来说,从效率到功能会发现很多惊喜。

为什么要使用 Python 这样的编程语言和 Pandas 库这样的工具来处理数据呢?为了实现自动化和再现性。如果需要对多个数据集执行一组特定的分析,那么编程语言能自动分析这些数据集。

Pandas 库能够完成许多任务,比如:

  • 读/写不同格式的数据
  • 选择数据的子集
  • 跨行/列计算
  • 寻找并填写缺失的数据
  • 在数据的独立组中应用操作
  • 重塑数据成不同格式
  • 合并多个数据集
  • 先进的时序功能
  • 通过 matplotlib 和 seaborn 进行可视化操作

Pandas 库提供的功能是相当全面的,通常是被用在数据采集和存储以及数据建模和预测中间的工具,更让人欣赏的一点是,Pandas 库集成了众多功能却不臃肿,其中一个原因是它提供的是重要却简洁的功能。

同样因为 Pandas 库易于自学,且互联网给大家提供了资源上的极大便利,很多人边实践边学习,在解决问题过程中,遇到不会的问题,搜索一下就能瞬间找到问题的答案并获得满足感,因此也导致很多入门者的知识和技能也是碎片式的。但我们知道,系统的学习会让你在使用 Pandas 库的时候更加高效。

这本数据分析入门必读的宝藏级教科书——《Python 数据分析:活用 Pandas 库》,助你一书掌握工作中相见恨晚的 Pandas 库使用技巧。

01 #本书亮点#

手把手教学,涵盖 Python 数据分析的方方面面

Pandas 库有很多高级的功能,但是想要掌握高级功能前,需要先掌握它的基础知识。这本书在开篇细致讲解了 Pandas 库的基础知识和常见用法,通过简单的实例展示了如何使用 Pandas 库解决复杂的现实问题,以及如何利用 matplotlib、seaborn、statsmodels 和 sklearn 等库辅助进行 Python 数据分析,涵盖了数据处理、数据可视化、数据建模等内容。

据说精读此书,相当于系统学习了 Python 数据分析的入门课程。

知乎上有一位图灵读者制作了这本书结构图,很直观地展示了书里所覆盖的知识点,手把手讲解,方方面面都安排上了。

enter image description here

本图来源于图灵读者的知乎文章,原文地址 https://zhuanlan.zhihu.com/p/242181755

以实例阐释概念,实用性强

本书最大的特点就是每个概念都是通过简单实例来阐述的。

讲解透彻,直击要点

这本书原版和中文版上市后都得到了众多读者好评。

enter image description here

enter image description here

enter image description here

enter image description here

图文并茂,简洁易懂

enter image description here

用 matplotlib 绘制带颜色的散点图

enter image description here

seaborn 计数图

enter image description here

使用 seaborn 的 distplot 方法绘图

图片

seaborn KDE 图

enter image description here

用 seaborn 的 violinplot 绘制小提琴图

02 #本书作者#

丹尼尔·陈(Daniel Y. Chen)

Lander Analytics 公司数据科学家,Software Carpentry 和 Data Carpentry 的讲师和课程维护人员,DataCamp 的课程讲师。目前在弗尼吉亚理工大学社会与决策分析实验室从事政策决策数据分析。