Python数据挖掘入门与实践
13推荐 收藏
20.7K阅读

Python数据挖掘入门与实践

Robert Layton (作者) 杜春晓 (译者)
全面释放Python的数据分析能力,轻松入门数据挖掘技术并将其应用于实际项目
本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。

夏至,珍惜最长一天

优惠码中输入“北半球”,订单满24-12。 输入“南半球”,你猜? 每张限用1次,6月25日过期。本活动第三方授权电子书不参与。

电子书
¥29.99
格式
mobi   pdf

纸质版定价
¥59.00

出版信息

  • 书  名Python数据挖掘入门与实践
  • 执行编辑关于本书的内容有任何问题,请联系 谢婷婷
  • 出版日期2016-07-05
  • 书  号978-7-115-42710-6
  • 定  价59.00 元
  • 页  数252
  • 印刷方式黑白
  • 开  本16开
  • 出版状态上市销售
  • 原书名Learning Data Mining with Python
  • 原书号9781784396053

本书特色

在数据规模急速膨胀的大数据时代,数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”:预测体育赛事结果、精确投放广告、根据作品的风格解决作者归属问题,等等。

本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的最佳实践!

- 理解决策树、朴素贝叶斯、支持向量机和深度学习
- 运用常见算法为解决现实问题建立数据模型
- 利用API从Reddit等网站获取数据集
- 从数据集中找出并提取特征
- 使用数据集设计并开发数据挖掘应用
- 基于实时数据,进行大数据处理

亚马逊读者评论:

“不错的数据挖掘读物。浅显易懂,是遇到类似问题时的绝佳参考书籍。”

“本书用简单通俗的语言讲解数据挖掘,并附有大量代码示例。强烈推荐给Python的新手用户和狂热爱好者。”

目录

版权声明 阅读
译者序 阅读
前言 阅读
第 1 章 开始数据挖掘之旅 阅读
第 2 章 用scikit-learn估计器分类
第 3 章 用决策树预测获胜球队
第 4 章 用亲和性分析方法推荐电影
第 5 章 用转换器抽取特征
第 6 章 使用朴素贝叶斯进行社会媒体挖掘
第 7 章 用图挖掘找到感兴趣的人
第 8 章 用神经网络破解验证码
第 9 章 作者归属问题
第 10 章 新闻语料分类
第 11 章 用深度学习方法为图像中的物体进行分类
第 12 章 大数据处理
附录 接下来的方向

作者介绍

作者:Robert Layton
计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

译者:杜春晓
英语语言文学学士,软件工程硕士。其他译著有《电子达人——我的第一本Raspberry Pi入门手册》《Python数据分析》。新浪微博:@宜_生。
  • 刚看完第1章,感觉书籍还可以,就是代码排版糟糕,与文字就这么杂糅在一起!
    另外本来翻译就是二次创作,难道翻译的时候也只照搬代码也不自己运行一下吗?
    单看书有些代码显得很莫名其妙的,比如第17页,model = {'feature': best_feature, 'predictor': all_predictors[best_feature][0]},然后下面莫名其妙的出现variable = model['variable'], model有'variable'这个key值吗?
    第9页, for conclusion in range(n_features), n_features整本书有且只有这一处出现,不猜的话还真不知道这是从哪儿跳出来的
    凡星  发表于 2016-11-09 10:30:21
    推荐
    • 您好,感谢指正。代码排版的风格与原书是一致的。您提到的第9页的问题,已在勘误表中加了注释。我们会尽快与译者沟通,确定您提的第17页的情况如何处理。再次感谢宝贵意见!

      谢婷婷  发表于 2016-11-09 15:05:58
  • 不知道电子版出不出
    Taipa  发表于 2016-06-17 16:38:09
    推荐
    • Taipa您好,这本书的电子版会在近期推出。请留意相关页面。感谢关注。

      谢婷婷  发表于 2016-06-20 08:56:56
    • 好的,非常感谢 ^-^

      Taipa  发表于 2016-06-20 16:13:05
    • @Taipa,《Python数据挖掘入门与实践》电子版已经推出。

      谢婷婷  发表于 2016-06-24 13:38:58
  • 想买这本书,但是找不到随书的代码和演示数据
    jqlts1  发表于 2016-06-24 10:47:44
    推荐
    • @jqlts1,您好,本书的示例代码和彩图已经上传,请点击“随书下载”查看。感谢提醒!

      谢婷婷  发表于 2016-06-24 13:38:16
  • 很想知道这本书里面的数据处理主要是基于numpy还是pandas库,现在老外的很多数据挖掘和机器学习的书的一个通病就是数据处理还是用numpy,这个太底层了,也不利于理解
    寻梦孤鸿  发表于 2016-06-24 17:44:33
    推荐
    • @寻梦孤鸿,您好。《Python数据挖掘入门与实践》既涉及NumPy也介绍pandas。本书还以pandas为例,演示如何加载和处理数据并用决策树预测体育赛事结果等。值得一读!

      谢婷婷  发表于 2016-06-27 08:41:29
  • 我来推荐下这本书,昨天刚读完。我觉得这本书适合对机器学习和数据挖掘感兴趣的入门者。里面关于数据挖掘的实践性很强,而且作者对scikit-learn很熟悉,好几处都有自己扩展sklearn的地方。我之前学习sklearn都是看user-guide,但是归阅读性不强,而且扩展的部分没有提及。跟我有类似情况的同学,本书上有很多sklearn的技巧,绝对可以让你过瘾。
    cer  发表于 2016-08-05 22:29:03
    推荐
    • 赞评论!您的感觉没错,本书作者不仅对scikit-learn很熟悉,而且参与过开发。

      谢婷婷  发表于 2016-08-08 08:41:28
  • 第三章NBA数据,随书下载没有,网上也没找到,麻烦你找一下发给我,邮箱:492623916@qq.com
    很着急!!!!!找了很久!!!
    shizhongbin  发表于 2016-09-27 21:04:18
    推荐
    • 您好,随书下载的文件压缩包里有一个名为Chapter 3的文件夹,其中有名为Basketball Results.ipynb的文件。请看看该文件是否为您要找的。若不是,请告知,我们会再帮您找找。

      谢婷婷  发表于 2016-09-28 09:29:18
    • 那个是代码,不是数据,这书要是找不到数据,等于白买了啊,急

      shizhongbin  发表于 2016-09-28 10:41:55
    • http://www.basketball-reference.com/leagues/NBA_2014_games.html
      Schedule and Results选项卡下,可按月份导出。书中截图用的是十月份的数据。

      杜春晓  发表于 2016-09-28 13:16:50
    • 下载NBA数据的步骤如下:

      1. 打开网页:http://www.basketball-reference.com/leagues/NBA_2014_games.html

      2. 点击October Schedule右侧的Share & more

      3. 点击下拉菜单中的Get table as CSV (for Excel)

      请看看通过以上步骤获得的是否为您找的数据。该网页最近改版了,因此与书中所述步骤有出入。请谅解!

      谢婷婷  发表于 2016-09-28 13:20:17
    • 用R语言XML包的函数 readHTMLTable( ) 读取网页表格,解决了问题。

      shizhongbin  发表于 2016-09-28 21:19:43
    • 现在没有导出按钮,只能读取页面数据。

      shizhongbin  发表于 2016-09-28 21:41:38
  • 在第五章中 我按照文章的实例做的练习 但是获取的数据还是有nan 在获取的代码包9 采用getdata.py获取数据是失败包11004错误
    Barnett  发表于 2017-03-06 16:03:05
    推荐
    • 把dropna函数的how='all'参数去掉

      杜春晓  发表于 2017-03-06 22:04:19
  • 您好 我在学习使用安然公司数据集做数据挖掘的学习中 page158 scores=cross_val_score(pipeline,documents,classes,scoring='f1')中pipeline是那个呢?
    Barnett  发表于 2017-03-06 19:14:54
    推荐
    • 看看配套代码里有吗

      杜春晓  发表于 2017-03-06 22:05:39
    • 配套代码里 在前面有一个关于pipeline的定义 但是总是报错 什么‘grid’未定义

      Barnett  发表于 2017-03-08 16:40:19
    • 可以到作者github本书仓库下提交问题

      杜春晓  发表于 2017-03-10 19:02:21
    • https://github.com/dataPipelineAU/LearningDataMiningWithPython

      杜春晓  发表于 2017-03-10 19:05:09
    • 好的 谢谢

      Barnett  发表于 2017-03-10 22:10:23
  • 该问题有什么好办法解决一下吗?requests.exceptions.SSLError: [SSL: TLSV1_ALERT_INTERNAL_ERROR] tlsv1 alert internal error
    Barnett  发表于 2017-03-09 10:20:58
    推荐
    • 在运行164页实例时出现的问题

      Barnett  发表于 2017-03-09 10:21:40
    • http://stackoverflow.com/questions/32910093/python-requests-gets-tlsv1-alert-internal-error 看看这个能帮到你吗

      杜春晓  发表于 2017-03-10 19:32:07
  • 在本书第十一章的193页output_layer.get_output报错为:AttributeError: 'DenseLayer' object has no attribute 'get_output'求解答
    Barnett  发表于 2017-03-10 17:06:12
    推荐
    • 试试get_output_fo()方法
      文档http://lasagne.readthedocs.io/en/latest/user/layers.html#creating-a-layer

      杜春晓  发表于 2017-03-10 19:39:09
    • get_output_for()

      杜春晓  发表于 2017-03-10 19:48:01
    • get_output_for可以使用但是在新的位置又出现错误 在output_layer=lasagne。。。的位置求解答

      Barnett  发表于 2017-03-10 22:27:50
  • 请问,是否可以提供每一章完整的数据集,谢谢。
    1492230500  发表于 2017-06-02 10:27:03
    推荐
    • 请问您具体需要哪一章的数据集?

      谢婷婷  发表于 2017-06-02 13:24:46
    • @谢婷婷 第6章,最好是每章都能有个参考的原版数据,方便与书中实例对照

      1492230500  发表于 2017-06-02 15:47:24
    • @1492230500 书中对于如何获取原始数据集有详细说明。建议按照书中步骤获取,不过可能需要“科学”上网。:)

      谢婷婷  发表于 2017-06-02 17:21:29
  • 运行第五章代码 scores = cross_val_score(clf, X, y, scoring='accuracy')的时候出现,ValueError: could not convert string to float: '?',请问是什么问题。
    1492230500  发表于 2017-06-02 10:32:34
    推荐
    • 这个问题我咨询一下译者,稍后回复。谢谢!

      谢婷婷  发表于 2017-06-02 13:25:35
    • 数据不干净。想办法把含有?号的行都删掉。

      kiwiyisheng  发表于 2017-06-02 14:00:42
    • @kiwiyisheng 不是使用的try except了吗?并没有抛出ValueError异常是怎么回事?

      1492230500  发表于 2017-06-02 14:30:30
    • @1492230500 前4列会都读成str格式,你要将?行都去掉,然后将前4列都用pandas命令astype替换成成float格式

      大大大大大大蚂蚁  发表于 2017-06-16 16:02:20
  • 第11章,深度学习原理未解释说明,用的深度学习库现不常用(tensorflow还是MXNET还是现阶段主流),最关键是最后说明了下用AMAZON的云计算平台的流程说明...贵啊....哎...
    大大大大大大蚂蚁  发表于 2017-06-16 16:00:21
    推荐
  • 随书下载的实例代码不能用下载下来后并不是一个ZIP文件是一堆路串码
    shadowM  发表于 2017-06-18 15:21:58
    推荐
    • 您说的是“随书下载”里的“Python数据挖掘入门与实践_示例代码.zip”这个文件吗?是ZIP文件,解压缩后有第1~12章的示例代码。请再试一下,如果下载仍然打不开,请告诉我您的电子邮箱,我直接发过去。

      谢婷婷  发表于 2017-06-19 09:35:21
  • 本书第四章51页的代码num_favorable_by_movie.sort("Favorable", ascending=False)[:5],我运行后出现错误
    AttributeError: 'DataFrame' object has no attribute 'sort'
    之前的代码运行都没有问题,就是这直接出错,网上查了查也没有具体的说法,求解答。谢谢
    Cerops_king  发表于 2017-06-24 13:51:40
    推荐