Python数据挖掘入门与实践
13推荐 收藏
23.1K阅读

Python数据挖掘入门与实践

Robert Layton (作者) 杜春晓 (译者)
全面释放Python的数据分析能力,轻松入门数据挖掘技术并将其应用于实际项目
本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布等。

电子书
¥29.99
格式
mobi   pdf

纸质书
¥53.10 ¥59.00

出版信息

  • 书  名Python数据挖掘入门与实践
  • 执行编辑关于本书的内容有任何问题,请联系 谢婷婷
  • 出版日期2016-07-05
  • 书  号978-7-115-42710-6
  • 定  价59.00 元
  • 页  数252
  • 印刷方式黑白
  • 开  本16开
  • 出版状态上市销售
  • 原书名Learning Data Mining with Python
  • 原书号9781784396053

所属分类

本书特色

在数据规模急速膨胀的大数据时代,数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”:预测体育赛事结果、精确投放广告、根据作品的风格解决作者归属问题,等等。

本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的最佳实践!

- 理解决策树、朴素贝叶斯、支持向量机和深度学习
- 运用常见算法为解决现实问题建立数据模型
- 利用API从Reddit等网站获取数据集
- 从数据集中找出并提取特征
- 使用数据集设计并开发数据挖掘应用
- 基于实时数据,进行大数据处理

亚马逊读者评论:

“不错的数据挖掘读物。浅显易懂,是遇到类似问题时的绝佳参考书籍。”

“本书用简单通俗的语言讲解数据挖掘,并附有大量代码示例。强烈推荐给Python的新手用户和狂热爱好者。”

目录

版权声明 阅读
译者序 阅读
前言 阅读
第 1 章 开始数据挖掘之旅 阅读
第 2 章 用scikit-learn估计器分类
第 3 章 用决策树预测获胜球队
第 4 章 用亲和性分析方法推荐电影
第 5 章 用转换器抽取特征
第 6 章 使用朴素贝叶斯进行社会媒体挖掘
第 7 章 用图挖掘找到感兴趣的人
第 8 章 用神经网络破解验证码
第 9 章 作者归属问题
第 10 章 新闻语料分类
第 11 章 用深度学习方法为图像中的物体进行分类
第 12 章 大数据处理
附录 接下来的方向

作者介绍

作者:Robert Layton
计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

译者:杜春晓
英语语言文学学士,软件工程硕士。其他译著有《电子达人——我的第一本Raspberry Pi入门手册》《Python数据分析》。新浪微博:@宜_生。

大家也喜欢

  • Python机器学习经典实例

    Prateek Joshi   陶俊杰   陈小莉   译

    在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化。它已经被广泛地应用于不同领域,如搜索引擎、机器人...

  • 流畅的Python

    [巴西] Luciano Ramalho   安道   吴珂   译

    【主要内容】 本书致力于帮助Python开发人员挖掘这门语言及相关程序库的优秀特性,避免重复劳动,同时写...

  • Python项目开发实战(第2版)

    BePROUD股份有限公司   支鹏浩   译

    本书来自真正的开发现场,是BePROUD公司众多极客在真实项目中的经验总结和智慧结晶。作者从Python的环境...

  • Python科学计算基础教程

    Hemant Kumar Mehta   陶俊杰 陈小莉   译

    Python因为其自身的诸多优点而成为科学计算的极佳选择。本书是将Python用于科学计算的实用指南,既介绍了...

  • Python网络编程(第3版)

    [美]Brandon Rhodes   [美]John Goerzen   诸豪文   译

    本书针对想要深入理解使用Python来解决网络相关问题或是构建网络应用程序的技术人员,结合实例讲解了网络协议、...

  • 刚看完第1章,感觉书籍还可以,就是代码排版糟糕,与文字就这么杂糅在一起!
    另外本来翻译就是二次创作,难道翻译的时候也只照搬代码也不自己运行一下吗?
    单看书有些代码显得很莫名其妙的,比如第17页,model = {'feature': best_feature, 'predictor': all_predictors[best_feature][0]},然后下面莫名其妙的出现variable = model['variable'], model有'variable'这个key值吗?
    第9页, for conclusion in range(n_features), n_features整本书有且只有这一处出现,不猜的话还真不知道这是从哪儿跳出来的
    凡星  发表于 2016-11-09 10:30:21
    推荐
    • 您好,感谢指正。代码排版的风格与原书是一致的。您提到的第9页的问题,已在勘误表中加了注释。我们会尽快与译者沟通,确定您提的第17页的情况如何处理。再次感谢宝贵意见!

      谢婷婷  发表于 2016-11-09 15:05:58
  • 不知道电子版出不出
    Taipa  发表于 2016-06-17 16:38:09
    推荐
    • Taipa您好,这本书的电子版会在近期推出。请留意相关页面。感谢关注。

      谢婷婷  发表于 2016-06-20 08:56:56
    • 好的,非常感谢 ^-^

      Taipa  发表于 2016-06-20 16:13:05
    • @Taipa,《Python数据挖掘入门与实践》电子版已经推出。

      谢婷婷  发表于 2016-06-24 13:38:58
  • 想买这本书,但是找不到随书的代码和演示数据
    jqlts1  发表于 2016-06-24 10:47:44
    推荐
    • @jqlts1,您好,本书的示例代码和彩图已经上传,请点击“随书下载”查看。感谢提醒!

      谢婷婷  发表于 2016-06-24 13:38:16
  • 很想知道这本书里面的数据处理主要是基于numpy还是pandas库,现在老外的很多数据挖掘和机器学习的书的一个通病就是数据处理还是用numpy,这个太底层了,也不利于理解
    寻梦孤鸿  发表于 2016-06-24 17:44:33
    推荐
    • @寻梦孤鸿,您好。《Python数据挖掘入门与实践》既涉及NumPy也介绍pandas。本书还以pandas为例,演示如何加载和处理数据并用决策树预测体育赛事结果等。值得一读!

      谢婷婷  发表于 2016-06-27 08:41:29
  • 我来推荐下这本书,昨天刚读完。我觉得这本书适合对机器学习和数据挖掘感兴趣的入门者。里面关于数据挖掘的实践性很强,而且作者对scikit-learn很熟悉,好几处都有自己扩展sklearn的地方。我之前学习sklearn都是看user-guide,但是归阅读性不强,而且扩展的部分没有提及。跟我有类似情况的同学,本书上有很多sklearn的技巧,绝对可以让你过瘾。
    cer  发表于 2016-08-05 22:29:03
    推荐
    • 赞评论!您的感觉没错,本书作者不仅对scikit-learn很熟悉,而且参与过开发。

      谢婷婷  发表于 2016-08-08 08:41:28
  • 在第五章中 我按照文章的实例做的练习 但是获取的数据还是有nan 在获取的代码包9 采用getdata.py获取数据是失败包11004错误
    Barnett  发表于 2017-03-06 16:03:05
    推荐
    • 把dropna函数的how='all'参数去掉

      杜春晓  发表于 2017-03-06 22:04:19
  • 您好 我在学习使用安然公司数据集做数据挖掘的学习中 page158 scores=cross_val_score(pipeline,documents,classes,scoring='f1')中pipeline是那个呢?
    Barnett  发表于 2017-03-06 19:14:54
    推荐
    • 看看配套代码里有吗

      杜春晓  发表于 2017-03-06 22:05:39
    • 配套代码里 在前面有一个关于pipeline的定义 但是总是报错 什么‘grid’未定义

      Barnett  发表于 2017-03-08 16:40:19
    • 可以到作者github本书仓库下提交问题

      杜春晓  发表于 2017-03-10 19:02:21
    • https://github.com/dataPipelineAU/LearningDataMiningWithPython

      杜春晓  发表于 2017-03-10 19:05:09
    • 好的 谢谢

      Barnett  发表于 2017-03-10 22:10:23
  • 该问题有什么好办法解决一下吗?requests.exceptions.SSLError: [SSL: TLSV1_ALERT_INTERNAL_ERROR] tlsv1 alert internal error
    Barnett  发表于 2017-03-09 10:20:58
    推荐
    • 在运行164页实例时出现的问题

      Barnett  发表于 2017-03-09 10:21:40
    • http://stackoverflow.com/questions/32910093/python-requests-gets-tlsv1-alert-internal-error 看看这个能帮到你吗

      杜春晓  发表于 2017-03-10 19:32:07
  • 在本书第十一章的193页output_layer.get_output报错为:AttributeError: 'DenseLayer' object has no attribute 'get_output'求解答
    Barnett  发表于 2017-03-10 17:06:12
    推荐
    • 试试get_output_fo()方法
      文档http://lasagne.readthedocs.io/en/latest/user/layers.html#creating-a-layer

      杜春晓  发表于 2017-03-10 19:39:09
    • get_output_for()

      杜春晓  发表于 2017-03-10 19:48:01
    • get_output_for可以使用但是在新的位置又出现错误 在output_layer=lasagne。。。的位置求解答

      Barnett  发表于 2017-03-10 22:27:50
  • 请问,是否可以提供每一章完整的数据集,谢谢。
    1492230500  发表于 2017-06-02 10:27:03
    推荐
    • 请问您具体需要哪一章的数据集?

      谢婷婷  发表于 2017-06-02 13:24:46
    • @谢婷婷 第6章,最好是每章都能有个参考的原版数据,方便与书中实例对照

      1492230500  发表于 2017-06-02 15:47:24
    • @1492230500 书中对于如何获取原始数据集有详细说明。建议按照书中步骤获取,不过可能需要“科学”上网。:)

      谢婷婷  发表于 2017-06-02 17:21:29
  • 运行第五章代码 scores = cross_val_score(clf, X, y, scoring='accuracy')的时候出现,ValueError: could not convert string to float: '?',请问是什么问题。
    1492230500  发表于 2017-06-02 10:32:34
    推荐
    • 这个问题我咨询一下译者,稍后回复。谢谢!

      谢婷婷  发表于 2017-06-02 13:25:35
    • 数据不干净。想办法把含有?号的行都删掉。

      kiwiyisheng  发表于 2017-06-02 14:00:42
    • @kiwiyisheng 不是使用的try except了吗?并没有抛出ValueError异常是怎么回事?

      1492230500  发表于 2017-06-02 14:30:30
    • @1492230500 前4列会都读成str格式,你要将?行都去掉,然后将前4列都用pandas命令astype替换成成float格式

      大大大大大大蚂蚁  发表于 2017-06-16 16:02:20
  • 第11章,深度学习原理未解释说明,用的深度学习库现不常用(tensorflow还是MXNET还是现阶段主流),最关键是最后说明了下用AMAZON的云计算平台的流程说明...贵啊....哎...
    大大大大大大蚂蚁  发表于 2017-06-16 16:00:21
    推荐
  • 随书下载的实例代码不能用下载下来后并不是一个ZIP文件是一堆路串码
    shadowM  发表于 2017-06-18 15:21:58
    推荐
    • 您说的是“随书下载”里的“Python数据挖掘入门与实践_示例代码.zip”这个文件吗?是ZIP文件,解压缩后有第1~12章的示例代码。请再试一下,如果下载仍然打不开,请告诉我您的电子邮箱,我直接发过去。

      谢婷婷  发表于 2017-06-19 09:35:21
  • 本书第四章51页的代码num_favorable_by_movie.sort("Favorable", ascending=False)[:5],我运行后出现错误
    AttributeError: 'DataFrame' object has no attribute 'sort'
    之前的代码运行都没有问题,就是这直接出错,网上查了查也没有具体的说法,求解答。谢谢
    Cerops_king  发表于 2017-06-24 13:51:40
    推荐
    • 已经改成sort_values了

      s3040608090  发表于 2017-07-07 15:06:58
  • 书看到一半,忍不住上来捉几个虫:
    p64面的代码中间,有一句Using pandas as before, we load the file with read_csv:漏翻译了,应该是因为它夹在代码中间译者没有注意到。
    p71面“p值为-1到1之间的任意值。。”第一句就知道不对了,显然这里指的不是p值而是皮尔逊相关系数。不知道是作者的疏忽还是译者不小心,这会对统计基础薄弱的人造成误导,望及时修正。
    另外书中涉及一些函数和模块现在名字已经改变了,涉及太多不一一列出。。一般报错的时候会提示(@Cerops_king 的问题源自与此。dataframe的sort方法已经改名为sort_values。所以运行本书第四章51页的代码num_favorable_by_movie.sort("Favorable", ascending=False)[:5],会出现错误
    AttributeError: 'DataFrame' object has no attribute 'sort')。
    还有一个是作者给dataframe增加索引的方式一般是,比如dataframe['New index'] = dataframe['feature1'] > 100,虽然常常是有效的不过会被提示你在给一个对象的拷贝而不是原对象赋值。推荐的做法是dataframe.loc[:,'New index'] = dataframe.loc[:,'feature1'] > 100
    s3040608090  发表于 2017-07-07 15:04:16
    推荐
    • @s3040608090

      您好!感谢您的宝贵意见。

      Using pandas as before, we load the file with read_csv漏译的这一句,已经在勘误中注明。

      您指出的“p值为-1到1之间的任意值”这个问题,这里确实应该译为皮尔逊相关系数。感谢指正!

      谢婷婷  发表于 2017-07-07 15:51:55