本书被Android开发者广为推荐。全书系统全面、循序渐进地介绍了Android软件开发的必备知识、经验和技巧...
本书内容源自淘宝技术大学的培训实战。由来自阿里巴巴集团的资深Linux系统专家赵鑫磊和同样来自阿里巴巴集团的支...
本书讲述了一个64位多核操作系统的自制过程。此操作系统自制过程是先从虚拟平台构筑起一个基础框架,随后再将基础框...
本书以介绍Go语言特性为主,示例则尽量采用作者开发团队平常的实践,内容涉及内存管理(堆和栈)、错误处理、OOP...
翻译是一门非常强调实践并依赖练习的手艺活,这本书是作者从翻译“票友”出发,走“野路”逐渐成长为翻译“熟手”的经...
本书全面介绍了深度学习知识,借助数学公式、示意图和代码,旨在帮助读者从数学层面、概念层面和应用层面理解神经网络...
编程是一项充满乐趣的挑战,想上手非常容易!在本书中,沃伦和卡特父子以亲切的笔调、通俗的语言,透彻、全面地介绍了...
本书是针对所有层次Python读者而作的Python入门书。全书分两部分:第一部分介绍用Python编程所必须...
本书分成书和卡片两部分,卡片相当于书的图片版,是供不能独立阅读本书的孩子使用的,使用方式是家长看书来讲解,孩子...
本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手。具体内容包括:Python...
1. Selenium 爬淘宝,没有考虑搜索结果展示方式——大图样式或者是条目样式,对应的展示方式不同,样式也有变。而示例中搜索关键字 iPad 默认不再是大图模式展示搜索结果,而改为了条目模式。
2. 对于 8.3 节中的点触验证码识别表示怀疑。主要原因是所给示例中的验证码相对简单,目前所见的验证码不仅有背景图片,关键是图片中的字加入了干扰——字体倾斜、扭曲。
3. 第 9.2 节代理池维护,要抓取的3个公共代理网站有2个失效,第2个网站早就关了,第3个现在做成了付费模式。
4. 书名《Python 3网络爬虫开发实战》名不符实,到第9章为止,能算的上实战的只有:猫眼电影排行,Ajax爬今日头条,Selenium爬淘宝商品,代理爬取微信公众号。至于利用Regex分析网页,这个真算不上实战,没有人用urllib获取网页,同样也没人用re解析页面结构。验证码识别其实讲的不错,《Python网络数据采集》一书就是这部分讲的浅而且不接地气儿。本书后半部分还有可能4、5个实战项目。
至于本书后半部分,由于没有读完,不好做评论。我想这本书主要问题是前边基础太多了,基础占比太大,有辱实战之名。前边开发环境配置和爬虫基础,另外数据库介绍部分等等也都是基础,尤其是 5.3.2 Redis 存储完全就是在贴文档。或许我读得技术书不算多,但我理解的实战就是类似于《Bootstrap实战》,每一章自开头到结尾就是一个项目的开发过程;至于Boostrap是什么,基本语法怎么用,根本没有这些,全书都是Bootstrap应用和定制化。
从内容范围上看,基本该说的都说了,范围要远大于爬虫新手书《Python网络数据采集》。本书更类似于《Python编程:从入门到实践》这样,从基础到项目的教学。
查了后才发现我用 的是3.7版本的python
其实虽然网上说的是python 3.5之后的lxml中不再有etree,但是其实这种说法是有问题的,虽然新版本无法直接from lxml import etree这样,但是它只不过是换了一个办法引出etree模块而已! 正确的引用方法是:
from lxml import html
text=```xxx```//测试的html文本
etree = html.etree
htmlDiv = etree.HTML(text)
title = htmls.xpath("//meta[1]/@content")
print(title)
1
2
3
4
5
6
同时,对于很多读者而言,现在我们缺的不是基础,而是项目实战以及思路。本书的前几章对于我来说真的是略显繁杂
仅是建议,期待作者能有更好的作品。