推 荐 语

最近几年 NLP 的研究进入高潮。很多人都想学习 NLP 但是不知道如何开始,目前国内NLP 领域急需更多入门好书,HanLP 作者何晗即将出版的这本《自然语言处理入门》值得一读。这本书比较系统地介绍了 NLP 的基础技术,深入浅出、容易理解,对初学者很有帮助。

——周明,微软亚洲研究院副院长,国际计算语言学会会长

自然语言处理是人工智能最核心也最具挑战的领域,我衷心希望有更多的人能加入这个领域的技术研究、开发、应用之中。相信何晗的这本《自然语言处理入门》会对大家有很大的帮助。本书以 GitHub 开源项目 HanLP 的代码实现为基础,介绍了从分词到句法分析再到深度学习的自然语言处理最基本的技术。本书叙述简洁清晰,讲解透彻深入,非常适合初学者。强烈推荐!

——李航,字节跳动人工智能实验室总监,《统计学习方法》作者

作者从实践的角度用通俗易懂的语言解释自然语言处理的概念,用应用实例和类程序语言描述算法,有鲜明的特色和很强的实用性,我相信这本书会深受读者的欢迎。

——宗成庆,中国科学院自动化研究所研究员、博士生导师,《统计自然语言处理》作者

本书作者何晗原来也是一个自然语言的爱好者,现在已成为自然语言处理的专业人士,美国埃默里大学计算机科学专业的博士生。他自主开发了一套完全开放源代码的自然语言处理工具包 HanLP,受到使用者的好评。这本书依托于 HanLP 工具包,从基本的概念和原理出发,讲解了自然语言处理中一些常用的问题和算法。我相信这本书融入了作者对这个领域各项技术的深刻理解和切身体会,一定会是一本非常好的入门书。

——刘群,华为诺亚方舟实验室语音语义首席科学家

这本书不仅介绍了 NLP 的任务及算法,也提供了可以实际运行的生产级代码,非常适合NLP 初学者入门并快速布置到生产环境。本书的文字十分流畅,连标点符号都鲜有错误,展示了作者严谨的写作态度和极强的文字能力。虽然本书深度学习相关的篇幅不多,但是了解传统的 NLP 方法能够大大提升对问题的理解能力,推荐阅读!

——王斌,小米人工智能实验室主任、NLP 首席科学家

近年来人工智能技术应用日益广泛深入,自然语言处理(NLP)也随之成为一门“显学”。作为教计算机学习理解和使用人类语言的学科,NLP 在搜索引擎、推荐系统、社会计算、智能音箱、机器翻译等几乎所有与“语言”有关的方向发挥着重要作用。由于人类语言的复杂特点, NLP 所涉及的基础知识和技术非常多,虽然国内外有一些经典的教材,但与实际应用密切结合深入浅出讲授的著作凤毛麟角。本书作者是著名的中文 NLP 工具包 HanLP 的开发者,本书结合 HanLP 细致讲解 NLP 的关键技术,是上手 NLP 的优秀读物。我非常高兴将这本书推荐给对NLP 感兴趣的朋友们。

——刘知远,清华大学副教授,MIT“35 岁以下科技创新 35 人”中国区榜单获得者

大数据与人工智能已经成为当今世界各国的战略必争之地,自然语言处理是人工智能科学皇冠上的明珠,大数据为自然语言处理的跨越式发展提供了算源与算力基础。HanLP 吸收了我所开源的汉语分词系统 ICTCLAS 的精髓,何晗跟我深入讨论过我发表的论文,其学习能力与勤奋严谨给我留下了深刻印象。何晗结合 HanLP 宝贵的开发经验与 NLP 领域最新研究成果所写的这本书,是一部难得的 NLP 启蒙之作,推荐阅读。

——张华平,北京理工大学副教授、NLPIR-ICTCLAS 创始人,钱伟长中文信息处理科学技术奖一等奖获得者

几年前,第一次得知 HanLP 的作者何晗是上外一名非科班同学时,我很吃惊。要知道,即使科班出身,要开发一个如此完备的 NLP 工具都相当有挑战,更不用说 HanLP 在中文 NLP 开源领域还相当成功了。而今,何晗在美国就读 CS 领域的博士,他在课余时间坚持写作,结合自己的学习历程和 HanLP 的开发经验给大家呈现了一本不太一样的 NLP 入门书。我很乐意把这本书推荐给大家。

——杨攀,我爱自然语言处理(52nlp)博主,公众号 AINLP 主理人

目录

  • 推荐序
  • 推 荐 语
  • 前  言
  • 主要数学符号表
  • 第1章 新手上路
  • 第2章 词典分词
  • 第3章 二元语法与中文分词
  • 第4章 隐马尔可夫模型与序列标注
  • 第5章 感知机分类与序列标注 
  • 第6章 条件随机场与序列标注
  • 第7章 词性标注
  • 第8章 命名实体识别
  • 第9章 信息抽取 
  • 第10章 文本聚类
  • 第11章 文本分类
  • 第12章 依存句法分析
  • 第13章 深度学习与自然语言处理