活动新闻
人工智能研究院首部译著《Python自然语言处理实战》发布
《Python自然语言处理实战》是人工智能研究院自2020年成立以来发布的首部译著,由研究院助理教授于延锁、教授刘强共同翻译,机械工业出版社出版。该书在北京市教委的大力支持下面世,全面介绍了自然语言处理的核心技术和实现方法。
通过大量基于Python的案例,《Python自然语言处理实战》使得复杂的NLP理论和算法变得简单明了。读者可以轻松学习自然语言处理从基础知识到最前沿技术的全过程,并快速运用所学知识解决实际问题。
《Python自然语言处理实战》精选了NLP和深度学习的精髓内容,特别涉及文本表示、文本分类、信息提取、主题建模以及聊天机器人等热点技术。通过详细的注释和图解,帮助读者清晰理解概念和原理。
内容简介
《Python自然语言处理实战》是深度学习和自然语言处理的入门教程,本书通过快速示例将学习与应用相结合,打造轻松学习、零压力学习的阅读氛围。
《Python自然语言处理实战》全面介绍了自然语言处理入门的必备知识,从学习与应用的角度出发,帮助您快速掌握深度学习AI技能。本书从NLP的概述开始,介绍了将文本分成句子、词干提取和词形还原、删除停用词和词性标注的方法,以帮助您准备数据。然后,您将了解提取和表示语法信息的方法,例如依存分析和指代消解,发现使用词袋、TF-IDF、词嵌入和BERT表示语义的不同方法,并使用关键字、SVM、LSTM和其他技术开发文本分类技能。随着学习的深入,您还将了解如何从文本中提取信息、实施无监督和有监督的主题建模技术,以及对短文本(如推文)进行主题建模。最后,本书介绍了如何使用NLTK和Rasa开发聊天机器人,以及可视化文本数据。另外,本书通过大量的示意图和案例代码力求使读者更好地理解晦涩难懂的专业术语,这些案例代码均可从本书的配套网址下载。
本书适合于不同层次和领域的研究人员及学生,是高等院校本科生和研究生人工智能课的首选教材,也是相关领域的科研与工程技术人员的重要参考书。
编辑推荐
Python是自然语言处理(NLP)中使用最广泛的语言,本书提供了大量的基于python的自然语言处理实战案例,内容很丰富,代码讲解清晰,适合初学入门。
目录
第1章学习NLP基础知识
1.1技术要求
1.2将文本分成句子
1.3将句子切分成单词——分词
1.4词性标注
1.5词干提取
1.6组合相似词——词形还原
1.7删除停用词
第2章玩转语法
2.1技术要求
2.2计数名词——复数名词和单数名词
2.3获取依存句法
2.4将句子拆分为从句
2.5提取名词块
2.6提取实体和关系
2.7提取句子的主语和宾语
2.8寻找引用——指代消解
第3章表示文本——捕获语义
3.1技术要求
3.2将文档放入词袋中
3.3构建n-gram模型
3.4用TF-IDF表示文本
3.5使用词嵌入
3.6训练您自己的嵌入模型
3.7表示短语——phrase2vec
3.8使用BERT代替词嵌入
3.9语义搜索入门
第4章文本分类
4.1技术要求
4.2准备好数据集和评估基准
4.3使用关键词执行基于规则的文本分类
4.4使用K-means聚类句子——无监督文本分类
4.5使用SVM进行有监督的文本分类
4.6使用LSTM进行有监督的文本分类
第5章信息提取入门
5.1技术要求
5.2使用正则表达式
5.3寻找相似的字符串:Levenshtein距离
5.4使用spaCy执行命名体识别
5.5用spaCy训练您自己的NER模型
5.6发现情感分析
5.7使用LSTM的短文本情感分析:Twitter
5.8使用BERT进行情感分析
第6章主题建模
6.1技术要求
6.2使用sklearn进行LDA主题建模
6.3使用gensim进行LDA主题建模
6.4NMF主题建模
6.5使用BERT进行K-means主题建模
6.6短文本主题建模
第7章构建聊天机器人
... ...
附录A spaCy词性标签列表
附录B NLTK词性标签列表
附录C 停用词列表
附录D spaCy命名实体标签
作者简介
真亚·安蒂科(Zhenya Antić),自然语言处理(NLP)专家,拥有麻省理工学院的计算机科学学士学位和加州大学伯克利分校的语言学博士学位。目前在Practical Liguistics Inc.工作,她通过自动化文本处理帮助企业改进流程并提高生产力。
译者简介
于延锁,北京石油化工学院助理教授,北京大学机器感知与智能教育部重点实验室言语听觉中心博士,主要研究领域为:语音合成、语音识别及自然语言处理等。参与国家自然科学基金2项, 863课题1项,核高基重大科技专项1项。在国内外核心期刊和会议上发表了多篇学术论文,其中SCI/EI收录5篇。多次参加Blizzard Challenge国际语音合成评测比赛,分别于2013年和2019年获得冠军和亚军的优异成绩。
刘强,博士,教授,博导,北京石油化工学院人工智能研究院院长,中韩人工智能国际联合研究中心主任、中国科学院计算机网络信息中心-北京石油化工学院人工智能联合实验室联席主任、北京肛肠学会医工结合研究中心主任。曾任职IBM中国研究院、中国电子信息产业集团等,担任研发和科研管理职位。近年来主要从事智能医学装备、智能机器人、人工智能芯片研究,研制成果包括眼科OCT光学相干断层扫描成像仪、眼科超广角眼底彩色照相机、便携式眼科OCT照相机、数字听诊器与肠鸣音分析系统、光谱治疗仪、生物药物智能机器人、医学影像智能分析系统(眼科影像、肠道CT)等,部分设备进入临床应用,发表论文20余篇,专利11项,软件著作权7项。兼任中关村电子商会人工智能专委会秘书长,中国石油化工信息学会理事、中国石油化工研究会理事、中国计算机学会人工智能专委会通讯委员。
(编辑:于延锁 审核:王文通 批准:刘强)