自然语言处理

当前位置:首页 >> 专业课程 >> 自然语言处理
 

自然语言处理

授课时间:周XX下午第9-10节,16:05-17:40

授课地点:教406

一、课程概述

由语音识别和语音合成、自然语言理解、语义网络等技术相结合的智能语音交互正在逐步成为当前人机交互的主要方式。语音识别是以声波为研究对象,通过信号处理和识别技术让机器自动识别和转换为相应的文本或指令的一门技术。自然语言理解处于人类认知的核心,是高阶认知的基础,通常涉及词性、语法、语义及语用层面的分析。本课程面向大学生和低年级研究生,结合不同应用案例,介绍语音识别与自然语言理解技术的基本任务、前沿算法及发展前景。课程注重理论联系实践,培养学生智能化建模思维与动手能力。

二、授课目标

通过课程的学习,让学生了解语音语言信号处理的基础知识和概念以及人工神经网络理论与应用技术,使学生了解最新基于深度学习的自然语言处理理论,具备持续学习新理论和新技术的能力,能够适应行业的快速变化。通过实验,使学生掌握端到端语音识别与自然语言理解系统的前沿设计理念及方法,培养学生具有良好的问题分析与算法设计能力。

三、课程大纲

序号

标题

授课内容

授课时间

1

语音识别技术基础

·经典架构

·概率模型

·端到端语音识别

9/15

2

经典声学建模技术

·特征提取:MFCC矢量

·单音子模型

·依赖于上下文的声学模型:三音子

·特征变换与区分性训练

9/22

3

深度学习声学建模技术

·神经网络区分性训练

·端到端语音识别

9/29

4

语音识别应用实践

·Kaldi平台

·语音检索

·语音唤醒

·说话人识别

·实时在线语音识别

10/13

5

自然语言处理技术概论

·技术路线与范式

·发展概况及主要困难

10/20

6

自然语言处理技术的语言学基础

·语言的形式语法

·依存语法

·句法剖析

·语言的复杂性:Chomsky层级

·模型论语义学

10/27

7

自然语言处理任务分析

·文本分类

·词性标注

·命名实体识别

·词义消岐

·指代消解

·模板填充

11/3

8

基于统计的语言模型

·独热与稠密向量表征

·N-gram统计语言模型

·数据平滑的常用算法

·困惑度

11/10

9

基于神经网络的语言模型  

·神经语言模型

·副产品:词向量

·文本生成实战

11/17

10

Seq2Seq模型

·条件生成:编码解码器

·循环神经网络:序列和栈建模

·词性标注实战

11/24

11

注意力机制

·计算复杂性与可解释性

·Transformer模型

·GPT模型

·机器翻译实战

12/1

12

记忆网络

·神经图灵机

·问答系统实战

·机器阅读理解实战

12/8

13

多模态分析

·信息表征

·多模态问答实战

12/15

14

深度强化学习

·马尔科夫决策过程架构

·DQN模型

·经验回放机制

12/22

15

对话系统

·NLU模块设计

·NLG模块设计

·DM模块设计

12/29

16

结语

·语言、思维和理解

·再谈人工智能技术路线

1/5

 

四、预备知识

本课程应该在先学习完《Python语言程序设计》、《数字信号处理》和《机器学习》的前提下开设的专业课。

五、参考资料

[1] 《深度学习入门 – 基于Python的理论与实现》,斋藤康毅,人民邮电出版社,2018

[2] 《基于深度学习的自然语言处理》,约阿夫 戈尔德贝格,机械工业出版社,2018。

[3] <Deep Learning from Scratch 2>,斋藤康毅, O’Reilly, 2018

[4] 《自然语言处理综述(第二版)》,Daniel Jurafsky 等,电子工业出版社,2019

[5] 《深度学习》,伊恩 古德费洛等,人民邮电出版社,2017