深度学习在自然语言处理中的应用 从词表征到ChatGPT
前言 iii
第 1章 绪论 1
1.1 机器学习简介 1
1.1.1 机器学习的发展历程 1
1.1.2 机器学习的算法分类 4
1.2 深度学习简介 5
1.3 自然语言处理简介 7
1.3.1 自然语言处理的发展历程 7
1.3.2 自然语言处理的研究方向 8
1.3.3 自然语言理解的主要任务 8
查看完整
第 1章 绪论 1
1.1 机器学习简介 1
1.1.1 机器学习的发展历程 1
1.1.2 机器学习的算法分类 4
1.2 深度学习简介 5
1.3 自然语言处理简介 7
1.3.1 自然语言处理的发展历程 7
1.3.2 自然语言处理的研究方向 8
1.3.3 自然语言理解的主要任务 8
查看完整
张镭目前在Meta公司从事机器学习算法研发。美国伊利诺伊大学芝加哥分校计算机科学博士,主要研究领域为自然语言处理、机器学习和数据挖掘。在国内外学术期刊和会议上已发表20多篇学术文章,获得多项美国专利,合著有Mining Text Data等4本关于文本数据挖掘和大数据计算的图书,并长期受邀担任自然语言处理国际期刊评委和国际会议程序委员会委员。
本书针对当前火热且应用前景广阔的自然语言处理(NLP),介绍了深度学习的技术原理及其在自然语言处理中的应用;简要分析了该领域各个应用方向上的相关模型和关键技术,包括Transformer、BERT、GPT,等等;汇集了众多论文中的重要思想和研究成果;系统梳理了技术发展脉络。此外,本书还介绍了如何使用深度学习技术来训练模型,并分析了其在应用中的表现及优化手段,以帮助读者更好地将理论应用于实践。本书内容通俗易懂,可作为入门自然语言处理的参考书。
前言 iii
第 1章 绪论 1
1.1 机器学习简介 1
1.1.1 机器学习的发展历程 1
1.1.2 机器学习的算法分类 4
1.2 深度学习简介 5
1.3 自然语言处理简介 7
1.3.1 自然语言处理的发展历程 7
1.3.2 自然语言处理的研究方向 8
1.3.3 自然语言理解的主要任务 8
1.3.4 自然语言生成的任务 14
1.3.5 自然语言处理面临的挑战 15
1.4 自然语言处理与机器学习和深度学习 16
第 2章 深度学习基础 17
2.1 前馈神经网络 17
2.2 卷积神经网络 20
2.3 循环神经网络 24
2.4 长短期记忆网络 26
2.5 记忆网络和神经图灵机 28
2.6 图神经网络 30
2.7 深度生成模型 33
2.7.1 自编码器和变分自编码器 34
2.7.2 生成对抗网络 39
2.8 Transformer 39
2.8.1 Transformer的编码模块 41
2.8.2 Transformer的解码模块 42
第3章 词表征 44
3.1 语言模型 45
3.2 基于矩阵的词分布表征模型 46
3.2.1 潜在语义分析 46
3.2.2 GloVe 47
3.3 基于聚类的词分布表征模型 48
3.4 基于神经网络的词分布表征模型 49
3.4.1 NNLM 50
3.4.2 RNNLM 52
3.4.3 Collobert-Weston模型 53
3.4.4 Word2Vec 54
3.4.5 ELMo 58
3.4.6 ULMFit 60
3.4.7 GPT 61
3.4.8 BERT 62
3.4.9 T5 64
3.5 跨语言的词嵌入模型 64
3.5.1 基于词对齐 65
3.5.2 基于预训练的方法 66
3.6 其他表征 67
第4章 注意力机制 69
4.1 注意力机制的由来 69
4.2 注意力机制的扩展 72
4.2.1 全局注意力和局部注意力 72
4.2.2 自注意力 75
4.3 NTM和MemNN的注意力机制 77
4.3.1 NTM的注意力机制 78
4.3.2 MemN2N的注意力机制 79
4.4 指针网络的注意力机制 81
第5章 迁移学习 83
5.1 迁移学习的定义和分类 83
5.2 领域自适应 86
5.2.1 基于样本的迁移学习 86
5.2.2 基于特征映射的迁移学习 88
5.2.3 基于对抗的深度迁移学习 91
5.3 多任务学习 91
5.4 序列迁移学习 94
5.4.1 预训练语言模型 95
5.4.2 微调 95
5.5 跨语言的迁移学习 97
第6章 强化学习 98
6.1 强化学习的定义 99
6.1.1 马尔可夫决策过程 99
6.1.2 强化学习的模型 100
6.1.3 智能体的策略 101
6.1.4 价值函数 101
6.2 贝尔曼方程 103
6.3 强化学习的分类 104
6.3.1 有模型学习 105
6.3.2 免模型学习 107
6.3.3 基于值函数和基于策略函数的学习 112
6.4 深度强化学习 115
6.5 深度强化学习在NLP中的应用 116
第7章 机器翻译 117
7.1 机器翻译的发展历程 117
7.2 神经机器翻译 118
7.3 基于RNN的Seq2Seq模型 120
7.4 基于CNN的Seq2Seq模型 124
7.5 神经机器翻译的策略 126
7.5.1 解码策略 126
7.5.2 估计softmax函数计算 127
7.5.3 缩小词典 127
7.5.4 处理生僻词和未知词 128
7.6 机器翻译的评价方法 129
7.6.1 人工评价 130
7.6.2 下游系统评价 130
7.6.3 BLEU 130
第8章 文本摘要 132
8.1 抽取式摘要 132
8.1.1 传统机器学习方法 133
8.1.2 深度学习方法 135
8.2 生成式摘要 136
8.2.1 传统机器学习方法 137
8.2.2 深度学习方法 137
8.3 文本摘要的评价 139
第9章 自动问答 140
9.1 基于检索的自动问答 140
9.1.1 文本检索模块 141
9.1.2 文本理解模块 143
9.2 基于知识库的自动问答 146
9.3 基于社区的自动问答 148
9.3.1 专家推荐 148
9.3.2 相似问题检索 149
9.3.3 答案质量评估 149
9.4 深度自动问答系统 150
9.4.1 抽取式机器阅读理解 150
9.4.2 生成式机器阅读理解 151
9.5 自动问答系统的评价 151
第 10章 对话系统 153
10.1 面向任务的对话系统 154
10.1.1 自然语言理解 155
10.1.2 对话管理 155
10.1.3 自然语言生成 157
10.2 开放域对话系统 158
10.2.1 检索式方法 159
10.2.2 生成式方法 159
10.2.3 混合方法 160
10.2.4 开放域对话系统的关键问题 160
10.3 对话系统的评测 162
第 11章 情感分析 164
11.1 情感分析的分类 165
11.1.1 文档级情感分析 166
11.1.2 句子级情感分析 167
11.1.3 方面级情感分析 168
11.1.4 监督学习和基于词典的方法比较 169
11.2 方面和实体提取 170
11.2.1 挖掘频繁出现的名词短语 170
11.2.2 利用情感词与目标词之间的语法关系 170
11.2.3 应用监督学习模型 171
11.2.4 使用主题模型 171
11.3 情感词典 172
11.3.1 基于词典的方法 172
11.3.2 基于语料库的方法 172
11.4 多模态情感分析 173
第 12章 ChatGPT 174
12.1 大型语言模型 174
12.1.1 语言模型的演化 175
12.1.2 大型语言模型的训练 176
12.1.3 语境学习 176
12.1.4 提示工程 177
12.2 基于人工反馈的强化学习方法 179
12.3 生成ChatGPT 180
12.3.1 步骤1:微调GPT-3.5 180
12.3.2 步骤2:训练奖励模型 180
12.3.3 步骤3:利用强化学习微调ChatGPT 181
12.4 ChatGPT的发展 181
参考文献 183
^ 收 起
第 1章 绪论 1
1.1 机器学习简介 1
1.1.1 机器学习的发展历程 1
1.1.2 机器学习的算法分类 4
1.2 深度学习简介 5
1.3 自然语言处理简介 7
1.3.1 自然语言处理的发展历程 7
1.3.2 自然语言处理的研究方向 8
1.3.3 自然语言理解的主要任务 8
1.3.4 自然语言生成的任务 14
1.3.5 自然语言处理面临的挑战 15
1.4 自然语言处理与机器学习和深度学习 16
第 2章 深度学习基础 17
2.1 前馈神经网络 17
2.2 卷积神经网络 20
2.3 循环神经网络 24
2.4 长短期记忆网络 26
2.5 记忆网络和神经图灵机 28
2.6 图神经网络 30
2.7 深度生成模型 33
2.7.1 自编码器和变分自编码器 34
2.7.2 生成对抗网络 39
2.8 Transformer 39
2.8.1 Transformer的编码模块 41
2.8.2 Transformer的解码模块 42
第3章 词表征 44
3.1 语言模型 45
3.2 基于矩阵的词分布表征模型 46
3.2.1 潜在语义分析 46
3.2.2 GloVe 47
3.3 基于聚类的词分布表征模型 48
3.4 基于神经网络的词分布表征模型 49
3.4.1 NNLM 50
3.4.2 RNNLM 52
3.4.3 Collobert-Weston模型 53
3.4.4 Word2Vec 54
3.4.5 ELMo 58
3.4.6 ULMFit 60
3.4.7 GPT 61
3.4.8 BERT 62
3.4.9 T5 64
3.5 跨语言的词嵌入模型 64
3.5.1 基于词对齐 65
3.5.2 基于预训练的方法 66
3.6 其他表征 67
第4章 注意力机制 69
4.1 注意力机制的由来 69
4.2 注意力机制的扩展 72
4.2.1 全局注意力和局部注意力 72
4.2.2 自注意力 75
4.3 NTM和MemNN的注意力机制 77
4.3.1 NTM的注意力机制 78
4.3.2 MemN2N的注意力机制 79
4.4 指针网络的注意力机制 81
第5章 迁移学习 83
5.1 迁移学习的定义和分类 83
5.2 领域自适应 86
5.2.1 基于样本的迁移学习 86
5.2.2 基于特征映射的迁移学习 88
5.2.3 基于对抗的深度迁移学习 91
5.3 多任务学习 91
5.4 序列迁移学习 94
5.4.1 预训练语言模型 95
5.4.2 微调 95
5.5 跨语言的迁移学习 97
第6章 强化学习 98
6.1 强化学习的定义 99
6.1.1 马尔可夫决策过程 99
6.1.2 强化学习的模型 100
6.1.3 智能体的策略 101
6.1.4 价值函数 101
6.2 贝尔曼方程 103
6.3 强化学习的分类 104
6.3.1 有模型学习 105
6.3.2 免模型学习 107
6.3.3 基于值函数和基于策略函数的学习 112
6.4 深度强化学习 115
6.5 深度强化学习在NLP中的应用 116
第7章 机器翻译 117
7.1 机器翻译的发展历程 117
7.2 神经机器翻译 118
7.3 基于RNN的Seq2Seq模型 120
7.4 基于CNN的Seq2Seq模型 124
7.5 神经机器翻译的策略 126
7.5.1 解码策略 126
7.5.2 估计softmax函数计算 127
7.5.3 缩小词典 127
7.5.4 处理生僻词和未知词 128
7.6 机器翻译的评价方法 129
7.6.1 人工评价 130
7.6.2 下游系统评价 130
7.6.3 BLEU 130
第8章 文本摘要 132
8.1 抽取式摘要 132
8.1.1 传统机器学习方法 133
8.1.2 深度学习方法 135
8.2 生成式摘要 136
8.2.1 传统机器学习方法 137
8.2.2 深度学习方法 137
8.3 文本摘要的评价 139
第9章 自动问答 140
9.1 基于检索的自动问答 140
9.1.1 文本检索模块 141
9.1.2 文本理解模块 143
9.2 基于知识库的自动问答 146
9.3 基于社区的自动问答 148
9.3.1 专家推荐 148
9.3.2 相似问题检索 149
9.3.3 答案质量评估 149
9.4 深度自动问答系统 150
9.4.1 抽取式机器阅读理解 150
9.4.2 生成式机器阅读理解 151
9.5 自动问答系统的评价 151
第 10章 对话系统 153
10.1 面向任务的对话系统 154
10.1.1 自然语言理解 155
10.1.2 对话管理 155
10.1.3 自然语言生成 157
10.2 开放域对话系统 158
10.2.1 检索式方法 159
10.2.2 生成式方法 159
10.2.3 混合方法 160
10.2.4 开放域对话系统的关键问题 160
10.3 对话系统的评测 162
第 11章 情感分析 164
11.1 情感分析的分类 165
11.1.1 文档级情感分析 166
11.1.2 句子级情感分析 167
11.1.3 方面级情感分析 168
11.1.4 监督学习和基于词典的方法比较 169
11.2 方面和实体提取 170
11.2.1 挖掘频繁出现的名词短语 170
11.2.2 利用情感词与目标词之间的语法关系 170
11.2.3 应用监督学习模型 171
11.2.4 使用主题模型 171
11.3 情感词典 172
11.3.1 基于词典的方法 172
11.3.2 基于语料库的方法 172
11.4 多模态情感分析 173
第 12章 ChatGPT 174
12.1 大型语言模型 174
12.1.1 语言模型的演化 175
12.1.2 大型语言模型的训练 176
12.1.3 语境学习 176
12.1.4 提示工程 177
12.2 基于人工反馈的强化学习方法 179
12.3 生成ChatGPT 180
12.3.1 步骤1:微调GPT-3.5 180
12.3.2 步骤2:训练奖励模型 180
12.3.3 步骤3:利用强化学习微调ChatGPT 181
12.4 ChatGPT的发展 181
参考文献 183
^ 收 起
张镭目前在Meta公司从事机器学习算法研发。美国伊利诺伊大学芝加哥分校计算机科学博士,主要研究领域为自然语言处理、机器学习和数据挖掘。在国内外学术期刊和会议上已发表20多篇学术文章,获得多项美国专利,合著有Mining Text Data等4本关于文本数据挖掘和大数据计算的图书,并长期受邀担任自然语言处理国际期刊评委和国际会议程序委员会委员。
本书针对当前火热且应用前景广阔的自然语言处理(NLP),介绍了深度学习的技术原理及其在自然语言处理中的应用;简要分析了该领域各个应用方向上的相关模型和关键技术,包括Transformer、BERT、GPT,等等;汇集了众多论文中的重要思想和研究成果;系统梳理了技术发展脉络。此外,本书还介绍了如何使用深度学习技术来训练模型,并分析了其在应用中的表现及优化手段,以帮助读者更好地将理论应用于实践。本书内容通俗易懂,可作为入门自然语言处理的参考书。
比价列表
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠