文本数据挖掘

作者：宗成庆、夏睿、张家俊
出版：清华大学出版社 2019.6
定价：75.00 元
ISBN-13：9787302519904
ISBN-10：7302519900 去豆瓣看看

0 0暂无人评价...

　　第 1章绪论 .1
　　1.1基本概念 1
　　1.2文本挖掘任务 .2
　　1.3文本挖掘面临的困难 .5
　　1.4方法概述与本书的内容组织 .7
　　1.5进一步阅读 .9
　　第 2章数据预处理和标注 . 11
　　2.1数据获取 11
　　2.2数据预处理 . 15
　　2.3数据标注 17
　　2.4基本工具 19
　　2.4.1汉语自动分词与词性标注 19
　　2.4.2句法分析 . 20
　　2.4.3 n元语法模型 . 21
　　2.5进一步阅读 . 22
　　第 3章文本表示 . 23
　　3.1向量空间模型 . 23
　　3.1.1向量空间模型的基本概念 23
　　3.1.2特征项的构造与权重 . 24
　　3.1.3文本长度规范化 . 25
　　3.1.4特征工程 . 26
　　3.1.5其他文本表示方法 27
　　3.2词的分布式表示 29
　　3.2.1神经网络语言模型 29
　　3.2.2 C&W模型 . 32
　　3.2.3 CBOW与 Skip-gram模型 34
　　3.2.4噪声对比估计与负采样 . 35
　　3.2.5字词混合的分布式表示方法 . 37
　　3.3短语的分布式表示 . 38
　　3.3.1基于词袋的分布式表示 . 39
　　3.3.2基于自动编码器的分布式表示 . 39
　　3.4句子的分布式表示 . 42
　　3.4.1通用的句子表示 . 42
　　3.4.2任务相关的句子表示 . 45
　　3.5文档的分布式表示 . 48
　　3.5.1通用的文档分布式表示 . 48
　　3.5.2任务相关的文档分布式表示 . 49
　　3.6进一步阅读 . 52
　　第 4章文本分类 . 53
　　4.1概述 . 53
　　4.2传统文本表示 . 54
　　4.3特征选择 55
　　4.3.1互信息法 . 55
　　4.3.2信息增益法 58
　　4.3.3卡方统计量法 . 59
　　4.3.4其他方法 . 60
　　4.4传统分类算法 . 61
　　4.4.1朴素贝叶斯模型 . 61
　　4.4.2 Logistic回归、 Softmax回归与熵模型 . 63
　　4.4.3支持向量机 65
　　4.4.4集成学习 . 67
　　4.5深度神经网络方法 . 68
　　4.5.1多层前馈神经网络 68
　　4.5.2卷积神经网络 . 69
　　4.5.3循环神经网络 . 71
　　4.6文本分类性能评估 . 78
　　4.7进一步阅读 . 81
　　第 5章文本聚类 . 83
　　5.1概述 . 83
　　5.2文本相似性度量 83
　　5.2.1样本间的相似性 . 83
　　5.2.2簇间的相似性 . 86
　　目录 IX
　　5.2.3样本与簇之间的相似性 . 87
　　5.3文本聚类算法 . 87
　　5.3.1 K-均值聚类 . 87
　　5.3.2单遍聚类 . 91
　　5.3.3层次聚类 . 92
　　5.3.4密度聚类 . 95
　　5.4性能评估 97
　　5.4.1外部标准 . 97
　　5.4.2内部标准 . 99
　　5.5进一步阅读 . 99
　　第 6章主题模型 . 101
　　6.1概述 . 101
　　6.2潜在语义分析 . 102
　　6.2.1奇异值分解 102
　　6.2.2词项 -文档矩阵的奇异值分解 103
　　6.2.3词项和文档的概念表示及相似度计算 . 104
　　6.3概率潜在语义分析 . 106
　　6.3.1模型假设 . 106
　　6.3.2参数学习 . 107
　　6.4潜在狄利克雷分布 . 108
　　6.4.1模型假设 . 108
　　6.4.2词项和主题序列的联合概率 . 110
　　6.4.3模型推断 . 112
　　6.4.4新文档的推断 . 114
　　6.4.5 PLSA与 LDA的联系与区别 . 115
　　6.5进一步阅读 . 115
　　第 7章情感分析与观点挖掘 117
　　7.1概述 . 117
　　7.2情感分析任务类型 . 118
　　7.2.1按目标形式划分 . 118
　　7.2.2按分析粒度划分 . 119
　　7.3文档或句子级情感分析方法 . 121
　　7.3.1基于规则的无监督情感分类 . 122
　　7.3.2基于传统机器学习的监督情感分类 . 123
　　7.3.3深度神经网络方法 126
　　文本数据挖掘
　　7.4词语级情感分析与情感词典构建 . 131
　　7.4.1基于语义知识库的方法 . 131
　　7.4.2基于语料库的方法 131
　　7.4.3情感词典性能评估 134
　　7.5属性级情感分析 134
　　7.5.1属性抽取 . 135
　　7.5.2属性情感分类 . 138
　　7.5.3主题与情感的生成式建模 141
　　7.6情感分析中的特殊问题 143
　　7.6.1情感极性转移问题 143
　　7.6.2领域适应问题 . 145
　　7.7进一步阅读 . 147
　　第 8章话题检测与跟踪 . 149
　　8.1概述 . 149
　　8.2术语与任务 . 151
　　8.2.1术语 151
　　8.2.2任务 152
　　8.3报道或话题的表示与相似性计算 . 154
　　8.4话题检测 156
　　8.4.1话题在线检测 . 157
　　8.4.2话题回溯检测 . 158
　　8.5话题跟踪 159
　　8.6评估方法 160
　　8.7社交媒体话题检测与跟踪 . 161
　　8.7.1社交媒体话题检测 162
　　8.7.2社交媒体话题跟踪 163
　　8.8突发话题检测 . 163
　　8.8.1突发状态识别 . 164
　　8.8.2以文档为中心的方法：先检测话题后评估突发性 . 167
　　8.8.3以特征为中心的方法：先识别突发特征后生成突发话题 . 168
　　8.9进一步阅读 . 169
　　第 9章信息抽取 . 171
　　9.1概述 . 171
　　9.2命名实体识别 . 173
　　9.2.1基于规则的命名实体识别方法 . 174
　　目录 XI
　　9.2.2有监督的命名实体识别方法 . 175
　　9.2.3半监督的命名实体识别方法 . 181
　　9.2.4命名实体识别方法评价 . 183
　　9.3共指消解 184
　　9.3.1基于规则的共指消解方法 185
　　9.3.2数据驱动的共指消解方法 187
　　9.3.3共指消解评价 . 190
　　9.4实体消歧 193
　　9.4.1基于聚类的实体消歧方法 193
　　9.4.2基于链接的实体消歧 . 197
　　9.4.3实体消歧任务的评价方法 203
　　9.5关系抽取 204
　　9.5.1基于离散特征的关系分类方法 . 206
　　9.5.2基于分布式特征的关系分类方法 212
　　9.5.3基于远程监督的关系分类方法 . 214
　　9.5.4关系分类性能评价 215
　　9.6事件抽取 215
　　9.6.1事件描述模板 . 215
　　9.6.2事件抽取方法 . 217
　　9.6.3事件抽取评价 . 224
　　9.7进一步阅读 . 224
　　第 10章文本自动摘要 227
　　10.1概述 . 227
　　10.2抽取式自动摘要 228
　　10.2.1句子重要性评估 229
　　10.2.2基于约束的摘要生成方法 . 237
　　10.3压缩式自动摘要方法 238
　　10.3.1句子压缩方法 238
　　10.3.2基于句子压缩的自动摘要方法 242
　　10.4生成式自动摘要 244
　　10.4.1基于信息融合的生成式摘要方法 . 244
　　10.4.2基于编码 -解码的生成式摘要方法 249
　　10.5基于查询的自动摘要 251
　　10.5.1基于语言模型的相关性计算方法 . 251
　　10.5.2基于关键词语重合度的相关性计算方法 . 252
　　10.5.3基于图模型的相关性计算方法 252
　　10.6跨语言和多语言自动摘要方法 253
　　10.6.1跨语言自动摘要 253
　　10.6.2多语言自动摘要 256
　　10.7摘要质量评估方法和相关评测 258
　　10.7.1摘要质量评估方法 . 258
　　10.7.2相关评测活动 262
　　10.8进一步阅读 . 263
　　参考文献 . 265
　　名词术语索引 . 285

目　录作者简介内容简介

　　本书阐述文本数据挖掘的理论模型、实现算法和相关应用，主要内容包括：信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅，深入浅出，通过实例说明实现相关任务的理论方法和技术思路，而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献，也可作为从事相关技术研发的开发人员的参考资料。

比价列表

商家

评价 (2163)

折扣

价格