深入浅出:工业机器学习算法详解与实战
前 言
第 1 章 概述
1.1 机器学习基本流程 /1
1.2 业界常用算法 /2
1.3 构建机器学习系统 /3
第 2 章 统计学
2.1 概率分布 /5
2.1.1 期望与方差 /5
2.1.2 概率密度函数 /7
2.1.3 累积分布函数 /10
查看完整
第 1 章 概述
1.1 机器学习基本流程 /1
1.2 业界常用算法 /2
1.3 构建机器学习系统 /3
第 2 章 统计学
2.1 概率分布 /5
2.1.1 期望与方差 /5
2.1.2 概率密度函数 /7
2.1.3 累积分布函数 /10
查看完整
张朝阳,毕业于华中科技大学工业工程系,获硕士学位。曾就职于58同城、字节跳动,现任脉脉高级算法研究员,从事过反作弊、推荐、搜索等业务的算法研究和系统开发工作,擅长自然语言处理、点击率预估和特征工程。多年坚持写博客,总能以浅显易懂的文字将算法原理讲清楚,在博客园上吸引了众多粉丝。
实用性是本书的基本出发点,书中介绍了近年来在工业界被广泛应用的机器学习算法,这些算法经受了时间的考验,不但效果好而且使用方便。此外,本书也十分注重理论的深度和完整性,内容编排力求由浅入深、推理完整、前后连贯、自成体系,先讲统计学、矩阵、优化方法这些基础知识,再介绍线性模型、概率图模型、文本向量化算法、树模型和深度学习。与大多数机器学习图书不同,本书还介绍了算法周边的一些工程架构及实现原理,比如如何实时地收集训练样本和监控算法指标、参数服务器的架构设计、做A/B 测试的注意事项等。
本书理论体系完整,公式推导清晰,可作为机器学习初学者的自学用书。读者无需深厚的专业知识, 本科毕业的理工科学生都能看懂。另外由于本书与工业实践结合得很紧密,所以也非常适合于从事算法相关工作的工程技术人员阅读。
本书理论体系完整,公式推导清晰,可作为机器学习初学者的自学用书。读者无需深厚的专业知识, 本科毕业的理工科学生都能看懂。另外由于本书与工业实践结合得很紧密,所以也非常适合于从事算法相关工作的工程技术人员阅读。
前 言
第 1 章 概述
1.1 机器学习基本流程 /1
1.2 业界常用算法 /2
1.3 构建机器学习系统 /3
第 2 章 统计学
2.1 概率分布 /5
2.1.1 期望与方差 /5
2.1.2 概率密度函数 /7
2.1.3 累积分布函数 /10
2.2 极大似然估计与贝叶斯估计 /11
2.2.1 极大似然估计 /11
2.2.2 贝叶斯估计 /13
2.2.3 共轭先验与平滑的关系 /15
2.3 置信区间 /15
2.3.1 t 分布 /16
2.3.2 区间估计 /17
2.3.3 Wilson 置信区间 /19
2.4 相关性 /20
2.4.1 数值变量的相关性 /20
2.4.2 分类变量的相关性 /22
2.4.3 顺序变量的相关性 /27
2.4.4 分布之间的距离 /28
第 3 章 矩阵
3.1 矩阵的物理意义 /30
3.1.1 矩阵是什么 /30
3.1.2 矩阵的行列式 /31
3.1.3 矩阵的逆 /32
3.1.4 特征值和特征向量 /32
3.2 矩阵的数值稳定性 /33
3.2.1 矩阵数值稳定性的度量 /33
3.2.2 基于列主元的高斯{约当消元法 /33
3.2.3 岭回归 /38
3.3 矩阵分解 /38
3.3.1 特征值分解与奇异值分解 /39
3.3.2 高维稀疏矩阵的特征值分解 /40
3.3.3 基于矩阵分解的推荐算法 /45
3.4 矩阵编程实践 /46
3.4.1 numpy 数组运算 /46
3.4.2 稀疏矩阵的压缩方法 /50
3.4.3 用 MapReduce 实现矩阵乘法 /52
第 4 章 优化方法
4.1 无约束优化方法 /54
4.1.1 梯度下降法 /54
4.1.2 拟牛顿法 /56
4.2 带约束优化方法 /58
4.3 在线学习方法 /61
4.3.1 随机梯度下降法 /61
4.3.2 FTRL 算法 /63
4.4 深度学习中的优化方法 /70
4.4.1 动量法 /70
4.4.2 AdaGrad /71
4.4.3 RMSprop /71
4.4.4 Adadelta /71
4.4.5 Adam /72
4.5 期望最大化算法 /72
4.5.1 Jensen 不等式 /73
4.5.2 期望最大化算法分析 /73
4.5.3 高斯混合模型 /77
第 5 章 线性模型
5.1 广义线性模型 /79
5.1.1 指数族分布 /79
5.1.2 广义线性模型的特例 /80
5.2 逻辑回归模型 /83
5.3 分解机制模型 /84
5.3.1 特征组合 /84
5.3.2 分解机制 /86
5.3.3 分解机制模型构造新特征的思路 /87
5.4 基于域感知的分解机制模型 /88
5.5 算法实验对比 /95
第 6 章 概率图模型
6.1 隐马尔可夫模型 /98
6.1.1 模型介绍 /98
6.1.2 模型训练 /101
6.1.3 模型预测 /102
6.2 条件随机场模型 /103
6.2.1 条件随机场模型及特征函数 /103
6.2.2 向前变量和向后变量 /107
6.2.3 模型训练 /110
6.2.4 模型预测 /111
6.2.5 条件随机场模型与隐马尔可夫模型的对比 /112
第 7 章 文本向量化
7.1 词向量 /113
7.1.1 word2vec /113
7.1.2 fastText /117
7.1.3 GloVe /118
7.1.4 算法实验对比 /120
7.2 文档向量 /121
7.2.1 Paragraph Vector /121
7.2.2 LDA /123
第 8 章 树模型
8.1 决策树 /130
8.1.1 分类树 /131
8.1.2 回归树 /134
8.1.3 剪枝 /137
8.2 随机森林 /139
8.3 AdaBoost /140
8.4 XGBoost /141
8.5 LightGBM /146
8.5.1 基于梯度的单边采样算法 /147
8.5.2 互斥特征捆绑 /147
8.5.3 Leaf-Wise 生长策略 /148
8.5.4 DART /149
8.6 算法实验对比 /150
第 9 章 深度学习
9.1 神经网络概述 /154
9.1.1 网络模型 /154
9.1.2 反向传播 /157
9.1.3 损失函数 /158
9.1.4 过拟合问题 /159
9.1.5 梯度消失 /161
9.1.6 参数初始化 /161
9.2 卷积神经网络 /162
9.2.1 卷积 /162
9.2.2 池化 /165
9.2.3 CNN 网络结构 /165
9.2.4 textCNN /167
9.3 循环神经网络 /168
9.3.1 RNN 通用架构 /168
9.3.2 RNN 的学习问题 /170
9.3.3 门控循环单元 /172
9.3.4 LSTM /174
9.3.5 seq2seq /177
9.4 注意力机制 /179
第 10 章 Keras 编程
10.1 快速上手 /182
10.2 Keras 层 /184
10.2.1 Keras 内置层 /184
10.2.2 自定义层 /191
10.3 调试技巧 /194
10.3.1 查看中间层的输出 /194
10.3.2 回调函数 /195
10.4 CNN 和 RNN 的实现 /198
第 11 章 推荐系统实战
11.1 问题建模 /203
11.2 数据预处理 /206
11.2.1 归一化 /206
11.2.2 特征哈希 /208
11.3 模型探索 /210
11.3.1 基于共现的模型 /210
11.3.2 图模型 /211
11.3.3 DeepFM /214
11.3.4 DCN /219
11.4 推荐服务 /221
11.4.1 远程过程调用简介 /221
11.4.2 gRPC 的使用 /223
11.4.3 服务发现与负载均衡 /226
第 12 章 收集训练数据
12.1 日志的设计 /229
12.2 日志的传输 /231
12.3 日志的合并 /238
12.4 样本的存储 /248
第 13 章 分布式训练
13.1 参数服务器 /250
13.2 基于 PS 的优化算法 /256
13.3 在线学习 /259
第 14 章 A/B 测试
14.1 实验分组 /261
14.2 指标监控 /266
14.2.1 指标的计算 /266
14.2.2 指标的上报与存储 /267
14.2.3 指标的展现与监控 /269
14.3 实验结果分析 /272
^ 收 起
第 1 章 概述
1.1 机器学习基本流程 /1
1.2 业界常用算法 /2
1.3 构建机器学习系统 /3
第 2 章 统计学
2.1 概率分布 /5
2.1.1 期望与方差 /5
2.1.2 概率密度函数 /7
2.1.3 累积分布函数 /10
2.2 极大似然估计与贝叶斯估计 /11
2.2.1 极大似然估计 /11
2.2.2 贝叶斯估计 /13
2.2.3 共轭先验与平滑的关系 /15
2.3 置信区间 /15
2.3.1 t 分布 /16
2.3.2 区间估计 /17
2.3.3 Wilson 置信区间 /19
2.4 相关性 /20
2.4.1 数值变量的相关性 /20
2.4.2 分类变量的相关性 /22
2.4.3 顺序变量的相关性 /27
2.4.4 分布之间的距离 /28
第 3 章 矩阵
3.1 矩阵的物理意义 /30
3.1.1 矩阵是什么 /30
3.1.2 矩阵的行列式 /31
3.1.3 矩阵的逆 /32
3.1.4 特征值和特征向量 /32
3.2 矩阵的数值稳定性 /33
3.2.1 矩阵数值稳定性的度量 /33
3.2.2 基于列主元的高斯{约当消元法 /33
3.2.3 岭回归 /38
3.3 矩阵分解 /38
3.3.1 特征值分解与奇异值分解 /39
3.3.2 高维稀疏矩阵的特征值分解 /40
3.3.3 基于矩阵分解的推荐算法 /45
3.4 矩阵编程实践 /46
3.4.1 numpy 数组运算 /46
3.4.2 稀疏矩阵的压缩方法 /50
3.4.3 用 MapReduce 实现矩阵乘法 /52
第 4 章 优化方法
4.1 无约束优化方法 /54
4.1.1 梯度下降法 /54
4.1.2 拟牛顿法 /56
4.2 带约束优化方法 /58
4.3 在线学习方法 /61
4.3.1 随机梯度下降法 /61
4.3.2 FTRL 算法 /63
4.4 深度学习中的优化方法 /70
4.4.1 动量法 /70
4.4.2 AdaGrad /71
4.4.3 RMSprop /71
4.4.4 Adadelta /71
4.4.5 Adam /72
4.5 期望最大化算法 /72
4.5.1 Jensen 不等式 /73
4.5.2 期望最大化算法分析 /73
4.5.3 高斯混合模型 /77
第 5 章 线性模型
5.1 广义线性模型 /79
5.1.1 指数族分布 /79
5.1.2 广义线性模型的特例 /80
5.2 逻辑回归模型 /83
5.3 分解机制模型 /84
5.3.1 特征组合 /84
5.3.2 分解机制 /86
5.3.3 分解机制模型构造新特征的思路 /87
5.4 基于域感知的分解机制模型 /88
5.5 算法实验对比 /95
第 6 章 概率图模型
6.1 隐马尔可夫模型 /98
6.1.1 模型介绍 /98
6.1.2 模型训练 /101
6.1.3 模型预测 /102
6.2 条件随机场模型 /103
6.2.1 条件随机场模型及特征函数 /103
6.2.2 向前变量和向后变量 /107
6.2.3 模型训练 /110
6.2.4 模型预测 /111
6.2.5 条件随机场模型与隐马尔可夫模型的对比 /112
第 7 章 文本向量化
7.1 词向量 /113
7.1.1 word2vec /113
7.1.2 fastText /117
7.1.3 GloVe /118
7.1.4 算法实验对比 /120
7.2 文档向量 /121
7.2.1 Paragraph Vector /121
7.2.2 LDA /123
第 8 章 树模型
8.1 决策树 /130
8.1.1 分类树 /131
8.1.2 回归树 /134
8.1.3 剪枝 /137
8.2 随机森林 /139
8.3 AdaBoost /140
8.4 XGBoost /141
8.5 LightGBM /146
8.5.1 基于梯度的单边采样算法 /147
8.5.2 互斥特征捆绑 /147
8.5.3 Leaf-Wise 生长策略 /148
8.5.4 DART /149
8.6 算法实验对比 /150
第 9 章 深度学习
9.1 神经网络概述 /154
9.1.1 网络模型 /154
9.1.2 反向传播 /157
9.1.3 损失函数 /158
9.1.4 过拟合问题 /159
9.1.5 梯度消失 /161
9.1.6 参数初始化 /161
9.2 卷积神经网络 /162
9.2.1 卷积 /162
9.2.2 池化 /165
9.2.3 CNN 网络结构 /165
9.2.4 textCNN /167
9.3 循环神经网络 /168
9.3.1 RNN 通用架构 /168
9.3.2 RNN 的学习问题 /170
9.3.3 门控循环单元 /172
9.3.4 LSTM /174
9.3.5 seq2seq /177
9.4 注意力机制 /179
第 10 章 Keras 编程
10.1 快速上手 /182
10.2 Keras 层 /184
10.2.1 Keras 内置层 /184
10.2.2 自定义层 /191
10.3 调试技巧 /194
10.3.1 查看中间层的输出 /194
10.3.2 回调函数 /195
10.4 CNN 和 RNN 的实现 /198
第 11 章 推荐系统实战
11.1 问题建模 /203
11.2 数据预处理 /206
11.2.1 归一化 /206
11.2.2 特征哈希 /208
11.3 模型探索 /210
11.3.1 基于共现的模型 /210
11.3.2 图模型 /211
11.3.3 DeepFM /214
11.3.4 DCN /219
11.4 推荐服务 /221
11.4.1 远程过程调用简介 /221
11.4.2 gRPC 的使用 /223
11.4.3 服务发现与负载均衡 /226
第 12 章 收集训练数据
12.1 日志的设计 /229
12.2 日志的传输 /231
12.3 日志的合并 /238
12.4 样本的存储 /248
第 13 章 分布式训练
13.1 参数服务器 /250
13.2 基于 PS 的优化算法 /256
13.3 在线学习 /259
第 14 章 A/B 测试
14.1 实验分组 /261
14.2 指标监控 /266
14.2.1 指标的计算 /266
14.2.2 指标的上报与存储 /267
14.2.3 指标的展现与监控 /269
14.3 实验结果分析 /272
^ 收 起
张朝阳,毕业于华中科技大学工业工程系,获硕士学位。曾就职于58同城、字节跳动,现任脉脉高级算法研究员,从事过反作弊、推荐、搜索等业务的算法研究和系统开发工作,擅长自然语言处理、点击率预估和特征工程。多年坚持写博客,总能以浅显易懂的文字将算法原理讲清楚,在博客园上吸引了众多粉丝。
实用性是本书的基本出发点,书中介绍了近年来在工业界被广泛应用的机器学习算法,这些算法经受了时间的考验,不但效果好而且使用方便。此外,本书也十分注重理论的深度和完整性,内容编排力求由浅入深、推理完整、前后连贯、自成体系,先讲统计学、矩阵、优化方法这些基础知识,再介绍线性模型、概率图模型、文本向量化算法、树模型和深度学习。与大多数机器学习图书不同,本书还介绍了算法周边的一些工程架构及实现原理,比如如何实时地收集训练样本和监控算法指标、参数服务器的架构设计、做A/B 测试的注意事项等。
本书理论体系完整,公式推导清晰,可作为机器学习初学者的自学用书。读者无需深厚的专业知识, 本科毕业的理工科学生都能看懂。另外由于本书与工业实践结合得很紧密,所以也非常适合于从事算法相关工作的工程技术人员阅读。
本书理论体系完整,公式推导清晰,可作为机器学习初学者的自学用书。读者无需深厚的专业知识, 本科毕业的理工科学生都能看懂。另外由于本书与工业实践结合得很紧密,所以也非常适合于从事算法相关工作的工程技术人员阅读。
比价列表
1人想要
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠