深入理解神经网络 从逻辑回归到CNN
第 一部分 线性模型
第 1章 逻辑回归 2
1.1 作为一个神经元的逻辑回归 2
1.2 基础向量几何 4
1.2.1 向量 4
1.2.2 向量的和、数乘与零向量 6
1.2.3 向量的内积、模与投影 8
1.2.4 线性空间、基与线性函数 11
1.2.5 直线、超平面与仿射函数 14
1.3 从几何角度理解逻辑回归的能力 和局限 17
查看完整
第 1章 逻辑回归 2
1.1 作为一个神经元的逻辑回归 2
1.2 基础向量几何 4
1.2.1 向量 4
1.2.2 向量的和、数乘与零向量 6
1.2.3 向量的内积、模与投影 8
1.2.4 线性空间、基与线性函数 11
1.2.5 直线、超平面与仿射函数 14
1.3 从几何角度理解逻辑回归的能力 和局限 17
查看完整
本书以神经网络为线索,沿着从线性模型到深度学习的路线讲解神经网络的原理和实现。本书将数学基础知识与机器学习和神经网络紧密结合,包含线性模型的结构与局限、损失函数、基于一阶和二阶信息的优化算法、模型自由度与正则化、神经网络的表达能力、反向传播与计算图自动求导、卷积神经网络等主题,帮助读者建立基于数学原理的较深刻的洞见和认知。本书还提供了逻辑回归、多层全连接神经网络和多种训练算法的Python实现,以及运用TensorFlow搭建和训练多种卷积神经网络的代码实例。
第 一部分 线性模型
第 1章 逻辑回归 2
1.1 作为一个神经元的逻辑回归 2
1.2 基础向量几何 4
1.2.1 向量 4
1.2.2 向量的和、数乘与零向量 6
1.2.3 向量的内积、模与投影 8
1.2.4 线性空间、基与线性函数 11
1.2.5 直线、超平面与仿射函数 14
1.3 从几何角度理解逻辑回归的能力 和局限 17
1.4 实例:根据鸟类骨骼判断生态类群 20
1.5 小结 24
第 2章 模型评价与损失函数 25
2.1 训练集与测试集 25
2.2 分类模型的评价 26
2.2.1 混淆矩阵 26
2.2.2 正确率 27
2.2.3 查准率 27
2.2.4 查全率 27
2.2.5 ROC曲线 28
2.3 损失函数 29
2.3.1 K-L散度与交叉熵 29
2.3.2 最大似然估计 31
2.3.3 从几何角度理解交叉熵损失 33
2.4 小结 35
第3章 梯度下降法 36
3.1 多元函数的微分 36
3.1.1 梯度 37
3.1.2 方向导数 40
3.1.3 偏导数 43
3.1.4 驻点 43
3.1.5 局部极小点 44
3.2 梯度下降法 46
3.2.1 反梯度场 47
3.2.2 梯度下降法 49
3.2.3 梯度下降法的问题 50
3.3 梯度下降法的改进 52
3.3.1 学习率调度 52
3.3.2 冲量法 54
3.3.3 AdaGrad 55
3.3.4 RMSProp 56
3.3.5 Adam 57
3.4 运用梯度下降法训练逻辑回归 59
3.5 梯度下降法训练逻辑回归的Python 实现 61
3.6 小结 67
第4章 超越梯度下降 68
4.1 矩阵 68
4.1.1 矩阵基础 68
4.1.2 矩阵的逆 71
4.1.3 特征值与特征向量 73
4.1.4 对称矩阵的谱分解 74
4.1.5 奇异值分解 76
4.1.6 二次型 77
4.2 多元函数的局部二阶特性 79
4.2.1 赫森矩阵 79
4.2.2 二阶泰勒展开 79
4.2.3 驻点的类型 82
4.2.4 赫森矩阵的条件数 84
4.3 基于二阶特性的优化 87
4.3.1 牛顿法 87
4.3.2 共轭方向法 92
4.4 运用牛顿法训练逻辑回归 95
4.5 牛顿法训练逻辑回归的Python实现 98
4.6 小结 100
第5章 正则化 102
5.1 概率论回顾 102
5.1.1 随机变量 102
5.1.2 多元随机变量 105
5.1.3 多元随机变量的期望和协方差 矩阵 106
5.1.4 样本均值和样本协方差矩阵 106
5.1.5 主成分 108
5.1.6 正态分布 111
5.2 模型自由度与偏置 方差权衡 115
5.2.1 最小二乘线性回归 116
5.2.2 模型自由度 118
5.2.3 偏置 方差权衡 119
5.3 正则化 122
5.3.1 岭回归与L2正则化 122
5.3.2 L2正则化的贝叶斯视角 125
5.3.3 L1正则化 126
5.4 过拟合与欠拟合 127
5.5 运用L2正则化训练逻辑回归 130
5.6 运用L2正则化训练逻辑回归的 Python实现 132
5.7 小结 135
第二部分 神经网络
第6章 神经网络 138
6.1 合作的神经元 138
6.2 多层全连接神经网络 142
6.3 激活函数 145
6.3.1 Linear 145
6.3.2 Logistic 146
6.3.3 Tanh 148
6.3.4 ReLU 150
6.3.5 Leaky ReLU以及PReLU 151
6.3.6 SoftPlus 153
6.4 多分类与SoftMax 154
6.5 小结 157
第7章 反向传播 158
7.1 映射 158
7.1.1 仿射映射 158
7.1.2 雅可比矩阵 159
7.1.3 链式法则 160
7.2 反向传播 162
7.2.1 网络的符号表示 162
7.2.2 原理 163
7.2.3 实现 166
7.3 相关问题 169
7.3.1 计算量 169
7.3.2 梯度消失 170
7.3.3 正则化 170
7.3.4 权值初始化 171
7.3.5 提前停止 171
7.4 多层全连接神经网络的Python实现 173
7.5 小结 182
第8章 计算图 183
8.1 计算图模型 183
8.1.1 简介 183
8.1.2 多层全连接神经网络的计算 图 187
8.1.3 其他神经网络结构的计算图 188
8.2 自动求导 190
8.3 自动求导的实现 192
8.4 计算图的Python实现 195
8.5 小结 214
第9章 卷积神经网络 215
9.1 卷积 215
9.1.1 一元函数的卷积 215
9.1.2 多元函数的卷积 219
9.1.3 滤波器 223
9.2 卷积神经网络的组件 228
9.2.1 卷积层 228
9.2.2 激活层 230
9.2.3 池化层 231
9.2.4 全连接层 233
9.2.5 跳跃连接 234
9.3 深度学习的正则化方法 236
9.3.1 权值衰减 236
9.3.2 Dropout 237
9.3.3 权值初始化 237
9.3.4 批标准化 238
9.3.5 数据增强 239
9.4 小结 239
第 10章 经典CNN 241
10.1 LeNet-5 241
10.2 AlexNet 245
10.3 VGGNet 248
10.4 GoogLeNet 251
10.5 ResNet 255
10.6 小结 257
第 11章 TensorFlow实例 258
11.1 多分类逻辑回归 258
11.2 多层全连接神经网络 266
11.3 LeNet-5 269
11.4 AlexNet 273
11.5 VGG16 277
11.4 小结 280
附录A CNN与元胞自动机 281
参考文献 311
^ 收 起
第 1章 逻辑回归 2
1.1 作为一个神经元的逻辑回归 2
1.2 基础向量几何 4
1.2.1 向量 4
1.2.2 向量的和、数乘与零向量 6
1.2.3 向量的内积、模与投影 8
1.2.4 线性空间、基与线性函数 11
1.2.5 直线、超平面与仿射函数 14
1.3 从几何角度理解逻辑回归的能力 和局限 17
1.4 实例:根据鸟类骨骼判断生态类群 20
1.5 小结 24
第 2章 模型评价与损失函数 25
2.1 训练集与测试集 25
2.2 分类模型的评价 26
2.2.1 混淆矩阵 26
2.2.2 正确率 27
2.2.3 查准率 27
2.2.4 查全率 27
2.2.5 ROC曲线 28
2.3 损失函数 29
2.3.1 K-L散度与交叉熵 29
2.3.2 最大似然估计 31
2.3.3 从几何角度理解交叉熵损失 33
2.4 小结 35
第3章 梯度下降法 36
3.1 多元函数的微分 36
3.1.1 梯度 37
3.1.2 方向导数 40
3.1.3 偏导数 43
3.1.4 驻点 43
3.1.5 局部极小点 44
3.2 梯度下降法 46
3.2.1 反梯度场 47
3.2.2 梯度下降法 49
3.2.3 梯度下降法的问题 50
3.3 梯度下降法的改进 52
3.3.1 学习率调度 52
3.3.2 冲量法 54
3.3.3 AdaGrad 55
3.3.4 RMSProp 56
3.3.5 Adam 57
3.4 运用梯度下降法训练逻辑回归 59
3.5 梯度下降法训练逻辑回归的Python 实现 61
3.6 小结 67
第4章 超越梯度下降 68
4.1 矩阵 68
4.1.1 矩阵基础 68
4.1.2 矩阵的逆 71
4.1.3 特征值与特征向量 73
4.1.4 对称矩阵的谱分解 74
4.1.5 奇异值分解 76
4.1.6 二次型 77
4.2 多元函数的局部二阶特性 79
4.2.1 赫森矩阵 79
4.2.2 二阶泰勒展开 79
4.2.3 驻点的类型 82
4.2.4 赫森矩阵的条件数 84
4.3 基于二阶特性的优化 87
4.3.1 牛顿法 87
4.3.2 共轭方向法 92
4.4 运用牛顿法训练逻辑回归 95
4.5 牛顿法训练逻辑回归的Python实现 98
4.6 小结 100
第5章 正则化 102
5.1 概率论回顾 102
5.1.1 随机变量 102
5.1.2 多元随机变量 105
5.1.3 多元随机变量的期望和协方差 矩阵 106
5.1.4 样本均值和样本协方差矩阵 106
5.1.5 主成分 108
5.1.6 正态分布 111
5.2 模型自由度与偏置 方差权衡 115
5.2.1 最小二乘线性回归 116
5.2.2 模型自由度 118
5.2.3 偏置 方差权衡 119
5.3 正则化 122
5.3.1 岭回归与L2正则化 122
5.3.2 L2正则化的贝叶斯视角 125
5.3.3 L1正则化 126
5.4 过拟合与欠拟合 127
5.5 运用L2正则化训练逻辑回归 130
5.6 运用L2正则化训练逻辑回归的 Python实现 132
5.7 小结 135
第二部分 神经网络
第6章 神经网络 138
6.1 合作的神经元 138
6.2 多层全连接神经网络 142
6.3 激活函数 145
6.3.1 Linear 145
6.3.2 Logistic 146
6.3.3 Tanh 148
6.3.4 ReLU 150
6.3.5 Leaky ReLU以及PReLU 151
6.3.6 SoftPlus 153
6.4 多分类与SoftMax 154
6.5 小结 157
第7章 反向传播 158
7.1 映射 158
7.1.1 仿射映射 158
7.1.2 雅可比矩阵 159
7.1.3 链式法则 160
7.2 反向传播 162
7.2.1 网络的符号表示 162
7.2.2 原理 163
7.2.3 实现 166
7.3 相关问题 169
7.3.1 计算量 169
7.3.2 梯度消失 170
7.3.3 正则化 170
7.3.4 权值初始化 171
7.3.5 提前停止 171
7.4 多层全连接神经网络的Python实现 173
7.5 小结 182
第8章 计算图 183
8.1 计算图模型 183
8.1.1 简介 183
8.1.2 多层全连接神经网络的计算 图 187
8.1.3 其他神经网络结构的计算图 188
8.2 自动求导 190
8.3 自动求导的实现 192
8.4 计算图的Python实现 195
8.5 小结 214
第9章 卷积神经网络 215
9.1 卷积 215
9.1.1 一元函数的卷积 215
9.1.2 多元函数的卷积 219
9.1.3 滤波器 223
9.2 卷积神经网络的组件 228
9.2.1 卷积层 228
9.2.2 激活层 230
9.2.3 池化层 231
9.2.4 全连接层 233
9.2.5 跳跃连接 234
9.3 深度学习的正则化方法 236
9.3.1 权值衰减 236
9.3.2 Dropout 237
9.3.3 权值初始化 237
9.3.4 批标准化 238
9.3.5 数据增强 239
9.4 小结 239
第 10章 经典CNN 241
10.1 LeNet-5 241
10.2 AlexNet 245
10.3 VGGNet 248
10.4 GoogLeNet 251
10.5 ResNet 255
10.6 小结 257
第 11章 TensorFlow实例 258
11.1 多分类逻辑回归 258
11.2 多层全连接神经网络 266
11.3 LeNet-5 269
11.4 AlexNet 273
11.5 VGG16 277
11.4 小结 280
附录A CNN与元胞自动机 281
参考文献 311
^ 收 起
本书以神经网络为线索,沿着从线性模型到深度学习的路线讲解神经网络的原理和实现。本书将数学基础知识与机器学习和神经网络紧密结合,包含线性模型的结构与局限、损失函数、基于一阶和二阶信息的优化算法、模型自由度与正则化、神经网络的表达能力、反向传播与计算图自动求导、卷积神经网络等主题,帮助读者建立基于数学原理的较深刻的洞见和认知。本书还提供了逻辑回归、多层全连接神经网络和多种训练算法的Python实现,以及运用TensorFlow搭建和训练多种卷积神经网络的代码实例。
比价列表