译者序
前言
作者简介
审校者简介
第1章 赋予计算机从数据中学习的能力1
1.1 构建能把数据转换为知识的智能机器1
1.2 三种不同类型的机器学习1
1.2.1 用监督学习预测未来2
1.2.2 用强化学习解决交互问题3
1.2.3 用无监督学习发现隐藏的结构4
1.3 基本术语与符号4
1.3.1 本书中使用的符号和约定5
1.3.2 机器学习的术语6
1.4 构建机器学习系统的路线图6
1.4.1 预处理——整理数据6
1.4.2 训练和选择预测模型7
1.4.3 评估模型并对未曾谋面的数据进行预测8
1.5 将Python用于机器学习8
1.5.1 利用Python Package Index安装Python及其他软件包8
1.5.2 采用Anaconda Python发行版和软件包管理器8
1.5.3 用于科学计算、数据科学和机器学习的软件包9
1.6 本章小结9
第2章 训练简单的机器学习分类算法10
2.1 人工神经元——机器学习的早期历史10
2.1.1 人工神经元的正式定义11
2.1.2 感知器学习规则12
2.2 用Python实现感知器学习算法14
2.2.1 面向对象的感知器API14
2.2.2 在鸢尾花数据集上训练感知器模型16
2.3 自适应线性神经元和学习收敛20
2.3.1 通过梯度下降 小化代价函数21
2.3.2 用Python实现Adaline22
2.3.3 通过特征缩放改善梯度下降26
2.3.4 大规模机器学习与随机梯度下降27
2.4 本章小结31
第3章 scikit-learn机器学习分类器32
3.1 选择分类算法32
3.2 了解scikit-learn的步——训练感知器32
3.3 基于逻辑回归的分类概率建模37
3.3.1 逻辑回归与条件概率37
3.3.2 学习逻辑代价函数的权重39
3.3.3 将Adaline实现转换为一个逻辑回归算法41
3.3.4 用scikit-learn训练逻辑回归模型44
3.3.5 通过正则化解决过拟合问题46
3.4 使用支持向量机 化分类间隔48
3.4.1 对分类间隔 化的直观认识48
3.4.2 用松弛变量解决非线性可分问题50
3.4.3 其他的scikit-learn实现51
3.5 用核支持向量机求解非线性问题51
3.5.1 处理线性不可分数据的核方法52
3.5.2 利用核技巧发现高维空间的分离超平面53
3.6 决策树学习56
3.6.1 化信息增益——获得 收益56
3.6.2 构建决策树59
3.6.3 多个决策树的随机森林组合62
3.7 k-近邻——一种惰性学习算法64
3.8 本章小结66
第4章 构建良好的训练数据集——数据预处理67
4.1 处理缺失数据67
4.1.1 识别数据中的缺失值67
4.1.2 删除有缺失值的训练样本或特征68
4.1.3 填补缺失值69
4.1.4 了解scikit-learn估计器API69
4.2 处理类别数据70
4.2.1 用pandas实现类别数据的编码70
4.2.2 映射序数特征71
4.2.3 为分类标签编码71
4.2.4 为名义特征做独热编码72
4.3 把数据集划分为独立的训练数据集和测试数据集74
4.4 保持相同的特征缩放76
4.5 选择有意义的特征78
4.5.1 L1和L2正则化对模型复杂度的惩罚78
4.5.2 L2正则化的几何解释78
4.5.3 L1正则化的稀疏解决方案79
4.5.4 序列特征选择算法82
4.6 用随机森林评估特征的重要性86
4.7 本章小结88
第5章 通过降维压缩数据89
5.1 用主成分分析实现无监督降维89
5.1.1 主成分分析的主要步骤89
5.1.2 逐步提取主成分90
5.1.3 总方差和解释方差92
5.1.4 特征变换93
5.1.5 用scikit-learn实现主成分分析95
5.2 基于线性判别分析的监督数据压缩97
5.2.1 主成分分析与线性判别分析97
5.2.2 线性判别分析的内部工作原理98
5.2.3 计算散布矩阵98
5.2.4 为新特征子空间选择线性判别100
5.2.5 将样本投影到新的特征空间102
5.2.6 用scikit-learn实现LDA103
5.3 非线性映射的核主成分分析104
5.3.1 核函数与核技巧104
5.3.2 用Python实现核主成分分析107
5.3.3 投影新的数据点112
5.3.4 scikit-learn的核主成分分析115
5.4 本章小结116
第6章 模型评估和超参数调优的 佳实践117
6.1 用流水线方法简化工作流117
6.1.1 加载威斯康星乳腺癌数据集117
6.1.2 在流水线中集成转换器和估计器118
6.2 使用k折交叉验证评估模型性能120
6.2.1 holdout方法120
6.2.2 k折交叉验证121
6.3 用学习和验证曲线调试算法123
^ 收 起