数据挖掘与预测分析（第2版）/大数据应用与技术丛书

作者：[美]DanielT.Larose，ChantalD.Larose著
出版：清华大学出版社 2017.3
页数：725　　　　版本：2
定价：99.80 元
ISBN-13：9787302459873
ISBN-10：7302459878 去豆瓣看看

想要　

0 0暂无人评价...

目　录作者简介内容简介

　　第Ⅰ部分数据准备
　　第1章数据挖掘与预测分析概述 3
　　1.1 什么是数据挖掘和预测分析 3
　　1.2 需求：数据挖掘技术人员 4
　　1.3 数据挖掘离不开人的参与 5
　　1.4 跨行业数据挖掘标准过程：
　　CRISP-DM 6
　　1.5 数据挖掘的谬误 8
　　1.6 数据挖掘能够完成的任务 9
　　1.6.1 描述 9
　　1.6.2 评估 10
　　1.6.3 预测 11
　　1.6.4 分类 11
　　1.6.5 聚类 13
　　1.6.6 关联 14
　　R语言开发园地 15
　　R参考文献 16
　　练习 16
　　第2章数据预处理 17
　　2.1 需要预处理数据的原因 17
　　2.2 数据清理 18
　　2.3 处理缺失数据 19
　　2.4 识别错误分类 22
　　2.5 识别离群值的图形方法 22
　　2.6 中心和散布度量 24
　　2.7 数据变换 26
　　2.8 min-max规范化 26
　　2.9 Z-score标准化 27
　　2.10 小数定标规范化 28
　　2.11 变换为正态数据 28
　　2.12 识别离群值的数值方法 34
　　2.13 标志变量 35
　　2.14 将分类变量转换为数值变量 35
　　2.15 数值变量分箱 36
　　2.16 对分类变量重新划分类别 37
　　2.17 添加索引字段 37
　　2.18 删除无用变量 38
　　2.19 可能不应该删除的变量 38
　　2.20 删除重复记录 39
　　2.21 ID字段简述 39
　　R语言开发园地 39
　　R参考文献 45
　　练习 45
　　第3章探索性数据分析 49
　　3.1 假设检验与探索性数据分析 49
　　3.2 了解数据集 49
　　3.3 探索分类变量 52
　　3.4 探索数值变量 58
　　3.5 探索多元关系 62
　　3.6 选择感兴趣的数据子集作进一步研究 64
　　3.7 使用EDA发现异常字段 64
　　3.8 基于预测值分级 65
　　3.9 派生新变量：标志变量 67
　　3.10 派生新变量：数值变量 69
　　3.11 使用EDA探测相关联的预测
　　变量 70
　　3.12 EDA概述 73
　　R语言开发园地 73
　　R参考文献 80
　　练习 80
　　第4章降维方法 83
　　4.1 数据挖掘中降维的必要性 83
　　4.2 主成分分析 84
　　4.3 将主成分分析应用于房屋
　　数据集 87
　　4.4 应提取多少个主成分 91
　　4.4.1 特征值标准 91
　　4.4.2 解释变异的比例标准 92
　　4.4.3 *小共性标准 92
　　4.4.4 坡度图标准 92
　　4.5 主成分描述 94
　　4.6 共性 96
　　4.7 主成分验证 97
　　4.8 因子分析法 98
　　4.9 因子分析法在成年人数据集中的
　　应用 99
　　4.10 因子旋转 101
　　4.11 用户自定义合成 104
　　4.12 用户自定义合成的示例 105
　　R语言开发园地 106
　　R参考文献 110
　　练习 111
　　第Ⅱ部分统计分析
　　第5章单变量统计分析 117
　　5.1 数据知识发现中的数据挖掘
　　任务 117
　　5.2 用于估计和预测的统计方法 117
　　5.3 统计推理 118
　　5.4 我们对评估的确信程度如何 119
　　5.5 均值的置信区间估计 120
　　5.6 如何减少误差范围 121
　　5.7 比例的置信区间估计 122
　　5.8 均值的假设检验 123
　　5.9 拒绝零假设的证据力度的
　　评估 125
　　5.10 使用置信区间执行假设检验 126
　　5.11 比例的假设检验 127
　　R语言开发园地 128
　　R参考文献 129
　　练习 129
　　第6章多元统计 133
　　6.1 描述均值差异的两样例t-检验
　　方法 133
　　6.2 判断总体差异的两样例
　　Z-检验 134
　　6.3 比例均匀性的测试 135
　　6.4 多元数据拟合情况的
　　卡方检验 137
　　6.5 方差分析 138
　　R语言开发园地 141
　　R参考文献 143
　　练习 143
　　第7章数据建模准备 145
　　7.1 有监督学习与无监督学习 145
　　7.2 统计方法与数据挖掘方法 146
　　7.3 交叉验证 146
　　7.4 过度拟合 147
　　7.5 偏差-方差权衡 148
　　7.6 平衡训练数据集 150
　　7.7 建立基线性能 151
　　R语言开发园地 152
　　R参考文献 153
　　练习 153
　　第8章简单线性回归 155
　　8.1 简单线性回归示例 155
　　8.2 外推的危险 161
　　8.3 回归有用吗？系数的确定 162
　　8.4 估计标准误差 166
　　8.5 相关系数r 167
　　8.6 简单线性回归的方差分析表 169
　　8.7 离群点、高杠杆率点与有影响
　　的观察点 170
　　8.8 回归方程概括 178
　　8.9 回归假设验证 179
　　8.10 回归推理 184
　　8.11 x与y之间关系的t-检验 185
　　8.12 回归直线斜率的置信区间 187
　　8.13 相关系数ρ的置信区间 188
　　8.14 给定均值的置信区间 190
　　8.15 给定随机选择值的预测区间 191
　　8.16 获得线性特性的变换 194
　　8.17 博克斯-考克斯变换 199
　　R语言开发园地 199
　　R参考文献 205
　　练习 205
　　第9章多元回归与模型构建 213
　　9.1 多元回归示例 213
　　9.2 总体多元回归方程 218
　　9.3 多元回归推理 219
　　练习 380
　　第14章朴素贝叶斯与贝叶斯网络 385
　　14.1 贝叶斯方法 385
　　14.2 *大后验(MAP)分类 387
　　14.3 后验概率比 391
　　14.4 数据平衡 393
　　14.5 朴素贝叶斯分类 394
　　14.6 解释对数后验概率比 397
　　14.7 零单元问题 398
　　14.8 朴素贝叶斯分类中的数值型
　　预测变量 399
　　14.9 WEKA：使用朴素贝叶斯开展
　　分析 402
　　14.10 贝叶斯信念网络 406
　　14.11 衣物购买示例 407
　　14.12 利用贝叶斯网络发现概率 409
　　R语言开发园地 413
　　R参考文献 417
　　练习 417
　　第15章模型评估技术 421
　　15.1 用于描述任务的模型评估
　　技术 421
　　15.2 用于评估和预测任务的模型
　　评估技术 422
　　15.3 用于分类任务的模型评估
　　方法 423
　　15.4 准确率和总误差率 425
　　15.5 灵敏性和特效性 426
　　15.6 假正类率和假负类率 427
　　15.7 真正类、真负类、假正类、
　　假负类的比例 427
　　15.8 通过误分类成本调整来反映
　　现实关注点 429
　　15.9 决策成本/效益分析 430
　　15.10 提升图表和增益图表 431
　　15.11 整合模型评估与模型建立 434
　　15.12 结果融合：应用一系列
　　模型 435
　　R语言开发园地 436
　　R参考文献 436
　　练习 437
　　第16章基于数据驱动成本的
　　成本-效益分析 439
　　16.1 在行调整条件下的决策
　　不变性 439
　　16.2 正分类标准 440
　　16.3 正分类标准的示范 442
　　16.4 构建成本矩阵 444
　　16.5 在缩放条件下的决策不变性 445
　　参考文献 556
　　练习 557
　　第Ⅴ部分关联规则
　　第23章关联规则 561
　　23.1 亲和度分析与购物篮分析 561
　　23.2 支持度、可信度、频繁项集和
　　先验属性 564
　　23.3 先验算法工作原理(第1部
　　分)—— 建立频繁项集 565
　　23.4 先验算法工作原理(第2部
　　分)—— 建立关联规则 566
　　23.5 从标志数据扩展到分类数据 569
　　23.6 信息理论方法：广义规则推理
　　方法 570
　　23.7 关联规则不易做好 571
　　23.8 度量关联规则可用性的方法 573
　　23.9 关联规则是监督学习还是
　　无监督学习 574
　　23.10 局部模式与全局模型 574
　　R语言开发园地 575
　　R参考文献 575
　　练习 576
　　第Ⅵ部分增强模型性能
　　第24章细分模型 581
　　24.1 细分建模过程 581
　　24.2 利用EDA识别分段的细分
　　建模 583
　　24.3 利用聚类方法识别分段的
　　细分建模 585
　　R语言开发园地 589
　　R参考文献 591
　　练习 591
　　第25章集成方法：bagging和
　　boosting 593
　　25.1 使用集成分类模型的理由 593
　　25.2 偏差、方差与噪声 594
　　25.3 适合采用bagging的场合 595
　　25.4 bagging 596
　　25.5 boosting 599
　　25.6 使用IBM/SPSS建模器应用
　　bagging和boosting 602
　　参考文献 603
　　R语言开发园地 604
　　R参考文献 605
　　练习 606
　　第26章模型投票与趋向平均 609
　　26.1 简单模型投票 609
　　26.2 其他投票方法 610
　　26.3 模型投票过程 611
　　26.4 模型投票的应用 612
　　26.5 什么是趋向平均 616
　　26.6 趋向平均过程 616
　　26.7 趋向平均的应用 618
　　R语言开发园地 619
　　R参考文献 621
　　练习 622
　　第Ⅶ部分更多主题
　　第27章遗传算法 627
　　27.1 遗传算法简介 627
　　27.2 基因算法的基本框架 628
　　27.3 遗传算法的简单示例 629
　　27.3.1 第1次迭代 629
　　27.3.2 第2次迭代 631
　　27.4 改进及增强：选择 631
　　27.5 改进及增强：交叉 633
　　27.5.1 多点交叉 633
　　27.5.2 通用交叉 634
　　27.6 实值变量的遗传算法 634
　　27.6.1 单一算术交叉 635
　　27.6.2 简单算术交叉 635
　　27.6.3 完全算术交叉 635
　　27.6.4 离散交叉 635
　　27.6.5 正态分布突变 635
　　27.7 利用遗传算法训练神经元
　　网络 636
　　27.8 WEKA：使用遗传算法进行
　　分析 640
　　R语言开发园地 646
　　R参考文献 647
　　练习 647
　　第28章缺失数据的填充 649
　　28.1 缺失数据填充的必要性 649
　　28.2 缺失数据填充：连续型变量 650
　　28.3 填充的标准误差 653
　　28.4 缺失值填充：范畴型变量 653
　　28.5 缺失的处理模式 654
　　参考文献 655
　　R语言开发园地 655
　　R参考文献 657
　　练习 658
　　第Ⅷ部分案例研究：对直邮营
　　销的响应预测
　　第29章案例研究，第1部分：业务
　　理解、数据预处理和探索性
　　数据分析 661
　　29.1 数据挖掘的跨行业标准 661
　　29.2 业务理解阶段 662
　　29.3 数据理解阶段，*部分：
　　熟悉数据集 663
　　29.4 数据准备阶段 667
　　29.4.1 消费金额为负值的情况 667
　　29.4.2 实现正态性或对称性的
　　转换 669
　　29.4.3 标准化 671
　　29.4.4 派生新变量 671
　　29.5 数据理解阶段，第二部分：
　　探索性数据分析 674
　　29.5.1 探索预测因子和响应之间
　　的关系 674
　　29.5.2 研究预测因子间的相关性
　　结构 679
　　29.5.3 逆转换对于解释的
　　重要性 682
　　第30章案例研究，第2部分：聚类与
　　主成分分析 685
　　30.1 数据划分 685
　　30.2 制定主成分 686
　　30.3 验证主成分 689
　　30.4 主成分概括 691
　　30.5 利用BIRCH聚类算法选择*优
　　聚类数 694
　　30.6 利用k均值聚类算法选择*优
　　聚类数 695
　　30.7 k-均值聚类应用 696
　　30.8 验证聚类 697
　　30.9 聚类概括 698
　　第31章案例研究，第3部分：建模与
　　评估性能和可解释性 699
　　31.1 选择性能*佳模型，还是既要
　　性能又要可解释性 699
　　31.2 建模与评估概述 700
　　31.3 利用数据驱动开销开展损益
　　分析 700
　　31.4 输入到模型中的变量 702
　　31.5 建立基线模型性能 703
　　31.6 利用误分类开销的模型 704
　　31.7 需要用代理调整误分类开销
　　的模型 705
　　31.8 采用投票和趋向平均方法
　　合并模型 706
　　31.9 对利润*佳模型的解释 707
　　第32章案例研究，第4部分：高性能
　　建模与评估 709
　　32.1 输入到模型中的变量 709
　　32.2 使用误分类开销的模型 710
　　32.3 需要作为误分类开销代理
　　调整的模型 710
　　32.4 使用投票和趋向平均的合并
　　模型 711
　　32.5 经验总结 713
　　32.6 总结 713
　　附录A 数据汇总与可视化 715

目　录作者简介内容简介

　　通过做数据分析学习数据分析
　　《数据挖掘与预测分析(第2版)》提供了从数据准备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软件底层算法的“白盒”方法，而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的应用方法。
　　第2版的新内容：
　　● 添加了500多页的新内容，包括20个新章节，例如，数据建模准备、成本-效益分析、缺失数据填充、聚类优劣度量以及细分模型等。
　　● 针对前沿主题的新章节，例如，多元分类模型、BIRCH聚类、集成学习(bagging及boosting)、模型投票与趋向平均等。
　　● 每章节后均附有R语言开发园地，读者可以获得完成书中分析所需的R语言源代码，以及通过R代码生成的图、表和结果。
　　● 书中的附录为那些对统计基础生疏的读者提供了了解基本概念的材料。
　　● 超过750个章节练习，使读者能够自己测试对所学知识的掌握程度，并着手开展数据挖掘与预测分析工作。
　　《数据挖掘与预测分析(第2版)》将对数据分析人员、数据库分析人员以及CIO具有极大的吸引力，通过学习将使他们知道何种类型的分析将会增加其投资回报。

比价列表

商家

评价 (2111)

折扣

价格