数据挖掘:商业数据分析技术与实践
第一部分 预备知识
1 导论002
1.1 什么是商业分析? 002
1.2 什么是数据挖掘? 004
1.3 数据挖掘及相关用语 004
1.4 大数据 005
1.5 数据科学 006
1.6 为什么会有这么多不同的方法? 007
1.7 术语和符号 007
1.8 本书框架 009
查看完整
1 导论002
1.1 什么是商业分析? 002
1.2 什么是数据挖掘? 004
1.3 数据挖掘及相关用语 004
1.4 大数据 005
1.5 数据科学 006
1.6 为什么会有这么多不同的方法? 007
1.7 术语和符号 007
1.8 本书框架 009
查看完整
盖丽特.徐茉莉博士是中国台湾清华大学服务科学研究所的特聘教授。自2004年以来,她在马里兰大学、Statistics.com、印度商学院和中国台湾清华大学设计并指导了数据挖掘课程。徐茉莉教授以她在商业分析领域的研究和教学而闻名,她的研究方向是在信息系统和医疗保健方面的统计和数据挖掘方法。她撰写了70篇期刊文章、书籍、教材和图书章节,包括Wiley出版的《商业数据挖掘:概念、技术和应用程序XLMiner®(第三版)》。
彼得.布鲁斯是www.statistics.com统计教育研究所的主席和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是《统计分析导论:基于重采样角度》一书的作者以及《商业数据挖掘: 概念、技术和应用程序XLMiner(第三版)》的合著者之一。
米娅·斯蒂芬斯是SAS/JMP®的学术顾问。在加入SAS公司之前,她曾是新罕布什尔大学的统计学兼职教授,也是North Haven Group有限责任公司(一…
查看完整
彼得.布鲁斯是www.statistics.com统计教育研究所的主席和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是《统计分析导论:基于重采样角度》一书的作者以及《商业数据挖掘: 概念、技术和应用程序XLMiner(第三版)》的合著者之一。
米娅·斯蒂芬斯是SAS/JMP®的学术顾问。在加入SAS公司之前,她曾是新罕布什尔大学的统计学兼职教授,也是North Haven Group有限责任公司(一…
查看完整
本书采用SAS公司的统计软件包JMP Pro进行实践性应用,使用引人入胜的实际案例来构建关键数据挖掘方法(尤其是分类和预测的预测模型)的理论及其实践理解。本书所讨论的主题包括数据可视化、降维、聚类、线性和逻辑回归、分类和回归树、判别分析、朴素贝叶斯、人工神经网络、增量模型、集成算法以及时间序列预测等。
第一部分 预备知识
1 导论002
1.1 什么是商业分析? 002
1.2 什么是数据挖掘? 004
1.3 数据挖掘及相关用语 004
1.4 大数据 005
1.5 数据科学 006
1.6 为什么会有这么多不同的方法? 007
1.7 术语和符号 007
1.8 本书框架 009
2 数据挖掘概述 ·013
2.1 引言 013
2.2 数据挖掘的核心思想 014
2.3 数据挖掘步骤 016
2.4 初步步骤 018
2.5 预测能力和过拟合 024
2.6 用JMP Pro建立预测模型 029
2.7 用JMP Pro进行数据挖掘 036
2.8 自动化数据挖掘解决方案 037
第二部分数据探索与降维
3 数据可视化046
3.1 数据可视化的用途046
3.2 数据实例047
3.3 基本图形:条形图、折线图和散点图049
3.4 多维可视化056
3.5 特殊可视化068
3.6 基于数据挖掘目标的主要可视化方案和操作概要072
4 降维076
4.1 引言076
4.2 维度灾难077
4.3 实际考虑077
4.4 数据汇总078
4.5 相关分析082
4.6 减少分类变量中的类别数量082
4.7 将分类型变量转换为连续型变量084
4.8 主成分分析084
4.9 利用回归模型降维094
4.10 利用分类和回归树降维094
第三部分性能评估
5 评估预测效果 ·098
5.1 引言098
5.2 评价预测性能099
5.3 评判分类效果101
5.4 评判分类性能112
5.5 过采样115
第四部分预测与分类方法
6 多元线性回归 ·122
6.1 引言122
6.2 解释模型与预测模型123
6.3 估计回归方程和预测124
6.4 线性回归中的变量选择129
7 k近邻法142
7.1 k-NN 分类(分类型结果变量)142
7.2 数值型结果变量下的k-NN 方法·147
7.3 k-NN 算法的优点和缺点149
8 朴素贝叶斯分类器 153
8.1 引言153
8.2 使用完全(精确)贝叶斯分类器155
8.3 朴素贝叶斯方法的优点和缺点163
9 分类和回归树 ·168
9.1 引言168
9.2 分类树169
9.3 生成树172
9.4 评估分类树的效果176
9.5 避免过拟合178
9.6 树中的分类准则181
9.7 多分类的分类树182
9.8 回归树182
9.9 树的优点和缺点184
9.10 预测方法的提高:组合多棵树186
9.11 不纯度的提取和度量188
10 逻辑回归 193
10.1 引言 ·193
10.2 逻辑回归模型 ·195
10.3 评价分类性能 ·202
10.4 完整分析案例:预测航班延误 ·205
10.5 附录:逻辑回归的概括 ·214
11 神经网络 225
11.1 引言 ·225
11.2 神经网络的概念和结构 ·226
11.3 拟合数据 ·226
11.4 JMP Pro 用户输入·240
11.5 探索预测变量和响应变量的关系 ·242
11.6 神经网络的优点和缺陷 ·243
12 判别分析 247
12.1 引言 ·247
12.2 观测值到类的距离 ·249
12.3 从距离到倾向和分类 ·251
12.4 判别分析的分类性能 ·254
12.5 先验概率 ·255
12.6 多类别分类 ·256
12.7 优点和缺点 ·258
13 组合方法:集成算法和增量模型 263
13.1 集成算法 ·263
13.2 增量(说服)模型 ·268
13.3 总结 ·274
第五部分挖掘记录之间的关系
14 聚类分析 280
14.1 引言 ·280
14.2 定义两个观测值之间的距离 ·284
14.3 定义两个类之间的距离 ·288
14.4 系统(凝聚)聚类 ·290
14.5 非系统聚类:k-means 算法·299
第六部分时间序列预测
15 时间序列处理·310
15.1 引言 ·310
15.2 描述性与预测性建模 ·311
15.3 商业中的主流预测方法 ·312
15.4 时间序列的构成 ·312
15.5 数据分割和性能评价 ·316
16 回归预测模型·321
16.1 趋势模型 ·321
16.2 季节模型 ·327
16.3 趋势和季节模型 ·330
16.4 自相关和ARIMA 模型 331
17 平滑法·350
17.1 引言 ·350
17.2 移动平均法 ·351
17.3 简单指数平滑法 ·355
17.4 高级指数平滑法 ·358
第七部分案例
18 案例·372
18.1 查尔斯图书俱乐部 ·372
18.2 德国信贷 ·378
18.3 太古软件编目 ·382
18.4 政治说教 ·385
18.5 出租车订单取消 ·388
18.6 浴皂的消费者细分 ·390
18.7 直邮筹款 ·393
18.8 破产预测 ·395
18.9 时间序列案例:预测公共交通需求 ·398
^ 收 起
1 导论002
1.1 什么是商业分析? 002
1.2 什么是数据挖掘? 004
1.3 数据挖掘及相关用语 004
1.4 大数据 005
1.5 数据科学 006
1.6 为什么会有这么多不同的方法? 007
1.7 术语和符号 007
1.8 本书框架 009
2 数据挖掘概述 ·013
2.1 引言 013
2.2 数据挖掘的核心思想 014
2.3 数据挖掘步骤 016
2.4 初步步骤 018
2.5 预测能力和过拟合 024
2.6 用JMP Pro建立预测模型 029
2.7 用JMP Pro进行数据挖掘 036
2.8 自动化数据挖掘解决方案 037
第二部分数据探索与降维
3 数据可视化046
3.1 数据可视化的用途046
3.2 数据实例047
3.3 基本图形:条形图、折线图和散点图049
3.4 多维可视化056
3.5 特殊可视化068
3.6 基于数据挖掘目标的主要可视化方案和操作概要072
4 降维076
4.1 引言076
4.2 维度灾难077
4.3 实际考虑077
4.4 数据汇总078
4.5 相关分析082
4.6 减少分类变量中的类别数量082
4.7 将分类型变量转换为连续型变量084
4.8 主成分分析084
4.9 利用回归模型降维094
4.10 利用分类和回归树降维094
第三部分性能评估
5 评估预测效果 ·098
5.1 引言098
5.2 评价预测性能099
5.3 评判分类效果101
5.4 评判分类性能112
5.5 过采样115
第四部分预测与分类方法
6 多元线性回归 ·122
6.1 引言122
6.2 解释模型与预测模型123
6.3 估计回归方程和预测124
6.4 线性回归中的变量选择129
7 k近邻法142
7.1 k-NN 分类(分类型结果变量)142
7.2 数值型结果变量下的k-NN 方法·147
7.3 k-NN 算法的优点和缺点149
8 朴素贝叶斯分类器 153
8.1 引言153
8.2 使用完全(精确)贝叶斯分类器155
8.3 朴素贝叶斯方法的优点和缺点163
9 分类和回归树 ·168
9.1 引言168
9.2 分类树169
9.3 生成树172
9.4 评估分类树的效果176
9.5 避免过拟合178
9.6 树中的分类准则181
9.7 多分类的分类树182
9.8 回归树182
9.9 树的优点和缺点184
9.10 预测方法的提高:组合多棵树186
9.11 不纯度的提取和度量188
10 逻辑回归 193
10.1 引言 ·193
10.2 逻辑回归模型 ·195
10.3 评价分类性能 ·202
10.4 完整分析案例:预测航班延误 ·205
10.5 附录:逻辑回归的概括 ·214
11 神经网络 225
11.1 引言 ·225
11.2 神经网络的概念和结构 ·226
11.3 拟合数据 ·226
11.4 JMP Pro 用户输入·240
11.5 探索预测变量和响应变量的关系 ·242
11.6 神经网络的优点和缺陷 ·243
12 判别分析 247
12.1 引言 ·247
12.2 观测值到类的距离 ·249
12.3 从距离到倾向和分类 ·251
12.4 判别分析的分类性能 ·254
12.5 先验概率 ·255
12.6 多类别分类 ·256
12.7 优点和缺点 ·258
13 组合方法:集成算法和增量模型 263
13.1 集成算法 ·263
13.2 增量(说服)模型 ·268
13.3 总结 ·274
第五部分挖掘记录之间的关系
14 聚类分析 280
14.1 引言 ·280
14.2 定义两个观测值之间的距离 ·284
14.3 定义两个类之间的距离 ·288
14.4 系统(凝聚)聚类 ·290
14.5 非系统聚类:k-means 算法·299
第六部分时间序列预测
15 时间序列处理·310
15.1 引言 ·310
15.2 描述性与预测性建模 ·311
15.3 商业中的主流预测方法 ·312
15.4 时间序列的构成 ·312
15.5 数据分割和性能评价 ·316
16 回归预测模型·321
16.1 趋势模型 ·321
16.2 季节模型 ·327
16.3 趋势和季节模型 ·330
16.4 自相关和ARIMA 模型 331
17 平滑法·350
17.1 引言 ·350
17.2 移动平均法 ·351
17.3 简单指数平滑法 ·355
17.4 高级指数平滑法 ·358
第七部分案例
18 案例·372
18.1 查尔斯图书俱乐部 ·372
18.2 德国信贷 ·378
18.3 太古软件编目 ·382
18.4 政治说教 ·385
18.5 出租车订单取消 ·388
18.6 浴皂的消费者细分 ·390
18.7 直邮筹款 ·393
18.8 破产预测 ·395
18.9 时间序列案例:预测公共交通需求 ·398
^ 收 起
盖丽特.徐茉莉博士是中国台湾清华大学服务科学研究所的特聘教授。自2004年以来,她在马里兰大学、Statistics.com、印度商学院和中国台湾清华大学设计并指导了数据挖掘课程。徐茉莉教授以她在商业分析领域的研究和教学而闻名,她的研究方向是在信息系统和医疗保健方面的统计和数据挖掘方法。她撰写了70篇期刊文章、书籍、教材和图书章节,包括Wiley出版的《商业数据挖掘:概念、技术和应用程序XLMiner®(第三版)》。
彼得.布鲁斯是www.statistics.com统计教育研究所的主席和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是《统计分析导论:基于重采样角度》一书的作者以及《商业数据挖掘: 概念、技术和应用程序XLMiner(第三版)》的合著者之一。
米娅·斯蒂芬斯是SAS/JMP®的学术顾问。在加入SAS公司之前,她曾是新罕布什尔大学的统计学兼职教授,也是North Haven Group有限责任公司(一家统计培训和咨询公司)的创始成员。同时是另外三本书的合著者,包括由Wiley出版的《六西格玛可视化:更精益化的数据分析(第二版)》。
尼廷·帕特尔博士是位于马萨诸塞州剑桥市的Cytel有限公司的主席和联合创始人,美国统计协会会士,同时也是麻省理工学院和哈佛大学的客座教授。他是印度计算机学会会士,并在印度管理学院艾哈迈德巴德分校担任15年教授工作。他也是Wiley出版的《商业数据挖掘: 概念、技术和应用程序XLMiner(第三版)》的合著者之一。
^ 收 起
彼得.布鲁斯是www.statistics.com统计教育研究所的主席和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是《统计分析导论:基于重采样角度》一书的作者以及《商业数据挖掘: 概念、技术和应用程序XLMiner(第三版)》的合著者之一。
米娅·斯蒂芬斯是SAS/JMP®的学术顾问。在加入SAS公司之前,她曾是新罕布什尔大学的统计学兼职教授,也是North Haven Group有限责任公司(一家统计培训和咨询公司)的创始成员。同时是另外三本书的合著者,包括由Wiley出版的《六西格玛可视化:更精益化的数据分析(第二版)》。
尼廷·帕特尔博士是位于马萨诸塞州剑桥市的Cytel有限公司的主席和联合创始人,美国统计协会会士,同时也是麻省理工学院和哈佛大学的客座教授。他是印度计算机学会会士,并在印度管理学院艾哈迈德巴德分校担任15年教授工作。他也是Wiley出版的《商业数据挖掘: 概念、技术和应用程序XLMiner(第三版)》的合著者之一。
^ 收 起
本书采用SAS公司的统计软件包JMP Pro进行实践性应用,使用引人入胜的实际案例来构建关键数据挖掘方法(尤其是分类和预测的预测模型)的理论及其实践理解。本书所讨论的主题包括数据可视化、降维、聚类、线性和逻辑回归、分类和回归树、判别分析、朴素贝叶斯、人工神经网络、增量模型、集成算法以及时间序列预测等。
比价列表
1人拥有
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠