大数据与机器学习:实践方法与行业案例
前言
第一部分 数据与平台篇
第1章 数据与数据平台3
1.1 数据的基本形态4
1.1.1 数据环境与数据形态4
1.1.2 生产数据5
1.1.3 原始数据5
1.1.4 分析数据6
1.2 数据平台7
1.2.1 数据仓库平台9
查看完整
第一部分 数据与平台篇
第1章 数据与数据平台3
1.1 数据的基本形态4
1.1.1 数据环境与数据形态4
1.1.2 生产数据5
1.1.3 原始数据5
1.1.4 分析数据6
1.2 数据平台7
1.2.1 数据仓库平台9
查看完整
陈春宝,先后获得了经济学硕士和工业工程博士学位,拥有10年数据分析及应用经验,目前任职于股份制商业银行总行,在数据挖掘、机器学习和业务咨询方面有着独到的见解,他的工作跨大数据、营销、风险、运营等多个领域,擅长诊断各类业务问题,应用商业和数据分析手段获得创新性的解决方案,并帮助业务部门有效的实施。
他曾经担任交通银行信用卡中心的数据分析经理,以及美国MSA公司咨询顾问,拥有银行、信用卡、烟草、医药与电信等行业几十个项目的数据挖掘分析与SAS建模经验。基于大数据构建的预测模型,创新了商业模式并为公司带来新的收入来源,参与设计的算法获得人民银行科技发展二等奖。
他还长期负责企业内的数据分析人员培训和管理,并先后担任两个大数据专业期刊的责任编辑,近几年经常作为嘉宾活跃在高校与企业的一系列大数据活动中。曾担任上海交通大学…
查看完整
他曾经担任交通银行信用卡中心的数据分析经理,以及美国MSA公司咨询顾问,拥有银行、信用卡、烟草、医药与电信等行业几十个项目的数据挖掘分析与SAS建模经验。基于大数据构建的预测模型,创新了商业模式并为公司带来新的收入来源,参与设计的算法获得人民银行科技发展二等奖。
他还长期负责企业内的数据分析人员培训和管理,并先后担任两个大数据专业期刊的责任编辑,近几年经常作为嘉宾活跃在高校与企业的一系列大数据活动中。曾担任上海交通大学…
查看完整
本书从企业实践出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据与平台篇、分析篇和应用篇分别撰写。数据与平台篇(第1~3章),立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便快速为分析准备素材。分析篇(第4~11章),选取企业实际案例,介绍常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。应用篇(第12~15章),选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。
前言
第一部分 数据与平台篇
第1章 数据与数据平台3
1.1 数据的基本形态4
1.1.1 数据环境与数据形态4
1.1.2 生产数据5
1.1.3 原始数据5
1.1.4 分析数据6
1.2 数据平台7
1.2.1 数据仓库平台9
1.2.2 大数据平台13
1.2.3 MPP数据库22
1.2.4 NoSQL数据库23
1.3 应用系统24
1.4 本章小结25
第2章 数据体系26
2.1 数据闭环27
2.2 数据缓冲区28
2.2.1 系统解耦29
2.2.2 批量导出31
2.2.3 FTP传输40
2.2.4 批量导入42
2.3 ETL49
2.3.1 ETL工具50
2.3.2 ETL作业52
2.4 作业调度56
2.5 监控和预警56
2.5.1 使用监控工具进行监控57
2.5.2 使用BI工具进行监控57
2.6 本章小结57
第3章 实战:打造数据闭环59
3.1 数据缓冲区的基本规则60
3.1.1 文件存储规则61
3.1.2 文件命名规则61
3.1.3 文件清理规则62
3.2 自动加载的流程62
3.2.1 扫描文件63
3.2.2 下载文件64
3.2.3 解压文件65
3.2.4 加载文件65
3.3 自动加载程序的数据库设计66
3.3.1 数据文件信息表67
3.3.2 数据文件状态表68
3.3.3 加载配置信息表69
3.3.4 数据缓冲区信息表70
3.3.5 目标服务器表70
3.4 自动加载程序的多线程实现71
3.4.1 ScanFiles72
3.4.2 DownLoadAndUnZip75
3.4.3 LoadToHive77
3.4.4 LoadToOracle78
3.4.5 自动加载程序的部署架构79
3.4.6 程序的维护和优化80
3.5 本章小结80
第二部分 分 析 篇
第4章 数据预处理83
4.1 数据表的预处理84
4.2 变量的预处理85
4.2.1 缺失值的处理85
4.2.2 极值的处理90
4.3 变量的设计91
4.3.1 暴力衍生91
4.3.2 交叉升维92
4.4 变量筛选95
4.4.1 筛选显著变量95
4.4.2 剔除共线性96
4.5 本章小结100
第5章 聚类,简单易用的客户细分方法101
5.1 从客户细分说起102
5.1.1 为什么要做客户细分102
5.1.2 怎么做客户细分103
5.1.3 聚类分析,无监督的客户细分方法107
5.2 谱系聚类107
5.2.1 基本步骤107
5.2.2 案例:公司客户差异化服务110
5.2.3 谱系聚类方法的题外话115
5.3 K-means算法116
5.3.1 基本步骤116
5.3.2 案例:电商卖家细分117
5.3.3 K-means算法的题外话121
5.4 本章小结121
第6章 关联规则挖掘,发现产品
加载和交叉销售机会122
6.1 销售的真谛:让客户买得更多123
6.1.1 案例:电商的生意经123
6.1.2 案例:富国银行的“商店”经营模式124
6.1.3 案例总结125
6.2 交叉销售126
6.2.1 为什么要做交叉销售126
6.2.2 怎么做交叉销售126
6.3 关联规则挖掘,发现交叉销售机会128
6.3.1 Apriori算法129
6.3.2 Apriori算法的主要指标129
6.3.3 Apriori算法的基本步骤131
6.4 案例:信用卡产品交叉销售131
6.4.1 准备数据132
6.4.2 SAS实现132
6.4.3 结果分析133
6.4.4 序列关联分析136
6.4.5 结果应用137
6.5 本章小结138
第7章 社交网络分析,从“关系
的角度分析问题139
7.1 先看几张美轮美奂的图片140
7.2 社交网络分析方法142
7.2.1 定义142
7.2.2 应用场景142
7.2.3 网络识别算法143
7.3 案例:电商通过订单数据识别供应链144
7.3.1 供应链及供应链金融144
7.3.2 识别核心企业及其上下游关系144
7.3.3 分析结果的业务应用149
7.4 案例:P2P投资风险防范151
7.4.1 案例背景151
7.4.2 防范方法152
7.5 本章小结153
第8章 线性回归,预测客户价值155
8.1 数值预测156
8.2 回归与拟合157
8.2.1 回归就是拟合157
8.2.2 在Excel中添加趋势线预测158
8.3 案例:信用卡客户价值预测159
8.3.1 确定预测目标159
8.3.2 准备建模数据161
8.3.3 模型拟合163
8.3.4 模型评估165
8.4 基于客户价值分层的业务策略167
8.5 本章小结167
第9章 Logistic回归,精准营销的
主要支撑算法169
9.1 大数据时代的精准营销170
9.1.1 精准营销170
9.1.2 基于大数据的精准营销模式171
9.1.3 如何做到精准172
9.2 Logistic回归算法介绍173
9.2.1 算法原理173
9.2.2 关键步骤174
9.3 案例:信用卡消费信贷产品的精准营销176
9.3.1 案例背景176
9.3.2 数据准备176
9.3.3 数据预处理180
9.3.4 建模182
9.3.5 模型评估185
9.4 预测模型的应用与评估189
9.5 本章小结189
第10章 决策树类算法,反欺诈
模型“专家”191
10.1 决策树,重要的分类器191
10.2 决策树的关键思想192
10.2.1 理财客户画像案例背景192
10.2.2 关键思想一:递归划分194
10.2.3 关键思想二:剪枝197
10.3 案例:电商盗卡交易风险识别198
10.3.1 案例背景198
10.3.2 以SAS实现199
10.3.3 以Clementine实现201
10.3.4 以R实现204
10.4 随机森林208
10.5 本章小结209
第11章 数据可视化,是分析更是
设计210
11.1 数据演示之道210
11.1.1 好“色”之图211
11.1.2 版式有形212
11.1.3 数据发声214
11.2 个性化地图215
11.2.1 案例背景:存款增长率指标展示215
11.2.2 获取地理位置的经纬度数据216
11.2.3 定制地图背景和图标217
11.2.4 生成地图220
11.3 文本分析222
11.3.1 案例:电商的客户评价分析222
11.3.2 分词223
11.3.3 词云制作224
11.3.4 情感分析225
11.4 本章小结227
第三部分 应 用 篇
第12章 标签系统231
12.1 认识标签系统231
12.2 标签系统的设计233
12.2.1 标签系统的层次结构233
12.2.2 标签系统的更新规则233
12.2.3 机器学习模型转化为标签235
12.3 标签系统的实现236
12.3.1 标签映射表237
12.3.2 标签系统的前端实现238
12.3.3 标签系统的数据后端实现238
12.3.4 标签系统的在线接口实现242
12.4 本章小结242
第13章 数据自助营销平台244
13.1 数据自助营销平台的价值所在245
13.1.1 自动化营销,提升工作效率245
13.1.2 降低营销成本,提升用户体验247
13.1.3 个性化营销,提升响应率248
13.1.4 统一管理,便于效果追踪249
13.2 数据自助营销平台的实现原则249
13.2.1 数据营销活动的节点249
13.2.2 数据自助营销平台的基础:标签系统251
13.2.3 数据自助营销平台的批量任务252
13.2.4 实时数据营销254
13.3 数据自助营销平台的场景实例254
13.3.1 客户生命周期管理254
13.3.2 用卡激励计划257
13.4 本章小结260
第14章 基于Mahout的个性化推荐系统261
14.1 Mahout的推荐引擎262
14.1.1 Mahout的安装配置262
14.1.2 Mahout的使用方式263
14.1.3 协同过滤算法264
14.1.4 Mahout的推荐引擎265
14.2 规模与效率268
14.2.1 Mahout推荐算法的适用范围268
14.2.2 通过分布式解决规模和效率的问题270
14.3 实现一个推荐系统275
14.3.1 系统框架275
14.3.2 推荐系统的刷新276
14.3.3 部署一个可用的推荐系统276
14.4 本章小结280
第15章 图计算与社会网络281
15.1 社会网络和属性图282
15.2 Spark GraphX与Neo4j283
15.2.1 Scala编程语言284
15.2.2 Cypher查询语言285
15.3 使用Spark GraphX和Neo4j处理社会网络286
15.3.1 背景说明286
15.3.2 数据准备286
15.3.3 Spark GraphX处理原始网络287
15.3.4 Neo4j交互式查询分析291
15.3.5 更多的应用场景295
15.4 本章小结296
^ 收 起
第一部分 数据与平台篇
第1章 数据与数据平台3
1.1 数据的基本形态4
1.1.1 数据环境与数据形态4
1.1.2 生产数据5
1.1.3 原始数据5
1.1.4 分析数据6
1.2 数据平台7
1.2.1 数据仓库平台9
1.2.2 大数据平台13
1.2.3 MPP数据库22
1.2.4 NoSQL数据库23
1.3 应用系统24
1.4 本章小结25
第2章 数据体系26
2.1 数据闭环27
2.2 数据缓冲区28
2.2.1 系统解耦29
2.2.2 批量导出31
2.2.3 FTP传输40
2.2.4 批量导入42
2.3 ETL49
2.3.1 ETL工具50
2.3.2 ETL作业52
2.4 作业调度56
2.5 监控和预警56
2.5.1 使用监控工具进行监控57
2.5.2 使用BI工具进行监控57
2.6 本章小结57
第3章 实战:打造数据闭环59
3.1 数据缓冲区的基本规则60
3.1.1 文件存储规则61
3.1.2 文件命名规则61
3.1.3 文件清理规则62
3.2 自动加载的流程62
3.2.1 扫描文件63
3.2.2 下载文件64
3.2.3 解压文件65
3.2.4 加载文件65
3.3 自动加载程序的数据库设计66
3.3.1 数据文件信息表67
3.3.2 数据文件状态表68
3.3.3 加载配置信息表69
3.3.4 数据缓冲区信息表70
3.3.5 目标服务器表70
3.4 自动加载程序的多线程实现71
3.4.1 ScanFiles72
3.4.2 DownLoadAndUnZip75
3.4.3 LoadToHive77
3.4.4 LoadToOracle78
3.4.5 自动加载程序的部署架构79
3.4.6 程序的维护和优化80
3.5 本章小结80
第二部分 分 析 篇
第4章 数据预处理83
4.1 数据表的预处理84
4.2 变量的预处理85
4.2.1 缺失值的处理85
4.2.2 极值的处理90
4.3 变量的设计91
4.3.1 暴力衍生91
4.3.2 交叉升维92
4.4 变量筛选95
4.4.1 筛选显著变量95
4.4.2 剔除共线性96
4.5 本章小结100
第5章 聚类,简单易用的客户细分方法101
5.1 从客户细分说起102
5.1.1 为什么要做客户细分102
5.1.2 怎么做客户细分103
5.1.3 聚类分析,无监督的客户细分方法107
5.2 谱系聚类107
5.2.1 基本步骤107
5.2.2 案例:公司客户差异化服务110
5.2.3 谱系聚类方法的题外话115
5.3 K-means算法116
5.3.1 基本步骤116
5.3.2 案例:电商卖家细分117
5.3.3 K-means算法的题外话121
5.4 本章小结121
第6章 关联规则挖掘,发现产品
加载和交叉销售机会122
6.1 销售的真谛:让客户买得更多123
6.1.1 案例:电商的生意经123
6.1.2 案例:富国银行的“商店”经营模式124
6.1.3 案例总结125
6.2 交叉销售126
6.2.1 为什么要做交叉销售126
6.2.2 怎么做交叉销售126
6.3 关联规则挖掘,发现交叉销售机会128
6.3.1 Apriori算法129
6.3.2 Apriori算法的主要指标129
6.3.3 Apriori算法的基本步骤131
6.4 案例:信用卡产品交叉销售131
6.4.1 准备数据132
6.4.2 SAS实现132
6.4.3 结果分析133
6.4.4 序列关联分析136
6.4.5 结果应用137
6.5 本章小结138
第7章 社交网络分析,从“关系
的角度分析问题139
7.1 先看几张美轮美奂的图片140
7.2 社交网络分析方法142
7.2.1 定义142
7.2.2 应用场景142
7.2.3 网络识别算法143
7.3 案例:电商通过订单数据识别供应链144
7.3.1 供应链及供应链金融144
7.3.2 识别核心企业及其上下游关系144
7.3.3 分析结果的业务应用149
7.4 案例:P2P投资风险防范151
7.4.1 案例背景151
7.4.2 防范方法152
7.5 本章小结153
第8章 线性回归,预测客户价值155
8.1 数值预测156
8.2 回归与拟合157
8.2.1 回归就是拟合157
8.2.2 在Excel中添加趋势线预测158
8.3 案例:信用卡客户价值预测159
8.3.1 确定预测目标159
8.3.2 准备建模数据161
8.3.3 模型拟合163
8.3.4 模型评估165
8.4 基于客户价值分层的业务策略167
8.5 本章小结167
第9章 Logistic回归,精准营销的
主要支撑算法169
9.1 大数据时代的精准营销170
9.1.1 精准营销170
9.1.2 基于大数据的精准营销模式171
9.1.3 如何做到精准172
9.2 Logistic回归算法介绍173
9.2.1 算法原理173
9.2.2 关键步骤174
9.3 案例:信用卡消费信贷产品的精准营销176
9.3.1 案例背景176
9.3.2 数据准备176
9.3.3 数据预处理180
9.3.4 建模182
9.3.5 模型评估185
9.4 预测模型的应用与评估189
9.5 本章小结189
第10章 决策树类算法,反欺诈
模型“专家”191
10.1 决策树,重要的分类器191
10.2 决策树的关键思想192
10.2.1 理财客户画像案例背景192
10.2.2 关键思想一:递归划分194
10.2.3 关键思想二:剪枝197
10.3 案例:电商盗卡交易风险识别198
10.3.1 案例背景198
10.3.2 以SAS实现199
10.3.3 以Clementine实现201
10.3.4 以R实现204
10.4 随机森林208
10.5 本章小结209
第11章 数据可视化,是分析更是
设计210
11.1 数据演示之道210
11.1.1 好“色”之图211
11.1.2 版式有形212
11.1.3 数据发声214
11.2 个性化地图215
11.2.1 案例背景:存款增长率指标展示215
11.2.2 获取地理位置的经纬度数据216
11.2.3 定制地图背景和图标217
11.2.4 生成地图220
11.3 文本分析222
11.3.1 案例:电商的客户评价分析222
11.3.2 分词223
11.3.3 词云制作224
11.3.4 情感分析225
11.4 本章小结227
第三部分 应 用 篇
第12章 标签系统231
12.1 认识标签系统231
12.2 标签系统的设计233
12.2.1 标签系统的层次结构233
12.2.2 标签系统的更新规则233
12.2.3 机器学习模型转化为标签235
12.3 标签系统的实现236
12.3.1 标签映射表237
12.3.2 标签系统的前端实现238
12.3.3 标签系统的数据后端实现238
12.3.4 标签系统的在线接口实现242
12.4 本章小结242
第13章 数据自助营销平台244
13.1 数据自助营销平台的价值所在245
13.1.1 自动化营销,提升工作效率245
13.1.2 降低营销成本,提升用户体验247
13.1.3 个性化营销,提升响应率248
13.1.4 统一管理,便于效果追踪249
13.2 数据自助营销平台的实现原则249
13.2.1 数据营销活动的节点249
13.2.2 数据自助营销平台的基础:标签系统251
13.2.3 数据自助营销平台的批量任务252
13.2.4 实时数据营销254
13.3 数据自助营销平台的场景实例254
13.3.1 客户生命周期管理254
13.3.2 用卡激励计划257
13.4 本章小结260
第14章 基于Mahout的个性化推荐系统261
14.1 Mahout的推荐引擎262
14.1.1 Mahout的安装配置262
14.1.2 Mahout的使用方式263
14.1.3 协同过滤算法264
14.1.4 Mahout的推荐引擎265
14.2 规模与效率268
14.2.1 Mahout推荐算法的适用范围268
14.2.2 通过分布式解决规模和效率的问题270
14.3 实现一个推荐系统275
14.3.1 系统框架275
14.3.2 推荐系统的刷新276
14.3.3 部署一个可用的推荐系统276
14.4 本章小结280
第15章 图计算与社会网络281
15.1 社会网络和属性图282
15.2 Spark GraphX与Neo4j283
15.2.1 Scala编程语言284
15.2.2 Cypher查询语言285
15.3 使用Spark GraphX和Neo4j处理社会网络286
15.3.1 背景说明286
15.3.2 数据准备286
15.3.3 Spark GraphX处理原始网络287
15.3.4 Neo4j交互式查询分析291
15.3.5 更多的应用场景295
15.4 本章小结296
^ 收 起
陈春宝,先后获得了经济学硕士和工业工程博士学位,拥有10年数据分析及应用经验,目前任职于股份制商业银行总行,在数据挖掘、机器学习和业务咨询方面有着独到的见解,他的工作跨大数据、营销、风险、运营等多个领域,擅长诊断各类业务问题,应用商业和数据分析手段获得创新性的解决方案,并帮助业务部门有效的实施。
他曾经担任交通银行信用卡中心的数据分析经理,以及美国MSA公司咨询顾问,拥有银行、信用卡、烟草、医药与电信等行业几十个项目的数据挖掘分析与SAS建模经验。基于大数据构建的预测模型,创新了商业模式并为公司带来新的收入来源,参与设计的算法获得人民银行科技发展二等奖。
他还长期负责企业内的数据分析人员培训和管理,并先后担任两个大数据专业期刊的责任编辑,近几年经常作为嘉宾活跃在高校与企业的一系列大数据活动中。曾担任上海交通大学工程硕士企业导师,SCI&EI索引期刊发表论文10余篇。
^ 收 起
他曾经担任交通银行信用卡中心的数据分析经理,以及美国MSA公司咨询顾问,拥有银行、信用卡、烟草、医药与电信等行业几十个项目的数据挖掘分析与SAS建模经验。基于大数据构建的预测模型,创新了商业模式并为公司带来新的收入来源,参与设计的算法获得人民银行科技发展二等奖。
他还长期负责企业内的数据分析人员培训和管理,并先后担任两个大数据专业期刊的责任编辑,近几年经常作为嘉宾活跃在高校与企业的一系列大数据活动中。曾担任上海交通大学工程硕士企业导师,SCI&EI索引期刊发表论文10余篇。
^ 收 起
本书从企业实践出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据与平台篇、分析篇和应用篇分别撰写。数据与平台篇(第1~3章),立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便快速为分析准备素材。分析篇(第4~11章),选取企业实际案例,介绍常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。应用篇(第12~15章),选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。
比价列表