机器学习互联网业务安全实践
第1章 互联网业务安全简述 1
1.1 互联网业务安全现状 1
1.2 如何应对挑战 4
1.3 本章小结 6
参考资料 6
第2章 机器学习入门 8
2.1 相似性 9
2.1.1 范数 9
2.1.2 度量 12
2.2 矩阵 20
查看完整
1.1 互联网业务安全现状 1
1.2 如何应对挑战 4
1.3 本章小结 6
参考资料 6
第2章 机器学习入门 8
2.1 相似性 9
2.1.1 范数 9
2.1.2 度量 12
2.2 矩阵 20
查看完整
王帅,花名“莲华”,美丽联合集团(蘑菇街)安全部风控算法技术负责人。2015年初加入蘑菇街,主要负责风控相关的反作弊算法,从无到有搭建了电商平台的风控策略架构体系,主要研究方向是基于机器学习的风控算法策略。吴哲夫,本科就读于山东大学,研究生就读于北京大学,曾在微软亚洲研究院实习,毕业后就职于阿里巴巴(北京),现供职于美丽联合集团。
互联网产业正在从IT时代迈入DT时代(数据时代),同时互联网产业的繁荣也催生了黑灰产这样的群体。那么,在数据时代应该如何应对互联网业务安全威胁?机器学习技术在互联网业务安全领域的应用正是答案。本书首先从机器学习技术的原理入手,自成体系地介绍了机器学习的基础知识,从数学的角度揭示了算法模型背后的基本原理;然后介绍了互联网业务安全所涉及的重要业务场景,以及机器学习技术在这些场景中的应用实践;*后介绍了如何应用互联网技术栈来建设业务安全技术架构。作者根据多年的一线互联网公司从业经验给出了很多独到的见解,供读者参考。本书既适合机器学习从业者作为入门参考书,也适合互联网业务安全从业者学习黑灰产对抗手段,帮助他们做到知己知彼,了解如何应用机器学习技术来提高与黑灰产对抗的能力。
第1章 互联网业务安全简述 1
1.1 互联网业务安全现状 1
1.2 如何应对挑战 4
1.3 本章小结 6
参考资料 6
第2章 机器学习入门 8
2.1 相似性 9
2.1.1 范数 9
2.1.2 度量 12
2.2 矩阵 20
2.2.1 线性空间 20
2.2.2 线性算子 24
2.3 空间 33
2.3.1 内积空间 33
2.3.2 欧几里得空间(Euclid space) 34
2.3.3 酉空间 37
2.3.4 赋范线性空间 38
2.3.5 巴拿赫空间 39
2.3.6 希尔伯特空间 43
2.3.7 核函数 44
2.4 机器学习中的数学结构 46
2.4.1 线性结构与非线性结构 46
2.4.2 图论基础 47
2.4.3 树 56
2.4.4 神经网络 62
2.4.5 深度网络结构 80
2.4.6 小结 95
2.5 统计基础 96
2.5.1 贝叶斯统计 96
2.5.2 共轭先验分布 99
2.6 策略与算法 106
2.6.1 凸优化的基本概念 106
2.6.2 对偶原理 120
2.6.3 非线性规划问题的解决方法 129
2.6.4 无约束问题的化方法 134
2.7 机器学习算法应用的经验 145
2.7.1 如何定义机器学习目标 145
2.7.2 如何从数据中获取有价值的信息 149
2.7.3 评估模型的表现 154
2.7.4 测试效果远差于预期怎么办 156
2.8 本章小结 159
参考资料 160
第3章 模型 163
3.1 基本概念 163
3.2 模型评价指标 166
3.2.1 混淆矩阵 167
3.2.2 分类问题的基础指标 167
3.2.3 ROC曲线与AUC 171
3.2.4 基尼系数 173
3.2.5 回归问题的评价指标 175
3.2.6 交叉验证 175
3.3 回归算法 177
3.3.1 小二乘法 177
3.3.2 脊回归 181
3.3.3 Lasso回归线性模型 181
3.3.4 多任务Lasso 181
3.3.5 L1、L2正则杂谈 182
3.4 分类算法 183
3.4.1 CART算法 183
3.4.2 支持向量机 186
3.5 降维 188
3.5.1 贝叶斯网络 189
3.5.2 主成分分析 195
3.6 主题模型LDA 198
3.6.1 马尔可夫链蒙特卡罗法 198
3.6.2 贝叶斯网络与生成模型 199
3.6.3 学习方法在LDA中的应用 206
3.7 集成学习方法(Ensemble Method) 215
3.7.1 Boosting方法 216
3.7.2 Bootstrap Aggregating方法 220
3.7.3 Stacking方法 221
3.7.4 小结 222
参考资料 223
第4章 机器学习实践的基础包 226
4.1 简介 226
4.2 Python机器学习基础环境 228
4.2.1 Jupyter Notebook 228
4.2.2 Numpy、Scipy、Matplotlib和pandas 231
4.2.3 scikit-learn、gensim、TensorFlow和Keras 250
4.3 Scala的基础库 266
4.3.1 Zeppelin 266
4.3.2 Breeze 267
4.3.3 Spark MLlib 276
4.4 本章小结 281
参考资料 282
第5章 机器学习实践的金刚钻 283
5.1 简介 283
5.2 XGBoost 284
5.3 Prediction IO(PIO) 287
5.3.1 部署PIO 287
5.3.2 机器学习模型引擎的开发 294
5.3.3 机器学习模型引擎的部署 296
5.3.4 PIO系统的优化 297
5.4 Caffe 298
5.5 TensorFlow 304
5.6 BigDL 306
5.7 本章小结 308
参考资料 308
第6章 账户业务安全 310
6.1 背景介绍 310
6.2 账户安全保障 312
6.2.1 注册环节 312
6.2.2 登录环节 314
6.3 聚类算法在账户安全中的应用 315
6.3.1 K-Means算法 315
6.3.2 高斯混合模型(GMM) 317
6.3.3 OPTICS算法和DBSCAN算法 326
6.3.4 应用案例 331
6.4 本章小结 334
参考资料 334
第7章 平台业务安全 335
7.1 背景介绍 335
7.2 电商平台业务安全 338
7.3 社交平台业务安全 343
7.4 复杂网络算法在平台业务安全中的应用 346
7.4.1 在电商平台作弊团伙识别中的应用 346
7.4.2 在识别虚假社交关系中的应用 351
7.5 本章小结 353
参考资料 354
第8章 内容业务安全 355
8.1 背景介绍 355
8.2 如何做好内容业务安全工作 357
8.2.1 面临的挑战 357
8.2.2 部门协作 358
8.2.3 技术体系 359
8.3 卷积神经网络在内容业务安全中的应用 361
8.3.1 人工神经网络(Artificial Neural Network) 361
8.3.2 深度神经网络(Deep Neural Network) 367
8.3.3 卷积神经网络(Convolutional Neural Network) 379
8.3.4 应用案例 392
8.4 本章小结 405
参考资料 405
第9章 信息业务安全 406
9.1 背景介绍 406
9.2 反欺诈业务 407
9.3 反爬虫业务 412
9.3.1 验证问题的可分性 412
9.3.2 提升模型效果 413
9.4 循环神经网络在信息安全中的应用 414
9.4.1 原始RNN(Vanilla RNN) 414
9.4.2 LSTM算法及其变种 415
9.4.3 应用案例 419
9.5 本章小结 429
参考资料 430
第10章 信贷业务安全 432
10.1 背景介绍 432
10.2 信贷业务安全简介 434
10.3 分类算法在信贷业务安全中的应用 438
10.3.1 典型分类算法的介绍 438
10.3.2 应用案例:逻辑回归模型在信贷中风控阶段的应用 463
10.4 本章小结 468
参考资料 469
第11章 业务安全系统技术架构 470
11.1 整体介绍 470
11.2 平台层 471
11.3 数据层 473
11.4 策略层 474
11.5 服务层 480
11.6 业务层 481
11.7 本章小结 484
参考资料 484
第12章 总结与展望 486
12.1 总结 486
12.2 展望 487
参考资料 489
后记一 490
后记二 491
本书常见数学符号定义 492
^ 收 起
1.1 互联网业务安全现状 1
1.2 如何应对挑战 4
1.3 本章小结 6
参考资料 6
第2章 机器学习入门 8
2.1 相似性 9
2.1.1 范数 9
2.1.2 度量 12
2.2 矩阵 20
2.2.1 线性空间 20
2.2.2 线性算子 24
2.3 空间 33
2.3.1 内积空间 33
2.3.2 欧几里得空间(Euclid space) 34
2.3.3 酉空间 37
2.3.4 赋范线性空间 38
2.3.5 巴拿赫空间 39
2.3.6 希尔伯特空间 43
2.3.7 核函数 44
2.4 机器学习中的数学结构 46
2.4.1 线性结构与非线性结构 46
2.4.2 图论基础 47
2.4.3 树 56
2.4.4 神经网络 62
2.4.5 深度网络结构 80
2.4.6 小结 95
2.5 统计基础 96
2.5.1 贝叶斯统计 96
2.5.2 共轭先验分布 99
2.6 策略与算法 106
2.6.1 凸优化的基本概念 106
2.6.2 对偶原理 120
2.6.3 非线性规划问题的解决方法 129
2.6.4 无约束问题的化方法 134
2.7 机器学习算法应用的经验 145
2.7.1 如何定义机器学习目标 145
2.7.2 如何从数据中获取有价值的信息 149
2.7.3 评估模型的表现 154
2.7.4 测试效果远差于预期怎么办 156
2.8 本章小结 159
参考资料 160
第3章 模型 163
3.1 基本概念 163
3.2 模型评价指标 166
3.2.1 混淆矩阵 167
3.2.2 分类问题的基础指标 167
3.2.3 ROC曲线与AUC 171
3.2.4 基尼系数 173
3.2.5 回归问题的评价指标 175
3.2.6 交叉验证 175
3.3 回归算法 177
3.3.1 小二乘法 177
3.3.2 脊回归 181
3.3.3 Lasso回归线性模型 181
3.3.4 多任务Lasso 181
3.3.5 L1、L2正则杂谈 182
3.4 分类算法 183
3.4.1 CART算法 183
3.4.2 支持向量机 186
3.5 降维 188
3.5.1 贝叶斯网络 189
3.5.2 主成分分析 195
3.6 主题模型LDA 198
3.6.1 马尔可夫链蒙特卡罗法 198
3.6.2 贝叶斯网络与生成模型 199
3.6.3 学习方法在LDA中的应用 206
3.7 集成学习方法(Ensemble Method) 215
3.7.1 Boosting方法 216
3.7.2 Bootstrap Aggregating方法 220
3.7.3 Stacking方法 221
3.7.4 小结 222
参考资料 223
第4章 机器学习实践的基础包 226
4.1 简介 226
4.2 Python机器学习基础环境 228
4.2.1 Jupyter Notebook 228
4.2.2 Numpy、Scipy、Matplotlib和pandas 231
4.2.3 scikit-learn、gensim、TensorFlow和Keras 250
4.3 Scala的基础库 266
4.3.1 Zeppelin 266
4.3.2 Breeze 267
4.3.3 Spark MLlib 276
4.4 本章小结 281
参考资料 282
第5章 机器学习实践的金刚钻 283
5.1 简介 283
5.2 XGBoost 284
5.3 Prediction IO(PIO) 287
5.3.1 部署PIO 287
5.3.2 机器学习模型引擎的开发 294
5.3.3 机器学习模型引擎的部署 296
5.3.4 PIO系统的优化 297
5.4 Caffe 298
5.5 TensorFlow 304
5.6 BigDL 306
5.7 本章小结 308
参考资料 308
第6章 账户业务安全 310
6.1 背景介绍 310
6.2 账户安全保障 312
6.2.1 注册环节 312
6.2.2 登录环节 314
6.3 聚类算法在账户安全中的应用 315
6.3.1 K-Means算法 315
6.3.2 高斯混合模型(GMM) 317
6.3.3 OPTICS算法和DBSCAN算法 326
6.3.4 应用案例 331
6.4 本章小结 334
参考资料 334
第7章 平台业务安全 335
7.1 背景介绍 335
7.2 电商平台业务安全 338
7.3 社交平台业务安全 343
7.4 复杂网络算法在平台业务安全中的应用 346
7.4.1 在电商平台作弊团伙识别中的应用 346
7.4.2 在识别虚假社交关系中的应用 351
7.5 本章小结 353
参考资料 354
第8章 内容业务安全 355
8.1 背景介绍 355
8.2 如何做好内容业务安全工作 357
8.2.1 面临的挑战 357
8.2.2 部门协作 358
8.2.3 技术体系 359
8.3 卷积神经网络在内容业务安全中的应用 361
8.3.1 人工神经网络(Artificial Neural Network) 361
8.3.2 深度神经网络(Deep Neural Network) 367
8.3.3 卷积神经网络(Convolutional Neural Network) 379
8.3.4 应用案例 392
8.4 本章小结 405
参考资料 405
第9章 信息业务安全 406
9.1 背景介绍 406
9.2 反欺诈业务 407
9.3 反爬虫业务 412
9.3.1 验证问题的可分性 412
9.3.2 提升模型效果 413
9.4 循环神经网络在信息安全中的应用 414
9.4.1 原始RNN(Vanilla RNN) 414
9.4.2 LSTM算法及其变种 415
9.4.3 应用案例 419
9.5 本章小结 429
参考资料 430
第10章 信贷业务安全 432
10.1 背景介绍 432
10.2 信贷业务安全简介 434
10.3 分类算法在信贷业务安全中的应用 438
10.3.1 典型分类算法的介绍 438
10.3.2 应用案例:逻辑回归模型在信贷中风控阶段的应用 463
10.4 本章小结 468
参考资料 469
第11章 业务安全系统技术架构 470
11.1 整体介绍 470
11.2 平台层 471
11.3 数据层 473
11.4 策略层 474
11.5 服务层 480
11.6 业务层 481
11.7 本章小结 484
参考资料 484
第12章 总结与展望 486
12.1 总结 486
12.2 展望 487
参考资料 489
后记一 490
后记二 491
本书常见数学符号定义 492
^ 收 起
王帅,花名“莲华”,美丽联合集团(蘑菇街)安全部风控算法技术负责人。2015年初加入蘑菇街,主要负责风控相关的反作弊算法,从无到有搭建了电商平台的风控策略架构体系,主要研究方向是基于机器学习的风控算法策略。吴哲夫,本科就读于山东大学,研究生就读于北京大学,曾在微软亚洲研究院实习,毕业后就职于阿里巴巴(北京),现供职于美丽联合集团。
互联网产业正在从IT时代迈入DT时代(数据时代),同时互联网产业的繁荣也催生了黑灰产这样的群体。那么,在数据时代应该如何应对互联网业务安全威胁?机器学习技术在互联网业务安全领域的应用正是答案。本书首先从机器学习技术的原理入手,自成体系地介绍了机器学习的基础知识,从数学的角度揭示了算法模型背后的基本原理;然后介绍了互联网业务安全所涉及的重要业务场景,以及机器学习技术在这些场景中的应用实践;*后介绍了如何应用互联网技术栈来建设业务安全技术架构。作者根据多年的一线互联网公司从业经验给出了很多独到的见解,供读者参考。本书既适合机器学习从业者作为入门参考书,也适合互联网业务安全从业者学习黑灰产对抗手段,帮助他们做到知己知彼,了解如何应用机器学习技术来提高与黑灰产对抗的能力。
比价列表
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠