《数据挖掘:概念与技术(原书第3版)》《大数据:互联网大规模数据挖掘与分布式处理》(套装共2册)
作者:[美] Anand Rajaraman,等 著
出版:机械工业出版社,人民邮电出版社
定价:138.00 元
ISBN-10:7111391403
ISBN-13:9787111391401 去豆瓣看看
出版:机械工业出版社,人民邮电出版社
定价:138.00 元
ISBN-10:7111391403
ISBN-13:9787111391401 去豆瓣看看
Anand Rajaraman,数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。
《数据挖掘:概念与技术(原书第3版)》
《数据挖掘:概念与技术(原书第3版)》完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。
《数据挖掘:概念与技术(原书第3版)》是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
《大数据:互联网大规模数据挖掘与分布式处理》
《大数据:互联网大规模数据挖掘与分布式处理》源自作者在斯坦福…
查看完整
《数据挖掘:概念与技术(原书第3版)》完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。
《数据挖掘:概念与技术(原书第3版)》是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
《大数据:互联网大规模数据挖掘与分布式处理》
《大数据:互联网大规模数据挖掘与分布式处理》源自作者在斯坦福…
查看完整
《数据挖掘:概念与技术(原书第3版)》
出版者的话
中文版序
译者序
译者简介
第3版序
第2版序
前言
致谢
作者简介
第1章 引论
1.1 为什么进行数据挖掘
1.1.1 迈向信息时代
1.1.2 数据挖掘是信息技术的进化
1.2 什么是数据挖掘
1.3 可以挖掘什么类型的数据
1.3.1 数据库数据
1.3.2 数据仓库
1.3.3 事务数据
1.3.4 其他类型的数据
1.4 可以挖掘什么类型的模式
1.4.1 类/概念描述:特征化与区分
1.4.2 挖掘频繁模式、关联和相关性
1.4.3 用于预测分析的分类与回归
1.4.4 聚类分析
1.4.5 离群点分析
1.4.6 所有模式都是有趣的吗
1.5 使用什么技术
1.5.1 统计学
1.5.2 机器学习
1.5.3 数据库系统与数据仓库
1.5.4 信息检索
1.6 面向什么类型的应用
1.6.1 商务智能
1.6.2 Web搜索引擎
1.7 数据挖掘的主要问题
1.7.1 挖掘方法
1.7.2 用户界面
1.7.3 有效性和可伸缩性
1.7.4 数据库类型的多样性
1.7.5 数据挖掘与社会
1.8 小结
1.9 习题
1.10 文献注释
第2章 认识数据
2.1 数据对象与属性类型
2.1.1 什么是属性
2.1.2 标称属性
2.1.3 二元属性
2.1.4 序数属性
2.1.5 数值属性
2.1.6 离散属性与连续属性
2.2 数据的基本统计描述
2.2.1 中心趋势度量:均值、中位数和众数
2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
2.2.3 数据的基本统计描述的图形显示
2.3 数据可视化
2.3.1 基于像素的可视化技术
2.3.2 几何投影可视化技术
2.3.3 基于图符的可视化技术
2.3.4 层次可视化技术
2.3.5 可视化复杂对象和关系
2.4 度量数据的相似性和相异性
2.4.1 数据矩阵与相异性矩阵
2.4.2 标称属性的邻近性度量
2.4.3 二元属性的邻近性度量
2.4.4 数值属性的相异性:闵可夫斯基距离
2.4.5 序数属性的邻近性度量
2.4.6 混合类型属性的相异性
2.4.7 余弦相似性
2.5 小结
2.6 习题
2.7 文献注释
第3章 数据预处理
3.1 数据预处理:概述
3.1.1 数据质量:为什么要对数据预处理
3.1.2 数据预处理的主要任务
3.2 数据清理
3.2.1 缺失值
3.2.2 噪声数据
3.2.3 数据清理作为一个过程
3.3 数据集成
3.3.1 实体识别问题
3.3.2 冗余和相关分析
3.3.3 元组重复
3.3.4 数据值冲突的检测与处理
3.4 数据归约
3.4.1 数据归约策略概述
3.4.2 小波变换
3.4.3 主成分分析
3.4.4 属性子集选择
3.4.5 回归和对数线性模型:参数化数据归约
3.4.6 直方图
3.4.7 聚类
3.4.8 抽样
3.4.9 数据立方体聚集
3.5 数据变换与数据离散化
3.5.1 数据变换策略概述
3.5.2 通过规范化变换数据
3.5.3 通过分箱离散化
3.5.4 通过直方图分析离散化
3.5.5 通过聚类、决策树和相关分析离散化
3.5.6 标称数据的概念分层产生
3.6 小结
3.7 习题
3.8 文献注释
第4章 数据仓库与联机分析处理
4.1 数据仓库:基本概念
4.1.1 什么是数据仓库
4.1.2 操作数据库系统与数据仓库的区别
4.1.3 为什么需要分离的数据仓库
4.1.4 数据仓库:一种多层体系结构
4.1.5 数据仓库模型:企业仓库、数据集市和虚拟仓库
4.1.6 数据提取、变换和装入
4.1.7 元数据库
4.2 数据仓库建模:数据立方体与OLAP
4.2.1 数据立方体:一种多维数据模型
4.2.2 星形、雪花形和事实星座:多维数据模型的模式
4.2.3 维:概念分层的作用
4.2.4 度量的分类和计算
4.2.5 典型的OLAP操作
4.2.6 查询多维数据库的星网查询模型
4.3 数据仓库的设计与使用
4.3.1 数据仓库的设计的商务分析框架
4.3.2 数据仓库的设计过程
4.3.3 数据仓库用于信息处理
4.3.4 从联机分析处理到多维数据挖掘
4.4 数据仓库的实现
4.4.1 数据立方体的有效计算:概述
4.4.2 索引OLAP数据:位图索引和连接索引
4.4.3 OLAP查询的有效处理
4.4.4 OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较
4.5 数据泛化:面向属性的归纳
4.5.1 数据特征的面向属性的归纳
4.5.2 面向属性归纳的有效实现
4.5.3 类比较的面向属性归纳
4.6 小结
4.7 习题
4.8 文献注释
第5章 数据立方体技术
5.1 数据立方体计算:基本概念
5.1.1 立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳
5.1.2 数据立方体计算的一般策略
5.2 数据立方体计算方法
5.2.1 完全立方体计算的多路数组聚集
5.2.2 BUC:从顶点方体向下计算冰山立方体
5.2.3 Star-Cubing:使用动态星树结构计算冰山立方体
5.2.4 为快速高维OLAP预计算壳片段
5.3 使用探索立方体技术处理高级查询
5.3.1 抽样立方体:样本数据上基于OLAP的挖掘
5.3.2 排序立方体:top-k查询的有效计算
5.4 数据立方体空间的多维数据分析
5.4.1 预测立方体:立方体空间的预测挖掘
5.4.2 多特征立方体:多粒度上的复杂聚集
5.4.3 基于异常的、发现驱动的立方体空间探查
5.5 小结
5.6 习题
5.7 文献注释
第6章 挖掘频繁模式、关联和相关性:基本概念和方法
6.1 基本概念
6.1.1 购物篮分析:一个诱发例子
6.1.2 频繁项集、闭项集和关联规则
6.2 频繁项集挖掘方法
6.2.1 Apriori算法:通过限制候选产生发现频繁项集
6.2.2 由频繁项集产生关联规则
6.2.3 提高Apriori算法的效率
6.2.4 挖掘频繁项集的模式增长方法
6.2.5 使用垂直数据格式挖掘频繁项集
6.2.6 挖掘闭模式和极大模式
6.3 哪些模式是有趣的:模式评估方法
6.3.1 强规则不一定是有趣的
6.3.2 从关联分析到相关分析
6.3.3 模式评估度量比较
6.4 小结
6.5 习题
6.6 文献注释
第7章 高级模式挖掘
7.1 模式挖掘:一个路线图
7.2 多层、多维空间中的模式挖掘
7.2.1 挖掘多层关联规则
7.2.2 挖掘多维关联规则
7.2.3 挖掘量化关联规则
7.2.4 挖掘稀有模式和负模式
7.3 基于约束的频繁模式挖掘
7.3.1 关联规则的元规则制导挖掘
7.3.2 基于约束的模式产生:模式空间剪枝和数据空间剪枝
7.4 挖掘高维数据和巨型模式
7.5 挖掘压缩或近似模式
7.5.1 通过模式聚类挖掘压缩模式
7.5.2 提取感知冗余的top-k模式
7.6 模式探索与应用
7.6.1 频繁模式的语义注解
7.6.2 模式挖掘的应用
7.7 小结
7.8 习题
7.9 文献注释
第8章 分类:基本概念
8.1 基本概念
8.1.1 什么是分类
8.1.2 分类的一般方法
8.2 决策树归纳
8.2.1 决策树归纳
8.2.2 属性选择度量
8.2.3 树剪枝
8.2.4 可伸缩性与决策树归纳
8.2.5 决策树归纳的可视化挖掘
8.3 贝叶斯分类方法
8.3.1 贝叶斯定理
8.3.2 朴素贝叶斯分类
8.4 基于规则的分类
8.4.1 使用IF-THEN规则分类
8.4.2 由决策树提取规则
8.4.3 使用顺序覆盖算法的规则归纳
8.5 模型评估与选择
8.5.1 评估分类器性能的度量
8.5.2 保持方法和随机二次抽样
8.5.3 交叉验证
8.5.4 自助法
8.5.5 使用统计显著性检验选择模型
8.5.6 基于成本效益和ROC曲线比较分类器
8.6 提高分类准确率的技术
8.6.1 组合分类方法简介
8.6.2 装袋
8.6.3 提升和AdaBoost
8.6.4 随机森林
8.6.5 提高类不平衡数据的分类准确率
8.7 小结
8.8 习题
8.9 文献注释
第9章 分类:高级方法
9.1 贝叶斯信念网络
9.1.1 概念和机制
9.1.2 训练贝叶斯信念网络
9.2 用后向传播分类
9.2.1 多层前馈神经网络
9.2.2 定义网络拓扑
9.2.3 后向传播
9.2.4 黑盒内部:后向传播和可解释性
9.3 支持向量机
9.3.1 数据线性可分的情况
9.3.2 数据非线性可分的情况
9.4 使用频繁模式分类
9.4.1 关联分类
9.4.2 基于有区别力的频繁模式分类
9.5 惰性学习法(或从近邻学习)
9.5.1 k-最近邻分类
9.5.2 基于案例的推理
9.6 其他分类方法
9.6.1 遗传算法
9.6.2 粗糙集方法
9.6.3 模糊集方法
9.7 关于分类的其他问题
9.7.1 多类分类
9.7.2 半监督分类
9.7.3 主动学习
9.7.4 迁移学习
9.8 小结
9.9 习题
9.10 文献注释
第10章 聚类分析:基本概念和方法
10.1 聚类分析
10.1.1 什么是聚类分析
10.1.2 对聚类分析的要求
10.1.3 基本聚类方法概述
10.2 划分方法
10.2.1 k-均值:一种基于形心的技术
10.2.2 k-中心点:一种基于代表对象的技术
10.3 层次方法
10.3.1 凝聚的与分裂的层次聚类
10.3.2 算法方法的距离度量
10.3.3 BIRCH:使用聚类特征树的多阶段聚类
10.3.4 Chameleon:使用动态建模的多阶段层次聚类
10.3.5 概率层次聚类
10.4 基于密度的方法
10.4.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类
10.4.2 OPTICS:通过点排序识别聚类结构
10.4.3 DENCLUE:基于密度分布函数的聚类
10.5 基于网格的方法
10.5.1 STING:统计信息网格
10.5.2 CLIQUE:一种类似于Apriori的子空间聚类方法
10.6 聚类评估
10.6.1 估计聚类趋势
10.6.2 确定簇数
10.6.3 测定聚类质量
10.7 小结
10.8 习题
10.9 文献注释
第11章 高级聚类分析
11.1 基于概率模型的聚类
11.1.1 模糊簇
11.1.2 基于概率模型的聚类
11.1.3 期望最大化算法
11.2 聚类高维数据
11.2.1 聚类高维数据:问题、挑战和主要方法
11.2.2 子空间聚类方法
11.2.3 双聚类
11.2.4 维归约方法和谱聚类
11.3 聚类图和网络数据
11.3.1 应用与挑战
11.3.2 相似性度量
11.3.3 图聚类方法
11.4 具有约束的聚类
11.4.1 约束的分类
11.4.2 具有约束的聚类方法
11.5 小结
11.6 习题
11.7 文献注释
第12章 离群点检测
12.1 离群点和离群点分析
12.1.1 什么是离群点
12.1.2 离群点的类型
12.1.3 离群点检测的挑战
12.2 离群点检测方法
12.2.1 监督、半监督和无监督方法
12.2.2 统计方法、基于邻近性的方法和基于聚类的方法
12.3 统计学方法
12.3.1 参数方法
12.3.2 非参数方法
12.4 基于邻近性的方法
12.4.1 基于距离的离群点检测和嵌套循环方法
12.4.2 基于网格的方法
12.4.3 基于密度的离群点检测
12.5 基于聚类的方法
12.6 基于分类的方法
12.7 挖掘情境离群点和集体离群点
12.7.1 把情境离群点检测转换成传统的离群点检测
12.7.2 关于情境对正常行为建模
12.7.3 挖掘集体离群点
12.8 高维数据中的离群点检测
12.8.1 扩充的传统离群点检测
12.8.2 发现子空间中的离群点
12.8.3 高维离群点建模
12.9 小结
12.10 习题
12.11 文献注释
第13章 数据挖掘的发展趋势和研究前沿
13.1 挖掘复杂的数据类型
13.1.1 挖掘序列数据:时间序列、符号序列和生物学序列
13.1.2 挖掘图和网络
13.1.3 挖掘其他类型的数据
13.2 数据挖掘的其他方法
13.2.1 统计学数据挖掘
13.2.2 关于数据挖掘基础的观点
13.2.3 可视和听觉数据挖掘
13.3 数据挖掘应用
13.3.1 金融数据分析的数据挖掘
13.3.2 零售和电信业的数据挖掘
13.3.3 科学与工程数据挖掘
13.3.4 入侵检测和预防数据挖掘
13.3.5 数据挖掘与推荐系统
13.4 数据挖掘与社会
13.4.1 普适的和无形的数据挖掘
13.4.2 数据挖掘的隐私、安全和社会影响
13.5 数据挖掘的发展趋势
13.6 小结
13.7 习题
13.8 文献注释
参考文献
索引
《大数据:互联网大规模数据挖掘与分布式处理》
第1章 数据挖掘基本概念
1.1 数据挖掘的定义
1.1.1 统计建模
1.1.2 机器学习
1.1.3 建模的计算方法
1.1.4 数据汇总
1.1.5 特征抽取
1.2 数据挖掘的统计限制
1.2.1 整体情报预警
1.2.2 邦弗朗尼原理
1.2.3 邦弗朗尼原理的一个例子
1.2.4 习题
1.3 相关知识
1.3.1 词语在文档中的重要性
1.3.2 哈希函数
1.3.3 索引
1.3.4 二级存储器
1.3.5 自然对数的底e
1.3.6 幂定律
1.3.7 习题
1.4 本书概要
1.5 小结
1.6 参考文献
第2章 大规模文件系统及Map-Reduce
2.1 分布式文件系统
2.1.1 计算节点的物理结构
2.1.2 大规模文件系统的结构
2.2 Map-Reduce
2.2.1 Map任务
2.2.2 分组和聚合
2.2.3 Reduce任务
2.2.4 组合器
2.2.5 Map-Reduce的执行细节
2.2.6 节点失效的处理
2.3 使用Map-Reduce的算法
2.3.1 基于Map-Reduce的矩阵-向量乘法实现
2.3.2 向量v无法放入内存时的处理
2.3.3 关系代数运算
2.3.4 基于Map-Reduce的选择运算
2.3.5 基于Map-Reduce的投影运算
2.3.6 基于Map-Reduce的并、交和差运算
2.3.7 基于Map-Reduce的自然连接运算
2.3.8 一般性的连接算法
2.3.9 基于Map-Reduce的分组和聚合运算
2.3.10 矩阵乘法
2.3.11 基于单步Map-Reduce的矩阵乘法
2.3.12 习题
2.4 Map-Reduce的扩展
2.4.1 工作流系统
2.4.2 Map-Reduce的递归扩展版本
2.4.3 Pregel系统
2.4.4 习题
2.5 集群计算算法的效率问题
2.5.1 集群计算的通信开销模型
2.5.2 实耗通信开销
2.5.3 多路连接
2.5.4 习题
2.6 小结
2.7 参考文献
第3章 相似项发现
3.1 近邻搜索的应用
3.1.1 集合的Jaccard相似度
3.1.2 文档的相似度
3.1.3 协同过滤--一个集合相似问题
3.1.4 习题
3.2 文档的Shingling
3.2.1 k-Shingle
3.2.2 shingle大小的选择
3.2.3 对shingle进行哈希
3.2.4 基于词的shingle
3.2.5 习题
3.3 保持相似度的集合摘要表示
3.3.1 集合的矩阵表示
3.3.2 最小哈希
3.3.3 最小哈希及Jaccard相似度
3.3.4 最小哈希签名
3.3.5 最小哈希签名的计算
3.3.6 习题
3.4 文档的局部敏感哈希算法
3.4.1 面向最小哈希签名的LSH
3.4.2 行条化策略的分析
3.4.3 上述技术的综合
3.4.4 习题
3.5 距离测度
3.5.1 距离测度的定义
3.5.2 欧氏距离
3.5.3 Jaccard距离
3.5.4 余弦距离
3.5.5 编辑距离
3.5.6 海明距离
3.5.7 习题
3.6 局部敏感函数理论
3.6.1 局部敏感函数
3.6.2 面向Jaccard距离的局部敏感函数族
3.6.3 局部敏感函数族的放大处理
3.6.4 习题
3.7 面向其他距离测度的LSH函数族
3.7.1 面向海明距离的LSH函数族
3.7.2 随机超平面和余弦距离
3.7.3 梗概
3.7.4 面向欧氏距离的LSH函数族
3.7.5 面向欧氏空间的更多LSH函数族
3.7.6 习题
3.8 LSH函数的应用
3.8.1 实体关联
3.8.2 一个实体关联的例子
3.8.3 记录匹配的验证
3.8.4 指纹匹配
3.8.5 适用于指纹匹配的LSH函数族
3.8.6 相似新闻报道检测
3.8.7 习题
3.9 面向高相似度的方法
3.9.1 相等项发现
3.9.2 集合的字符串表示方法
3.9.3 基于长度的过滤
3.9.4 前缀索引
3.9.5 位置信息的使用
3.9.6 使用位置和长度信息的索引
3.9.7 习题
3.10 小结
3.11 参考文献
第4章 数据流挖掘
4.1 流数据模型
4.1.1 一个数据流管理系统
4.1.2 流数据源的例子
4.1.3 流查询
4.1.4 流处理中的若干问题
4.2 流当中的数据抽样
4.2.1 一个富于启发性的例子
4.2.2 代表性样本的获取
4.2.3 一般的抽样问题
4.2.4 样本规模的变化
4.2.5 习题
4.3 流过滤
4.3.1 一个例子
4.3.2 布隆过滤器
4.3.3 布隆过滤方法的分析
4.3.4 习题
4.4 流中独立元素的数目统计
4.4.1 独立元素计数问题
4.4.2 FM算法
4.4.3 组合估计
4.4.4 空间需求
4.4.5 习题
4.5 矩估计
4.5.1 矩定义
4.5.2 二阶矩估计的AMS算法
4.5.3 AMS算法有效的原因
4.5.4 更高阶矩的估计
4.5.5 无限流的处理
4.5.6 习题
4.6 窗口内的计数问题
4.6.1 精确计数的开销
4.6.2 DGIM算法
4.6.3 DGIM算法的存储需求
4.6.4 DGIM算法中的查询应答
4.6.5 DGIM条件的保持
4.6.6 降低错误率
4.6.7 窗口内计数问题的扩展
4.6.8 习题
4.7 衰减窗口
4.7.1 最常见元素问题
4.7.2 衰减窗口的定义
4.7.3 最流行元素的发现
4.8 小结
4.9 参考文献
第5章 链接分析
5.1 PageRank
5.1.1 早期的搜索引擎及词项作弊
5.1.2 PageRank的定义
5.1.3 Web结构
5.1.4 避免终止点
5.1.5 采集器陷阱及“抽税”法
5.1.6 PageRank在搜索引擎中的使用
5.1.7 习题
5.2 PageRank的快速计算
5.2.1 转移矩阵的表示
5.2.2 基于Map-Reduce的PageRank迭代计算
5.2.3 结果向量合并时的组合器使用
5.2.4 转移矩阵中块的表示
5.2.5 其他高效的PageRank迭代方法
5.2.6 习题
5.3 面向主题的PageRank
5.3.1 动机
5.3.2 有偏的随机游走模型
5.3.3 面向主题的PageRank的使用
5.3.4 基于词汇的主题推断
5.3.5 习题
5.4 链接作弊
5.4.1 垃圾农场的架构
5.4.2 垃圾农场的分析
5.4.3 与链接作弊的斗争
5.4.4 TrustRank
5.4.5 垃圾质量
5.4.6 习题
5.5 导航页和权威页
5.5.1 HITS的直观意义
5.5.2 导航度和权威度的形式化
5.5.3 习题
5.6 小结
5.7 参考文献
第6章 频繁项集
6.1 购物篮模型
6.1.1 频繁项集的定义
6.1.2 频繁项集的应用
6.1.3 关联规则
6.1.4 高可信度关联规则的发现
6.1.5 习题
6.2 购物篮及A-Priori算法
6.2.1 购物篮数据的表示
6.2.2 项集计数中的内存使用
6.2.3 项集的单调性
6.2.4 二元组计数
6.2.5 A-Priori算法
6.2.6 所有频繁项集上的A-Priori算法
6.2.7 习题
6.3 更大数据集在内存中的处理
6.3.1 PCY算法
6.3.2 多阶段算法
6.3.3 多哈希算法
6.3.4 习题
6.4 有限扫描算法
6.4.1 简单的随机化算法
6.4.2 抽样算法中的错误规避
6.4.3 SON算法
6.4.4 SON算法和Map-Reduce
6.4.5 Toivonen算法
6.4.6 Toivonen算法的有效性分析
6.4.7 习题
6.5 流中的频繁项计数
6.5.1 流的抽样方法
6.5.2 衰减窗口中的频繁项集
6.5.3 混合方法
6.5.4 习题
6.6 小结
6.7 参考文献
第7章 聚类
7.1 聚类技术介绍
7.1.1 点、空间和距离
7.1.2 聚类策略
7.1.3 维数灾难
7.1.4 习题
7.2 层次聚类
7.2.1 欧氏空间下的层次聚类
7.2.2 层次聚类算法的效率
7.2.3 控制层次聚类的其他规则
7.2.4 非欧空间下的层次聚类
7.2.5 习题
7.3 k-均值算法
7.3.1 k-均值算法基本知识
7.3.2 k-均值算法的簇初始化
7.3.3 选择k的正确值
7.3.4 BFR算法
7.3.5 BFR算法中的数据处理
7.3.6 习题
7.4 CURE算法
7.4.1 CURE算法的初始化
7.4.2 CURE算法的完成
7.4.3 习题
7.5 非欧空间下的聚类
7.5.1 GRGPF算法中的簇表示
7.5.2 簇表示树的初始化
7.5.3 GRGPF算法中的点加入
7.5.4 簇的分裂及合并
7.5.5 习题
7.6 流聚类及并行化
7.6.1 流计算模型
7.6.2 一个流聚类算法
7.6.3 桶的初始化
7.6.4 桶合并
7.6.5 查询应答
7.6.6 并行环境下的聚类
7.6.7 习题
7.7 小结
7.8 参考文献
第8章 Web广告
8.1 在线广告相关问题
8.1.1 广告机会
8.1.2 直投广告
8.1.3 展示广告的相关问题
8.2 在线算法
8.2.1 在线和离线算法
8.2.2 贪心算法
8.2.3 竞争率
8.2.4 习题
8.3 广告匹配问题
8.3.1 匹配及完美匹配
8.3.2 最大匹配贪心算法
8.3.3 贪心匹配算法的竞争率
8.3.4 习题
8.4 Adwords问题
8.4.1 搜索广告的历史
8.4.2 Adwords问题的定义
8.4.3 Adwords问题的贪心方法
8.4.4 Balance算法
8.4.5 Balance算法竞争率的一个下界
8.4.6 多投标者的Balance算法
8.4.7 一般性的Balance算法
8.4.8 Adwords问题的最后论述
8.4.9 习题
8.5 Adwords的实现
8.5.1 投标和搜索查询的匹配
8.5.2 更复杂的匹配问题
8.5.3 文档和投标之间的匹配算法
8.6 小结
8.7 参考文献
第9章 推荐系统
9.1 一个推荐系统的模型
9.1.1 效用矩阵
9.1.2 长尾现象
9.1.3 推荐系统的应用
9.1.4 效用矩阵的填充
9.2 基于内容的推荐
9.2.1 项模型
9.2.2 文档的特征发现
9.2.3 基于Tag的项特征获取
9.2.4 项模型的表示
9.2.5 用户模型
9.2.6 基于内容的项推荐
9.2.7 分类算法
9.2.8 习题
9.3 协同过滤
9.3.1 相似度计算
9.3.2 相似度对偶性
9.3.3 用户聚类和项聚类
9.3.4 习题
9.4 降维处理
9.4.1 UV分解
9.4.2 RMSE
9.4.3 UV分解的增量式计算
9.4.4 对任一元素的优化
9.4.5 一个完整UV分解算法的构建
9.4.6 习题
9.5 NetFlix竞赛
9.6 小结
9.7 参考文献
索引
^ 收 起
出版者的话
中文版序
译者序
译者简介
第3版序
第2版序
前言
致谢
作者简介
第1章 引论
1.1 为什么进行数据挖掘
1.1.1 迈向信息时代
1.1.2 数据挖掘是信息技术的进化
1.2 什么是数据挖掘
1.3 可以挖掘什么类型的数据
1.3.1 数据库数据
1.3.2 数据仓库
1.3.3 事务数据
1.3.4 其他类型的数据
1.4 可以挖掘什么类型的模式
1.4.1 类/概念描述:特征化与区分
1.4.2 挖掘频繁模式、关联和相关性
1.4.3 用于预测分析的分类与回归
1.4.4 聚类分析
1.4.5 离群点分析
1.4.6 所有模式都是有趣的吗
1.5 使用什么技术
1.5.1 统计学
1.5.2 机器学习
1.5.3 数据库系统与数据仓库
1.5.4 信息检索
1.6 面向什么类型的应用
1.6.1 商务智能
1.6.2 Web搜索引擎
1.7 数据挖掘的主要问题
1.7.1 挖掘方法
1.7.2 用户界面
1.7.3 有效性和可伸缩性
1.7.4 数据库类型的多样性
1.7.5 数据挖掘与社会
1.8 小结
1.9 习题
1.10 文献注释
第2章 认识数据
2.1 数据对象与属性类型
2.1.1 什么是属性
2.1.2 标称属性
2.1.3 二元属性
2.1.4 序数属性
2.1.5 数值属性
2.1.6 离散属性与连续属性
2.2 数据的基本统计描述
2.2.1 中心趋势度量:均值、中位数和众数
2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
2.2.3 数据的基本统计描述的图形显示
2.3 数据可视化
2.3.1 基于像素的可视化技术
2.3.2 几何投影可视化技术
2.3.3 基于图符的可视化技术
2.3.4 层次可视化技术
2.3.5 可视化复杂对象和关系
2.4 度量数据的相似性和相异性
2.4.1 数据矩阵与相异性矩阵
2.4.2 标称属性的邻近性度量
2.4.3 二元属性的邻近性度量
2.4.4 数值属性的相异性:闵可夫斯基距离
2.4.5 序数属性的邻近性度量
2.4.6 混合类型属性的相异性
2.4.7 余弦相似性
2.5 小结
2.6 习题
2.7 文献注释
第3章 数据预处理
3.1 数据预处理:概述
3.1.1 数据质量:为什么要对数据预处理
3.1.2 数据预处理的主要任务
3.2 数据清理
3.2.1 缺失值
3.2.2 噪声数据
3.2.3 数据清理作为一个过程
3.3 数据集成
3.3.1 实体识别问题
3.3.2 冗余和相关分析
3.3.3 元组重复
3.3.4 数据值冲突的检测与处理
3.4 数据归约
3.4.1 数据归约策略概述
3.4.2 小波变换
3.4.3 主成分分析
3.4.4 属性子集选择
3.4.5 回归和对数线性模型:参数化数据归约
3.4.6 直方图
3.4.7 聚类
3.4.8 抽样
3.4.9 数据立方体聚集
3.5 数据变换与数据离散化
3.5.1 数据变换策略概述
3.5.2 通过规范化变换数据
3.5.3 通过分箱离散化
3.5.4 通过直方图分析离散化
3.5.5 通过聚类、决策树和相关分析离散化
3.5.6 标称数据的概念分层产生
3.6 小结
3.7 习题
3.8 文献注释
第4章 数据仓库与联机分析处理
4.1 数据仓库:基本概念
4.1.1 什么是数据仓库
4.1.2 操作数据库系统与数据仓库的区别
4.1.3 为什么需要分离的数据仓库
4.1.4 数据仓库:一种多层体系结构
4.1.5 数据仓库模型:企业仓库、数据集市和虚拟仓库
4.1.6 数据提取、变换和装入
4.1.7 元数据库
4.2 数据仓库建模:数据立方体与OLAP
4.2.1 数据立方体:一种多维数据模型
4.2.2 星形、雪花形和事实星座:多维数据模型的模式
4.2.3 维:概念分层的作用
4.2.4 度量的分类和计算
4.2.5 典型的OLAP操作
4.2.6 查询多维数据库的星网查询模型
4.3 数据仓库的设计与使用
4.3.1 数据仓库的设计的商务分析框架
4.3.2 数据仓库的设计过程
4.3.3 数据仓库用于信息处理
4.3.4 从联机分析处理到多维数据挖掘
4.4 数据仓库的实现
4.4.1 数据立方体的有效计算:概述
4.4.2 索引OLAP数据:位图索引和连接索引
4.4.3 OLAP查询的有效处理
4.4.4 OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较
4.5 数据泛化:面向属性的归纳
4.5.1 数据特征的面向属性的归纳
4.5.2 面向属性归纳的有效实现
4.5.3 类比较的面向属性归纳
4.6 小结
4.7 习题
4.8 文献注释
第5章 数据立方体技术
5.1 数据立方体计算:基本概念
5.1.1 立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳
5.1.2 数据立方体计算的一般策略
5.2 数据立方体计算方法
5.2.1 完全立方体计算的多路数组聚集
5.2.2 BUC:从顶点方体向下计算冰山立方体
5.2.3 Star-Cubing:使用动态星树结构计算冰山立方体
5.2.4 为快速高维OLAP预计算壳片段
5.3 使用探索立方体技术处理高级查询
5.3.1 抽样立方体:样本数据上基于OLAP的挖掘
5.3.2 排序立方体:top-k查询的有效计算
5.4 数据立方体空间的多维数据分析
5.4.1 预测立方体:立方体空间的预测挖掘
5.4.2 多特征立方体:多粒度上的复杂聚集
5.4.3 基于异常的、发现驱动的立方体空间探查
5.5 小结
5.6 习题
5.7 文献注释
第6章 挖掘频繁模式、关联和相关性:基本概念和方法
6.1 基本概念
6.1.1 购物篮分析:一个诱发例子
6.1.2 频繁项集、闭项集和关联规则
6.2 频繁项集挖掘方法
6.2.1 Apriori算法:通过限制候选产生发现频繁项集
6.2.2 由频繁项集产生关联规则
6.2.3 提高Apriori算法的效率
6.2.4 挖掘频繁项集的模式增长方法
6.2.5 使用垂直数据格式挖掘频繁项集
6.2.6 挖掘闭模式和极大模式
6.3 哪些模式是有趣的:模式评估方法
6.3.1 强规则不一定是有趣的
6.3.2 从关联分析到相关分析
6.3.3 模式评估度量比较
6.4 小结
6.5 习题
6.6 文献注释
第7章 高级模式挖掘
7.1 模式挖掘:一个路线图
7.2 多层、多维空间中的模式挖掘
7.2.1 挖掘多层关联规则
7.2.2 挖掘多维关联规则
7.2.3 挖掘量化关联规则
7.2.4 挖掘稀有模式和负模式
7.3 基于约束的频繁模式挖掘
7.3.1 关联规则的元规则制导挖掘
7.3.2 基于约束的模式产生:模式空间剪枝和数据空间剪枝
7.4 挖掘高维数据和巨型模式
7.5 挖掘压缩或近似模式
7.5.1 通过模式聚类挖掘压缩模式
7.5.2 提取感知冗余的top-k模式
7.6 模式探索与应用
7.6.1 频繁模式的语义注解
7.6.2 模式挖掘的应用
7.7 小结
7.8 习题
7.9 文献注释
第8章 分类:基本概念
8.1 基本概念
8.1.1 什么是分类
8.1.2 分类的一般方法
8.2 决策树归纳
8.2.1 决策树归纳
8.2.2 属性选择度量
8.2.3 树剪枝
8.2.4 可伸缩性与决策树归纳
8.2.5 决策树归纳的可视化挖掘
8.3 贝叶斯分类方法
8.3.1 贝叶斯定理
8.3.2 朴素贝叶斯分类
8.4 基于规则的分类
8.4.1 使用IF-THEN规则分类
8.4.2 由决策树提取规则
8.4.3 使用顺序覆盖算法的规则归纳
8.5 模型评估与选择
8.5.1 评估分类器性能的度量
8.5.2 保持方法和随机二次抽样
8.5.3 交叉验证
8.5.4 自助法
8.5.5 使用统计显著性检验选择模型
8.5.6 基于成本效益和ROC曲线比较分类器
8.6 提高分类准确率的技术
8.6.1 组合分类方法简介
8.6.2 装袋
8.6.3 提升和AdaBoost
8.6.4 随机森林
8.6.5 提高类不平衡数据的分类准确率
8.7 小结
8.8 习题
8.9 文献注释
第9章 分类:高级方法
9.1 贝叶斯信念网络
9.1.1 概念和机制
9.1.2 训练贝叶斯信念网络
9.2 用后向传播分类
9.2.1 多层前馈神经网络
9.2.2 定义网络拓扑
9.2.3 后向传播
9.2.4 黑盒内部:后向传播和可解释性
9.3 支持向量机
9.3.1 数据线性可分的情况
9.3.2 数据非线性可分的情况
9.4 使用频繁模式分类
9.4.1 关联分类
9.4.2 基于有区别力的频繁模式分类
9.5 惰性学习法(或从近邻学习)
9.5.1 k-最近邻分类
9.5.2 基于案例的推理
9.6 其他分类方法
9.6.1 遗传算法
9.6.2 粗糙集方法
9.6.3 模糊集方法
9.7 关于分类的其他问题
9.7.1 多类分类
9.7.2 半监督分类
9.7.3 主动学习
9.7.4 迁移学习
9.8 小结
9.9 习题
9.10 文献注释
第10章 聚类分析:基本概念和方法
10.1 聚类分析
10.1.1 什么是聚类分析
10.1.2 对聚类分析的要求
10.1.3 基本聚类方法概述
10.2 划分方法
10.2.1 k-均值:一种基于形心的技术
10.2.2 k-中心点:一种基于代表对象的技术
10.3 层次方法
10.3.1 凝聚的与分裂的层次聚类
10.3.2 算法方法的距离度量
10.3.3 BIRCH:使用聚类特征树的多阶段聚类
10.3.4 Chameleon:使用动态建模的多阶段层次聚类
10.3.5 概率层次聚类
10.4 基于密度的方法
10.4.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类
10.4.2 OPTICS:通过点排序识别聚类结构
10.4.3 DENCLUE:基于密度分布函数的聚类
10.5 基于网格的方法
10.5.1 STING:统计信息网格
10.5.2 CLIQUE:一种类似于Apriori的子空间聚类方法
10.6 聚类评估
10.6.1 估计聚类趋势
10.6.2 确定簇数
10.6.3 测定聚类质量
10.7 小结
10.8 习题
10.9 文献注释
第11章 高级聚类分析
11.1 基于概率模型的聚类
11.1.1 模糊簇
11.1.2 基于概率模型的聚类
11.1.3 期望最大化算法
11.2 聚类高维数据
11.2.1 聚类高维数据:问题、挑战和主要方法
11.2.2 子空间聚类方法
11.2.3 双聚类
11.2.4 维归约方法和谱聚类
11.3 聚类图和网络数据
11.3.1 应用与挑战
11.3.2 相似性度量
11.3.3 图聚类方法
11.4 具有约束的聚类
11.4.1 约束的分类
11.4.2 具有约束的聚类方法
11.5 小结
11.6 习题
11.7 文献注释
第12章 离群点检测
12.1 离群点和离群点分析
12.1.1 什么是离群点
12.1.2 离群点的类型
12.1.3 离群点检测的挑战
12.2 离群点检测方法
12.2.1 监督、半监督和无监督方法
12.2.2 统计方法、基于邻近性的方法和基于聚类的方法
12.3 统计学方法
12.3.1 参数方法
12.3.2 非参数方法
12.4 基于邻近性的方法
12.4.1 基于距离的离群点检测和嵌套循环方法
12.4.2 基于网格的方法
12.4.3 基于密度的离群点检测
12.5 基于聚类的方法
12.6 基于分类的方法
12.7 挖掘情境离群点和集体离群点
12.7.1 把情境离群点检测转换成传统的离群点检测
12.7.2 关于情境对正常行为建模
12.7.3 挖掘集体离群点
12.8 高维数据中的离群点检测
12.8.1 扩充的传统离群点检测
12.8.2 发现子空间中的离群点
12.8.3 高维离群点建模
12.9 小结
12.10 习题
12.11 文献注释
第13章 数据挖掘的发展趋势和研究前沿
13.1 挖掘复杂的数据类型
13.1.1 挖掘序列数据:时间序列、符号序列和生物学序列
13.1.2 挖掘图和网络
13.1.3 挖掘其他类型的数据
13.2 数据挖掘的其他方法
13.2.1 统计学数据挖掘
13.2.2 关于数据挖掘基础的观点
13.2.3 可视和听觉数据挖掘
13.3 数据挖掘应用
13.3.1 金融数据分析的数据挖掘
13.3.2 零售和电信业的数据挖掘
13.3.3 科学与工程数据挖掘
13.3.4 入侵检测和预防数据挖掘
13.3.5 数据挖掘与推荐系统
13.4 数据挖掘与社会
13.4.1 普适的和无形的数据挖掘
13.4.2 数据挖掘的隐私、安全和社会影响
13.5 数据挖掘的发展趋势
13.6 小结
13.7 习题
13.8 文献注释
参考文献
索引
《大数据:互联网大规模数据挖掘与分布式处理》
第1章 数据挖掘基本概念
1.1 数据挖掘的定义
1.1.1 统计建模
1.1.2 机器学习
1.1.3 建模的计算方法
1.1.4 数据汇总
1.1.5 特征抽取
1.2 数据挖掘的统计限制
1.2.1 整体情报预警
1.2.2 邦弗朗尼原理
1.2.3 邦弗朗尼原理的一个例子
1.2.4 习题
1.3 相关知识
1.3.1 词语在文档中的重要性
1.3.2 哈希函数
1.3.3 索引
1.3.4 二级存储器
1.3.5 自然对数的底e
1.3.6 幂定律
1.3.7 习题
1.4 本书概要
1.5 小结
1.6 参考文献
第2章 大规模文件系统及Map-Reduce
2.1 分布式文件系统
2.1.1 计算节点的物理结构
2.1.2 大规模文件系统的结构
2.2 Map-Reduce
2.2.1 Map任务
2.2.2 分组和聚合
2.2.3 Reduce任务
2.2.4 组合器
2.2.5 Map-Reduce的执行细节
2.2.6 节点失效的处理
2.3 使用Map-Reduce的算法
2.3.1 基于Map-Reduce的矩阵-向量乘法实现
2.3.2 向量v无法放入内存时的处理
2.3.3 关系代数运算
2.3.4 基于Map-Reduce的选择运算
2.3.5 基于Map-Reduce的投影运算
2.3.6 基于Map-Reduce的并、交和差运算
2.3.7 基于Map-Reduce的自然连接运算
2.3.8 一般性的连接算法
2.3.9 基于Map-Reduce的分组和聚合运算
2.3.10 矩阵乘法
2.3.11 基于单步Map-Reduce的矩阵乘法
2.3.12 习题
2.4 Map-Reduce的扩展
2.4.1 工作流系统
2.4.2 Map-Reduce的递归扩展版本
2.4.3 Pregel系统
2.4.4 习题
2.5 集群计算算法的效率问题
2.5.1 集群计算的通信开销模型
2.5.2 实耗通信开销
2.5.3 多路连接
2.5.4 习题
2.6 小结
2.7 参考文献
第3章 相似项发现
3.1 近邻搜索的应用
3.1.1 集合的Jaccard相似度
3.1.2 文档的相似度
3.1.3 协同过滤--一个集合相似问题
3.1.4 习题
3.2 文档的Shingling
3.2.1 k-Shingle
3.2.2 shingle大小的选择
3.2.3 对shingle进行哈希
3.2.4 基于词的shingle
3.2.5 习题
3.3 保持相似度的集合摘要表示
3.3.1 集合的矩阵表示
3.3.2 最小哈希
3.3.3 最小哈希及Jaccard相似度
3.3.4 最小哈希签名
3.3.5 最小哈希签名的计算
3.3.6 习题
3.4 文档的局部敏感哈希算法
3.4.1 面向最小哈希签名的LSH
3.4.2 行条化策略的分析
3.4.3 上述技术的综合
3.4.4 习题
3.5 距离测度
3.5.1 距离测度的定义
3.5.2 欧氏距离
3.5.3 Jaccard距离
3.5.4 余弦距离
3.5.5 编辑距离
3.5.6 海明距离
3.5.7 习题
3.6 局部敏感函数理论
3.6.1 局部敏感函数
3.6.2 面向Jaccard距离的局部敏感函数族
3.6.3 局部敏感函数族的放大处理
3.6.4 习题
3.7 面向其他距离测度的LSH函数族
3.7.1 面向海明距离的LSH函数族
3.7.2 随机超平面和余弦距离
3.7.3 梗概
3.7.4 面向欧氏距离的LSH函数族
3.7.5 面向欧氏空间的更多LSH函数族
3.7.6 习题
3.8 LSH函数的应用
3.8.1 实体关联
3.8.2 一个实体关联的例子
3.8.3 记录匹配的验证
3.8.4 指纹匹配
3.8.5 适用于指纹匹配的LSH函数族
3.8.6 相似新闻报道检测
3.8.7 习题
3.9 面向高相似度的方法
3.9.1 相等项发现
3.9.2 集合的字符串表示方法
3.9.3 基于长度的过滤
3.9.4 前缀索引
3.9.5 位置信息的使用
3.9.6 使用位置和长度信息的索引
3.9.7 习题
3.10 小结
3.11 参考文献
第4章 数据流挖掘
4.1 流数据模型
4.1.1 一个数据流管理系统
4.1.2 流数据源的例子
4.1.3 流查询
4.1.4 流处理中的若干问题
4.2 流当中的数据抽样
4.2.1 一个富于启发性的例子
4.2.2 代表性样本的获取
4.2.3 一般的抽样问题
4.2.4 样本规模的变化
4.2.5 习题
4.3 流过滤
4.3.1 一个例子
4.3.2 布隆过滤器
4.3.3 布隆过滤方法的分析
4.3.4 习题
4.4 流中独立元素的数目统计
4.4.1 独立元素计数问题
4.4.2 FM算法
4.4.3 组合估计
4.4.4 空间需求
4.4.5 习题
4.5 矩估计
4.5.1 矩定义
4.5.2 二阶矩估计的AMS算法
4.5.3 AMS算法有效的原因
4.5.4 更高阶矩的估计
4.5.5 无限流的处理
4.5.6 习题
4.6 窗口内的计数问题
4.6.1 精确计数的开销
4.6.2 DGIM算法
4.6.3 DGIM算法的存储需求
4.6.4 DGIM算法中的查询应答
4.6.5 DGIM条件的保持
4.6.6 降低错误率
4.6.7 窗口内计数问题的扩展
4.6.8 习题
4.7 衰减窗口
4.7.1 最常见元素问题
4.7.2 衰减窗口的定义
4.7.3 最流行元素的发现
4.8 小结
4.9 参考文献
第5章 链接分析
5.1 PageRank
5.1.1 早期的搜索引擎及词项作弊
5.1.2 PageRank的定义
5.1.3 Web结构
5.1.4 避免终止点
5.1.5 采集器陷阱及“抽税”法
5.1.6 PageRank在搜索引擎中的使用
5.1.7 习题
5.2 PageRank的快速计算
5.2.1 转移矩阵的表示
5.2.2 基于Map-Reduce的PageRank迭代计算
5.2.3 结果向量合并时的组合器使用
5.2.4 转移矩阵中块的表示
5.2.5 其他高效的PageRank迭代方法
5.2.6 习题
5.3 面向主题的PageRank
5.3.1 动机
5.3.2 有偏的随机游走模型
5.3.3 面向主题的PageRank的使用
5.3.4 基于词汇的主题推断
5.3.5 习题
5.4 链接作弊
5.4.1 垃圾农场的架构
5.4.2 垃圾农场的分析
5.4.3 与链接作弊的斗争
5.4.4 TrustRank
5.4.5 垃圾质量
5.4.6 习题
5.5 导航页和权威页
5.5.1 HITS的直观意义
5.5.2 导航度和权威度的形式化
5.5.3 习题
5.6 小结
5.7 参考文献
第6章 频繁项集
6.1 购物篮模型
6.1.1 频繁项集的定义
6.1.2 频繁项集的应用
6.1.3 关联规则
6.1.4 高可信度关联规则的发现
6.1.5 习题
6.2 购物篮及A-Priori算法
6.2.1 购物篮数据的表示
6.2.2 项集计数中的内存使用
6.2.3 项集的单调性
6.2.4 二元组计数
6.2.5 A-Priori算法
6.2.6 所有频繁项集上的A-Priori算法
6.2.7 习题
6.3 更大数据集在内存中的处理
6.3.1 PCY算法
6.3.2 多阶段算法
6.3.3 多哈希算法
6.3.4 习题
6.4 有限扫描算法
6.4.1 简单的随机化算法
6.4.2 抽样算法中的错误规避
6.4.3 SON算法
6.4.4 SON算法和Map-Reduce
6.4.5 Toivonen算法
6.4.6 Toivonen算法的有效性分析
6.4.7 习题
6.5 流中的频繁项计数
6.5.1 流的抽样方法
6.5.2 衰减窗口中的频繁项集
6.5.3 混合方法
6.5.4 习题
6.6 小结
6.7 参考文献
第7章 聚类
7.1 聚类技术介绍
7.1.1 点、空间和距离
7.1.2 聚类策略
7.1.3 维数灾难
7.1.4 习题
7.2 层次聚类
7.2.1 欧氏空间下的层次聚类
7.2.2 层次聚类算法的效率
7.2.3 控制层次聚类的其他规则
7.2.4 非欧空间下的层次聚类
7.2.5 习题
7.3 k-均值算法
7.3.1 k-均值算法基本知识
7.3.2 k-均值算法的簇初始化
7.3.3 选择k的正确值
7.3.4 BFR算法
7.3.5 BFR算法中的数据处理
7.3.6 习题
7.4 CURE算法
7.4.1 CURE算法的初始化
7.4.2 CURE算法的完成
7.4.3 习题
7.5 非欧空间下的聚类
7.5.1 GRGPF算法中的簇表示
7.5.2 簇表示树的初始化
7.5.3 GRGPF算法中的点加入
7.5.4 簇的分裂及合并
7.5.5 习题
7.6 流聚类及并行化
7.6.1 流计算模型
7.6.2 一个流聚类算法
7.6.3 桶的初始化
7.6.4 桶合并
7.6.5 查询应答
7.6.6 并行环境下的聚类
7.6.7 习题
7.7 小结
7.8 参考文献
第8章 Web广告
8.1 在线广告相关问题
8.1.1 广告机会
8.1.2 直投广告
8.1.3 展示广告的相关问题
8.2 在线算法
8.2.1 在线和离线算法
8.2.2 贪心算法
8.2.3 竞争率
8.2.4 习题
8.3 广告匹配问题
8.3.1 匹配及完美匹配
8.3.2 最大匹配贪心算法
8.3.3 贪心匹配算法的竞争率
8.3.4 习题
8.4 Adwords问题
8.4.1 搜索广告的历史
8.4.2 Adwords问题的定义
8.4.3 Adwords问题的贪心方法
8.4.4 Balance算法
8.4.5 Balance算法竞争率的一个下界
8.4.6 多投标者的Balance算法
8.4.7 一般性的Balance算法
8.4.8 Adwords问题的最后论述
8.4.9 习题
8.5 Adwords的实现
8.5.1 投标和搜索查询的匹配
8.5.2 更复杂的匹配问题
8.5.3 文档和投标之间的匹配算法
8.6 小结
8.7 参考文献
第9章 推荐系统
9.1 一个推荐系统的模型
9.1.1 效用矩阵
9.1.2 长尾现象
9.1.3 推荐系统的应用
9.1.4 效用矩阵的填充
9.2 基于内容的推荐
9.2.1 项模型
9.2.2 文档的特征发现
9.2.3 基于Tag的项特征获取
9.2.4 项模型的表示
9.2.5 用户模型
9.2.6 基于内容的项推荐
9.2.7 分类算法
9.2.8 习题
9.3 协同过滤
9.3.1 相似度计算
9.3.2 相似度对偶性
9.3.3 用户聚类和项聚类
9.3.4 习题
9.4 降维处理
9.4.1 UV分解
9.4.2 RMSE
9.4.3 UV分解的增量式计算
9.4.4 对任一元素的优化
9.4.5 一个完整UV分解算法的构建
9.4.6 习题
9.5 NetFlix竞赛
9.6 小结
9.7 参考文献
索引
^ 收 起
Anand Rajaraman,数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。
《数据挖掘:概念与技术(原书第3版)》
《数据挖掘:概念与技术(原书第3版)》完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。
《数据挖掘:概念与技术(原书第3版)》是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
《大数据:互联网大规模数据挖掘与分布式处理》
《大数据:互联网大规模数据挖掘与分布式处理》源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:
分布式文件系统以及Map-Reduce工具;
相似性搜索;
数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
搜索引擎技术,如谷歌的PageRank;
频繁项集挖掘;
大规模高维数据集的聚类算法;
Web应用中的关键问题:广告管理和推荐系统。
^ 收 起
《数据挖掘:概念与技术(原书第3版)》完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。
《数据挖掘:概念与技术(原书第3版)》是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
《大数据:互联网大规模数据挖掘与分布式处理》
《大数据:互联网大规模数据挖掘与分布式处理》源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:
分布式文件系统以及Map-Reduce工具;
相似性搜索;
数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
搜索引擎技术,如谷歌的PageRank;
频繁项集挖掘;
大规模高维数据集的聚类算法;
Web应用中的关键问题:广告管理和推荐系统。
^ 收 起
比价列表