大数据原理与实践:复杂信息的准备 共享和分析(原书第2版)
译者序
第2版前言
第1版前言
作者简介
第1章 引言1
1.1 大数据的定义1
1.2 大数据与小数据2
1.3 大数据在哪里5
1.4 大数据常见的目的是产生小数据6
1.5 大数据是研究领域的中心话题6
查看完整
第2版前言
第1版前言
作者简介
第1章 引言1
1.1 大数据的定义1
1.2 大数据与小数据2
1.3 大数据在哪里5
1.4 大数据常见的目的是产生小数据6
1.5 大数据是研究领域的中心话题6
查看完整
朱尔斯·J. 伯曼(Jules J. Berman) 拥有麻省理工学院数学和地球与行星科学两个学士学位,天普大学哲学博士学位,以及迈阿密大学医学博士学位。撰写信息科学、计算机程序设计和病理学三个专业领域的著作近20本。2006年,伯曼博士成为美国病理信息学协会主席,2011年荣获该协会终身成就奖。
当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。
译者序
第2版前言
第1版前言
作者简介
第1章 引言1
1.1 大数据的定义1
1.2 大数据与小数据2
1.3 大数据在哪里5
1.4 大数据常见的目的是产生小数据6
1.5 大数据是研究领域的中心话题6
术语表7
参考文献11
第2章 为非结构化数据提供结构13
2.1 几乎所有数据都是非结构化的、
不可用的原始形式13
2.2 词汇索引14
2.3 术语提取16
2.4 构建索引19
2.5 自动编码20
2.6 案例研究:宇宙中任意原子精确位置的快速定位(需要安装一些软件)24
2.7 案例研究(高级):一个完整的自动编码器(12行Python代码)26
2.8 案例研究:以词汇索引进行文本转换28
2.9 案例研究(高级):Burrows Wheeler变换30
术语表32
参考文献43
第3章 标识、去标识和重标识45
3.1 什么是标识符45
3.2 标识符和标识系统之间的区别46
3.3 生成标识符48
3.4 糟糕的标识方法50
3.5 注册对象标识符53
3.6 去标识和重标识55
3.7 案例研究:数据清理57
3.8 案例研究(高级):图像标题中的标识符59
3.9 案例研究:单向散列函数61
术语表63
参考文献69
第4章 元数据、语义和三元组71
4.1 元数据71
4.2 可扩展标记语言71
4.3 语义和三元组72
4.4 命名空间74
4.5 案例研究:三元组的语法75
4.6 案例研究:Dublin Core77
术语表78
参考文献80
第5章 分类和本体论81
5.1 关于对象关系的全部81
5.2 分类:简单的本体84
5.3 本体:有多个父类的类86
5.4 分类模型选择88
5.5 类混合91
5.6 本体开发的常见陷阱92
5.7 案例研究:上层本体93
5.8 案例研究(高级):悖论94
5.9 案例研究(高级):RDF框架和类属性96
5.10 案例研究(高级):可视化类关系98
术语表102
参考文献111
第6章 内省113
6.1 自我认知113
6.2 数据对象:每个大数据集合中基本的元素116
6.3 大数据如何使用内省117
6.4 案例研究:时间戳数据119
6.5 案例研究:TripleStore 简介121
6.6 案例研究(高级):大数据必须是面向对象的证明125
术语表126
参考文献127
第7章 标准和数据集成128
7.1 标准128
7.2 规范与标准132
7.3 版本控制134
7.4 合规问题135
7.5 案例研究:标准化巧克力茶壶135
术语表136
参考文献137
第8章 不变性和永久性139
8.1 数据不变性的重要性139
8.2 不变性和标识符140
8.3 数据产生数据142
8.4 跨机构协调标识符143
8.5 案例研究:可信时间戳144
8.6 案例研究:区块链和分布式账本145
8.7 案例研究(高级):零知识协调147
术语表148
参考文献150
第9章 评估大数据资源的充分性152
9.1 观察数据152
9.2 大数据的小必要属性158
9.3 附加条件的数据161
9.4 案例研究:用于查看和搜索大型文件的实用程序162
9.5 案例研究:数据扁平化164
术语表164
参考文献169
第10章 测量170
10.1 准确性与精度170
10.2 数据范围171
10.3 计数173
10.4 数据标准化和变换176
10.5 约简数据179
10.6 理解控制181
10.7 没有实际意义的统计意义182
10.8 案例研究:基因计数183
10.9 案例研究:早期生物特征和狭窄数据范围的意义184
术语表185
参考文献186
第11章 快速简单的大数据分析必不可少的技巧188
11.1 速度和可扩展性188
11.2 适用于大数据的快速操作,并且每台计算机都支持193
11.3 点积—一种简单快速的相关方法197
11.4 聚类199
11.5 数据持久性方法(不使用数据库)201
11.6 案例研究:爬升分类202
11.7 案例研究(高级):数据库示例203
11.8 案例研究(高级):NoSQL205
术语表205
参考文献209
第12章 寻找大型数据集中的线索211
12.1 分母211
12.2 词频分布212
12.3 异常值和异常215
12.4 封底分析216
12.5 案例研究:预测用户偏好218
12.6 案例研究:人口数据的多模态219
12.7 案例研究:大小黑洞220
术语表220
参考文献224
第13章 使用随机数将大数据分析问题的规模缩小225
13.1 (伪)随机数的显著效用225
13.2 重采样230
13.3 蒙特卡罗模拟法234
13.4 案例研究:中心极限定理的证明236
13.5 案例研究:发生一连串小概率事件的频率237
13.6 案例研究:臭名昭著的生日问题238
13.7 案例研究(高级):蒙提霍尔问题239
13.8 案例研究(高级):贝叶斯分析241
术语表242
参考文献244
第14章 大数据分析中的特殊注意事项246
14.1 数据搜索理论246
14.2 理论搜索中的数据247
14.3 巨大的偏差248
14.4 大数据的数据子集:不可加和不传递251
14.5 其他大数据陷阱252
14.6 案例研究(高级):维数灾难254
术语表257
参考文献258
第15章 大数据的失败以及如何避免260
15.1 失败很常见260
15.2 失败的标准261
15.3 复杂性264
15.4 逐步走进大数据分析265
15.5 失败之后272
15.6 案例研究:癌症生物医学信息学网格—遥远的桥273
15.7 案例研究:高斯Copula函数277
术语表278
参考文献280
第16章 数据再分析:比分析更重要283
16.1 次分析(几乎)总是错的283
16.2 为什么再分析比分析更重要285
16.3 案例研究:旧JADE对撞机数据的再分析287
16.4 案例研究:通过再分析证明287
16.5 案例研究:从旧数据中寻找新行星288
术语表289
参考文献290
第17章 大数据再利用294
17.1 什么是数据再利用294
17.2 暗数据、废弃数据和遗留数据296
17.3 案例研究:从邮政编码到人口统计学基础297
17.4 案例研究:基因序列数据库的科学推断298
17.5 案例研究:将全球变暖与高强度飓风联系起来298
17.6 案例研究:用地质数据推断气候趋势299
17.7 案例研究:环月影像恢复工程299
术语表301
参考文献301
第18章 数据共享和数据安全303
18.1 什么是数据共享,为什么我们不共享更多数据303
18.2 常见的不满303
18.3 数据安全和加密协议308
18.4 案例研究:火星上的生命313
18.5 案例研究:个人标识符314
术语表315
参考文献317
第19章 合法性320
19.1 对数据的准确性和合法性负责320
19.2 创建、使用和共享资源的权利322
19.3 因使用标准而招致的版权和专利侵权行为324
19.4 对个人的保护325
19.5 许可问题326
19.6 未经许可的数据330
19.7 隐私策略332
19.8 案例研究:大数据的时效性333
19.9 案例:哈瓦苏派的故事334
术语表335
参考文献336
第20章 社会问题338
20.1 公众的大数据感知338
20.2 用大数据降低成本和提高生产效率340
20.3 公众的疑虑342
20.4 从自己做起343
20.5 谁是大数据344
20.6 傲慢和夸张349
20.7 案例研究:公民科学家351
20.8 案例研究:乔治·奥威尔的《1984》354
术语表354
参考文献355
^ 收 起
第2版前言
第1版前言
作者简介
第1章 引言1
1.1 大数据的定义1
1.2 大数据与小数据2
1.3 大数据在哪里5
1.4 大数据常见的目的是产生小数据6
1.5 大数据是研究领域的中心话题6
术语表7
参考文献11
第2章 为非结构化数据提供结构13
2.1 几乎所有数据都是非结构化的、
不可用的原始形式13
2.2 词汇索引14
2.3 术语提取16
2.4 构建索引19
2.5 自动编码20
2.6 案例研究:宇宙中任意原子精确位置的快速定位(需要安装一些软件)24
2.7 案例研究(高级):一个完整的自动编码器(12行Python代码)26
2.8 案例研究:以词汇索引进行文本转换28
2.9 案例研究(高级):Burrows Wheeler变换30
术语表32
参考文献43
第3章 标识、去标识和重标识45
3.1 什么是标识符45
3.2 标识符和标识系统之间的区别46
3.3 生成标识符48
3.4 糟糕的标识方法50
3.5 注册对象标识符53
3.6 去标识和重标识55
3.7 案例研究:数据清理57
3.8 案例研究(高级):图像标题中的标识符59
3.9 案例研究:单向散列函数61
术语表63
参考文献69
第4章 元数据、语义和三元组71
4.1 元数据71
4.2 可扩展标记语言71
4.3 语义和三元组72
4.4 命名空间74
4.5 案例研究:三元组的语法75
4.6 案例研究:Dublin Core77
术语表78
参考文献80
第5章 分类和本体论81
5.1 关于对象关系的全部81
5.2 分类:简单的本体84
5.3 本体:有多个父类的类86
5.4 分类模型选择88
5.5 类混合91
5.6 本体开发的常见陷阱92
5.7 案例研究:上层本体93
5.8 案例研究(高级):悖论94
5.9 案例研究(高级):RDF框架和类属性96
5.10 案例研究(高级):可视化类关系98
术语表102
参考文献111
第6章 内省113
6.1 自我认知113
6.2 数据对象:每个大数据集合中基本的元素116
6.3 大数据如何使用内省117
6.4 案例研究:时间戳数据119
6.5 案例研究:TripleStore 简介121
6.6 案例研究(高级):大数据必须是面向对象的证明125
术语表126
参考文献127
第7章 标准和数据集成128
7.1 标准128
7.2 规范与标准132
7.3 版本控制134
7.4 合规问题135
7.5 案例研究:标准化巧克力茶壶135
术语表136
参考文献137
第8章 不变性和永久性139
8.1 数据不变性的重要性139
8.2 不变性和标识符140
8.3 数据产生数据142
8.4 跨机构协调标识符143
8.5 案例研究:可信时间戳144
8.6 案例研究:区块链和分布式账本145
8.7 案例研究(高级):零知识协调147
术语表148
参考文献150
第9章 评估大数据资源的充分性152
9.1 观察数据152
9.2 大数据的小必要属性158
9.3 附加条件的数据161
9.4 案例研究:用于查看和搜索大型文件的实用程序162
9.5 案例研究:数据扁平化164
术语表164
参考文献169
第10章 测量170
10.1 准确性与精度170
10.2 数据范围171
10.3 计数173
10.4 数据标准化和变换176
10.5 约简数据179
10.6 理解控制181
10.7 没有实际意义的统计意义182
10.8 案例研究:基因计数183
10.9 案例研究:早期生物特征和狭窄数据范围的意义184
术语表185
参考文献186
第11章 快速简单的大数据分析必不可少的技巧188
11.1 速度和可扩展性188
11.2 适用于大数据的快速操作,并且每台计算机都支持193
11.3 点积—一种简单快速的相关方法197
11.4 聚类199
11.5 数据持久性方法(不使用数据库)201
11.6 案例研究:爬升分类202
11.7 案例研究(高级):数据库示例203
11.8 案例研究(高级):NoSQL205
术语表205
参考文献209
第12章 寻找大型数据集中的线索211
12.1 分母211
12.2 词频分布212
12.3 异常值和异常215
12.4 封底分析216
12.5 案例研究:预测用户偏好218
12.6 案例研究:人口数据的多模态219
12.7 案例研究:大小黑洞220
术语表220
参考文献224
第13章 使用随机数将大数据分析问题的规模缩小225
13.1 (伪)随机数的显著效用225
13.2 重采样230
13.3 蒙特卡罗模拟法234
13.4 案例研究:中心极限定理的证明236
13.5 案例研究:发生一连串小概率事件的频率237
13.6 案例研究:臭名昭著的生日问题238
13.7 案例研究(高级):蒙提霍尔问题239
13.8 案例研究(高级):贝叶斯分析241
术语表242
参考文献244
第14章 大数据分析中的特殊注意事项246
14.1 数据搜索理论246
14.2 理论搜索中的数据247
14.3 巨大的偏差248
14.4 大数据的数据子集:不可加和不传递251
14.5 其他大数据陷阱252
14.6 案例研究(高级):维数灾难254
术语表257
参考文献258
第15章 大数据的失败以及如何避免260
15.1 失败很常见260
15.2 失败的标准261
15.3 复杂性264
15.4 逐步走进大数据分析265
15.5 失败之后272
15.6 案例研究:癌症生物医学信息学网格—遥远的桥273
15.7 案例研究:高斯Copula函数277
术语表278
参考文献280
第16章 数据再分析:比分析更重要283
16.1 次分析(几乎)总是错的283
16.2 为什么再分析比分析更重要285
16.3 案例研究:旧JADE对撞机数据的再分析287
16.4 案例研究:通过再分析证明287
16.5 案例研究:从旧数据中寻找新行星288
术语表289
参考文献290
第17章 大数据再利用294
17.1 什么是数据再利用294
17.2 暗数据、废弃数据和遗留数据296
17.3 案例研究:从邮政编码到人口统计学基础297
17.4 案例研究:基因序列数据库的科学推断298
17.5 案例研究:将全球变暖与高强度飓风联系起来298
17.6 案例研究:用地质数据推断气候趋势299
17.7 案例研究:环月影像恢复工程299
术语表301
参考文献301
第18章 数据共享和数据安全303
18.1 什么是数据共享,为什么我们不共享更多数据303
18.2 常见的不满303
18.3 数据安全和加密协议308
18.4 案例研究:火星上的生命313
18.5 案例研究:个人标识符314
术语表315
参考文献317
第19章 合法性320
19.1 对数据的准确性和合法性负责320
19.2 创建、使用和共享资源的权利322
19.3 因使用标准而招致的版权和专利侵权行为324
19.4 对个人的保护325
19.5 许可问题326
19.6 未经许可的数据330
19.7 隐私策略332
19.8 案例研究:大数据的时效性333
19.9 案例:哈瓦苏派的故事334
术语表335
参考文献336
第20章 社会问题338
20.1 公众的大数据感知338
20.2 用大数据降低成本和提高生产效率340
20.3 公众的疑虑342
20.4 从自己做起343
20.5 谁是大数据344
20.6 傲慢和夸张349
20.7 案例研究:公民科学家351
20.8 案例研究:乔治·奥威尔的《1984》354
术语表354
参考文献355
^ 收 起
朱尔斯·J. 伯曼(Jules J. Berman) 拥有麻省理工学院数学和地球与行星科学两个学士学位,天普大学哲学博士学位,以及迈阿密大学医学博士学位。撰写信息科学、计算机程序设计和病理学三个专业领域的著作近20本。2006年,伯曼博士成为美国病理信息学协会主席,2011年荣获该协会终身成就奖。
当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。
比价列表
1人想要
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠