自己动手做大数据系统
目 录
第1章 为什么要自己动手做大数据系统1
1.1 大数据时代1
1.2 实战大数据项目2
1.3 大数据演练平台2
第2章 项目背景及准备4
2.1 项目背景4
2.2 项目简介4
2.3 项目架构4
2.4 操作系统5
查看完整
第1章 为什么要自己动手做大数据系统1
1.1 大数据时代1
1.2 实战大数据项目2
1.3 大数据演练平台2
第2章 项目背景及准备4
2.1 项目背景4
2.2 项目简介4
2.3 项目架构4
2.4 操作系统5
查看完整
张魁虚拟化工程师,Openstack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。先后在美企担任虚拟化应用运维、服务器集群开发运维工程师或系统开发架构师,高校信息中心云平台架构师,主要关注Openstack、Docker及分布式存储等。张粤磊DBA、大数据架构师,十余年一线数据处理数据分析实战经验。先后在咨询、金融、互联网行业担任数据平台技术负责人或架构师。主要关注大数据基础平台、大数据模型构建和大数据分析。刘未昕从事IT研发和项目管理工作十余年以上。使用多种程序设计语言,目前研究方向主要是大数据生态系统,从事金融、数据仓库等领域研发。五年以上IT行业授课、培训经验,并在多所高校担任外聘讲师。吴茂贵运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。近期主要做复杂数据存储、清理、转换等工作,…
查看完整
查看完整
如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。如果你有上述疑惑或遇到相似问题,本书正好比较适合你。本书从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。本书的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.co…
查看完整
查看完整
目 录
第1章 为什么要自己动手做大数据系统1
1.1 大数据时代1
1.2 实战大数据项目2
1.3 大数据演练平台2
第2章 项目背景及准备4
2.1 项目背景4
2.2 项目简介4
2.3 项目架构4
2.4 操作系统5
2.5 数据存储7
2.6 数据处理8
2.7 开发工具9
2.8 调试工具10
2.9 版本管理10
第3章 大数据环境搭建和配置11
3.1 各组件功能说明11
3.1.1 各种数据源的采集工具12
3.1.2 企业大数据存储工具12
3.1.3 企业大数据系统的数据仓库工具12
3.1.4 企业大数据系统的分析计算工具13
3.1.5 企业大数据系统的数据库工具13
3.2 大数据系统各组件安装部署配置13
3.2.1 安装的前期准备工作13
3.2.2 Hadoop基础环境安装及配置15
3.2.3 Hive安装及配置21
3.2.4 Sqoop安装及配置24
3.2.5 Spark安装及配置30
3.2.6 Zookeeper安装及配置31
3.2.7 HBase安装及配置33
3.3 自动化安装及部署说明35
3.3.1 自动化安装及部署整体架构设计35
3.3.2 大数据系统自动化部署逻辑调用关系36
3.4 本章小结43
第4章 大数据的获取44
4.1 使用爬虫获取互联网数据45
4.2 Python和Scrapy 框架的安装45
4.3 抓取和解析招聘职位信息47
4.4 职位信息的落地51
4.5 两个爬虫配合工作53
4.6 让爬虫的架构设计更加合理55
4.7 获取数据的其他方式57
4.8 使用Sqoop同步论坛中帖子数据57
4.9 本章小结59
第5章 大数据的处理60
5.1 Hive是什么60
5.2 为什么使用Hive做数据仓库建模60
5.3 飞谷项目中Hive建模步骤61
5.3.1 逻辑模型的创建62
5.3.2 物理模型的创建67
5.3.3 将爬虫数据导入stg_job表74
5.4 使用Hive进行数据清洗转换77
5.5 数据清洗转换的必要性78
5.6 使用HiveQL清洗数据、提取维度信息79
5.6.1 使用HQL清洗数据79
5.6.2 提取维度信息82
5.7 定义Hive UDF封装处理逻辑85
5.7.1 Hive UDF的开发、部署和调用86
5.7.2 Python版本的UDF89
5.8 使用左外连接构造聚合表rpt_job92
5.9 让数据处理自动调度96
5.9.1 HQL的几种执行方式96
5.9.2 Hive Thrift服务99
5.9.3 使用JDBC连接Hive100
5.9.4 Python调用HiveServer服务103
5.9.5 用crontab实现的任务调度105
5.10 本章小结107
第6章 大数据的存储108
6.1 NoSQL及HBase简介108
6.2 HBase中的主要概念110
6.3 HBase客户端及JavaAPI111
6.4 Hive数据导入HBase的两种方案114
6.4.1 利用既有的JAR包实现整合114
6.4.2 手动编写MapReduce程序116
6.5 使用Java API查询HBase中的职位信息122
6.5.1 为什么是HBase而非Hive122
6.5.2 多条件组合查询HBase中的职位信息123
6.6 如何显示职位表中的某条具体信息132
6.7 本章小结133
第7章 大数据的展示134
7.1 概述134
7.2 数据分析的一般步骤135
7.3 用R来做数据分析展示135
7.3.1 在Ubuntu上安装R135
7.3.2 R的基本使用方式137
7.4 用Hive充当R的数据来源139
7.4.1 RHive组件139
7.4.2 把R图表整合到Web页面中145
7.5 本章小结151
第8章 大数据的分析挖掘152
8.1 基于Spark的数据挖掘技术152
8.2 Spark和Hadoop的关系153
8.3 在Ubuntu上安装Spark集群154
8.3.1 JDK和Hadoop的安装154
8.3.2 安装Scala154
8.3.3 安装Spark155
8.4 Spark的运行方式157
8.5 使用Spark替代Hadoop Yarn引擎160
8.5.1 使用spark-sql查看Hive表160
8.5.2 在beeline客户端使用Spark引擎161
8.5.3 在Java代码中引用Spark的ThriftServer163
8.6 对招聘公司名称做全文检索168
8.6.1 从HDFS数据源构造JavaRDD169
8.6.2 使用Spark SQL操作RDD173
8.6.3 把RDD运行结果展现在前端174
8.7 如何把Spark用得更好175
8.8 SparkR组件的使用177
8.8.1 SparkR的安装及启动177
8.8.2 运行自带的Sample例子179
8.8.3 利用SparkR生成职位统计饼图179
8.9 本章小结181
第9章 自己动手搭建支撑大数据系统的云平台182
9.1 云平台架构182
9.1.1 一期云基础平台架构182
9.1.2 二期云基础平台架构184
9.2 云平台搭建及部署185
9.2.1 安装组件前准备185
9.2.2 Identity(Keystone)组件190
9.2.3 Image(Glance)组件198
9.2.4 Compute(Nova)组件201
9.2.5 Storage(Cinder)组件206
9.2.6 Networking(Neutron)组件210
9.2.7 Ceph分布式存储系统221
9.2.8 Dashboard(Horizon)组件230
9.3 Identity(Keystone)与LDAP的整合232
9.4 配置Image组件大镜像部署235
9.5 配置业务系统无缝迁移236
9.6 本章小结237
参考文献238
^ 收 起
第1章 为什么要自己动手做大数据系统1
1.1 大数据时代1
1.2 实战大数据项目2
1.3 大数据演练平台2
第2章 项目背景及准备4
2.1 项目背景4
2.2 项目简介4
2.3 项目架构4
2.4 操作系统5
2.5 数据存储7
2.6 数据处理8
2.7 开发工具9
2.8 调试工具10
2.9 版本管理10
第3章 大数据环境搭建和配置11
3.1 各组件功能说明11
3.1.1 各种数据源的采集工具12
3.1.2 企业大数据存储工具12
3.1.3 企业大数据系统的数据仓库工具12
3.1.4 企业大数据系统的分析计算工具13
3.1.5 企业大数据系统的数据库工具13
3.2 大数据系统各组件安装部署配置13
3.2.1 安装的前期准备工作13
3.2.2 Hadoop基础环境安装及配置15
3.2.3 Hive安装及配置21
3.2.4 Sqoop安装及配置24
3.2.5 Spark安装及配置30
3.2.6 Zookeeper安装及配置31
3.2.7 HBase安装及配置33
3.3 自动化安装及部署说明35
3.3.1 自动化安装及部署整体架构设计35
3.3.2 大数据系统自动化部署逻辑调用关系36
3.4 本章小结43
第4章 大数据的获取44
4.1 使用爬虫获取互联网数据45
4.2 Python和Scrapy 框架的安装45
4.3 抓取和解析招聘职位信息47
4.4 职位信息的落地51
4.5 两个爬虫配合工作53
4.6 让爬虫的架构设计更加合理55
4.7 获取数据的其他方式57
4.8 使用Sqoop同步论坛中帖子数据57
4.9 本章小结59
第5章 大数据的处理60
5.1 Hive是什么60
5.2 为什么使用Hive做数据仓库建模60
5.3 飞谷项目中Hive建模步骤61
5.3.1 逻辑模型的创建62
5.3.2 物理模型的创建67
5.3.3 将爬虫数据导入stg_job表74
5.4 使用Hive进行数据清洗转换77
5.5 数据清洗转换的必要性78
5.6 使用HiveQL清洗数据、提取维度信息79
5.6.1 使用HQL清洗数据79
5.6.2 提取维度信息82
5.7 定义Hive UDF封装处理逻辑85
5.7.1 Hive UDF的开发、部署和调用86
5.7.2 Python版本的UDF89
5.8 使用左外连接构造聚合表rpt_job92
5.9 让数据处理自动调度96
5.9.1 HQL的几种执行方式96
5.9.2 Hive Thrift服务99
5.9.3 使用JDBC连接Hive100
5.9.4 Python调用HiveServer服务103
5.9.5 用crontab实现的任务调度105
5.10 本章小结107
第6章 大数据的存储108
6.1 NoSQL及HBase简介108
6.2 HBase中的主要概念110
6.3 HBase客户端及JavaAPI111
6.4 Hive数据导入HBase的两种方案114
6.4.1 利用既有的JAR包实现整合114
6.4.2 手动编写MapReduce程序116
6.5 使用Java API查询HBase中的职位信息122
6.5.1 为什么是HBase而非Hive122
6.5.2 多条件组合查询HBase中的职位信息123
6.6 如何显示职位表中的某条具体信息132
6.7 本章小结133
第7章 大数据的展示134
7.1 概述134
7.2 数据分析的一般步骤135
7.3 用R来做数据分析展示135
7.3.1 在Ubuntu上安装R135
7.3.2 R的基本使用方式137
7.4 用Hive充当R的数据来源139
7.4.1 RHive组件139
7.4.2 把R图表整合到Web页面中145
7.5 本章小结151
第8章 大数据的分析挖掘152
8.1 基于Spark的数据挖掘技术152
8.2 Spark和Hadoop的关系153
8.3 在Ubuntu上安装Spark集群154
8.3.1 JDK和Hadoop的安装154
8.3.2 安装Scala154
8.3.3 安装Spark155
8.4 Spark的运行方式157
8.5 使用Spark替代Hadoop Yarn引擎160
8.5.1 使用spark-sql查看Hive表160
8.5.2 在beeline客户端使用Spark引擎161
8.5.3 在Java代码中引用Spark的ThriftServer163
8.6 对招聘公司名称做全文检索168
8.6.1 从HDFS数据源构造JavaRDD169
8.6.2 使用Spark SQL操作RDD173
8.6.3 把RDD运行结果展现在前端174
8.7 如何把Spark用得更好175
8.8 SparkR组件的使用177
8.8.1 SparkR的安装及启动177
8.8.2 运行自带的Sample例子179
8.8.3 利用SparkR生成职位统计饼图179
8.9 本章小结181
第9章 自己动手搭建支撑大数据系统的云平台182
9.1 云平台架构182
9.1.1 一期云基础平台架构182
9.1.2 二期云基础平台架构184
9.2 云平台搭建及部署185
9.2.1 安装组件前准备185
9.2.2 Identity(Keystone)组件190
9.2.3 Image(Glance)组件198
9.2.4 Compute(Nova)组件201
9.2.5 Storage(Cinder)组件206
9.2.6 Networking(Neutron)组件210
9.2.7 Ceph分布式存储系统221
9.2.8 Dashboard(Horizon)组件230
9.3 Identity(Keystone)与LDAP的整合232
9.4 配置Image组件大镜像部署235
9.5 配置业务系统无缝迁移236
9.6 本章小结237
参考文献238
^ 收 起
张魁虚拟化工程师,Openstack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。先后在美企担任虚拟化应用运维、服务器集群开发运维工程师或系统开发架构师,高校信息中心云平台架构师,主要关注Openstack、Docker及分布式存储等。张粤磊DBA、大数据架构师,十余年一线数据处理数据分析实战经验。先后在咨询、金融、互联网行业担任数据平台技术负责人或架构师。主要关注大数据基础平台、大数据模型构建和大数据分析。刘未昕从事IT研发和项目管理工作十余年以上。使用多种程序设计语言,目前研究方向主要是大数据生态系统,从事金融、数据仓库等领域研发。五年以上IT行业授课、培训经验,并在多所高校担任外聘讲师。吴茂贵运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。近期主要做复杂数据存储、清理、转换等工作,同时在大数据方面也很有兴趣并投入大量时间和精力,且将持续为之。
^ 收 起
^ 收 起
如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。如果你有上述疑惑或遇到相似问题,本书正好比较适合你。本书从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。本书的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.com/support。
^ 收 起
^ 收 起
比价列表
1人想要
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠