R语言数据分析
目 录内容简介
Contents?目 录译者序前言第1章 你好,数据! 11.1 导入一个大小合适的文本文件 21.2 文本文件编译测试平台 51.3 导入文本文件的子集 61.4 从数据库中导入数据 81.4.1 搭建测试环境 91.4.2 MySQL和MariaDB 111.4.3 PostgreSQL 151.4.4 Oracle数据库 171.4.5 访问ODBC数据库 221.4.6 使用图形化用户面连接数据库 231.4.7 其他数据库后台 241.5 从其他统计系统导入数据 251.6 导入Excel电子表格 261.7 小结 26第2章 从Web获取数据 282.1 从Internet导入数据集 292.2 其他流行的在线数据格式 322.3 从HTML表中读取数据 372.4 从其他在线来源获取数据 392.5 使用R包与数据源API交互 422.5.1 Socrata的开源数据API 432.5.2 …
查看完整
查看完整
目 录内容简介
本书共分为14章,重点探讨了数据预处理的方法,包括数据获取、筛选、重构、建模、平滑以及降维,本书还介绍了分类和聚类等几种主要的数据分析方法,zui后探讨了网络数据、时序数据、空间数据及社交媒体数据等一些特殊类型数据的分析处理。
目 录内容简介
Contents?目 录译者序前言第1章 你好,数据! 11.1 导入一个大小合适的文本文件 21.2 文本文件编译测试平台 51.3 导入文本文件的子集 61.4 从数据库中导入数据 81.4.1 搭建测试环境 91.4.2 MySQL和MariaDB 111.4.3 PostgreSQL 151.4.4 Oracle数据库 171.4.5 访问ODBC数据库 221.4.6 使用图形化用户面连接数据库 231.4.7 其他数据库后台 241.5 从其他统计系统导入数据 251.6 导入Excel电子表格 261.7 小结 26第2章 从Web获取数据 282.1 从Internet导入数据集 292.2 其他流行的在线数据格式 322.3 从HTML表中读取数据 372.4 从其他在线来源获取数据 392.5 使用R包与数据源API交互 422.5.1 Socrata的开源数据API 432.5.2 金融API 442.5.3 使用Quandl获取时序数据 452.5.4 Google文档和统计数据 462.5.5 在线搜索的发展趋势 472.5.6 天气历史数据 482.5.7 其他在线数据源 492.6 小结 49第3章 数据筛选和汇总 503.1 去掉多余的数据 503.1.1 快速去掉多余数据 523.1.2 快速去掉多余数据的其他方法 533.2 聚集 543.2.1 使用基础的R命令实现快速聚集 553.2.2 方便的辅助函数 563.2.3 高性能的辅助函数 573.2.4 使用data.table完成聚集 593.3 测试 593.4 汇总函数 623.5 小结 64第4章 数据重构 654.1 矩阵转置 654.2 基于字符串匹配实现数据筛选 664.3 数据重排序 674.4 dplyr包和data.table包的比较 704.5 创建新变量 704.5.1 内存使用分析 714.5.2 同时创建多个变量 724.5.3 采用dplyr包生成新变量 734.6 数据集合并 744.7 灵活地实现数据整形 764.7.1 将宽表转换为长表 774.7.2 将长表转换为宽表 784.7.3 性能调整 804.8 reshape包的演变 804.9 小结 81第5章 建模 825.1 多元模型的由来 835.2 线性回归及连续预测变量 835.2.1 模型解释 835.2.2 多元预测 855.3 模型假定 875.4 回归线的拟合效果 905.5 离散预测变量 925.6 小结 95第6章 线性趋势直线外的知识 966.1 工作流建模 966.2 逻辑回归 976.2.1 数据思考 1006.2.2 模型拟合的好处 1016.2.3 模型比较 1026.3 计数模型 1026.3.1 泊松回归 1036.3.2 负二项回归 1076.3.3 多元非线性模型 1076.4 小结 115第7章 非结构化数据 1167.1 导入语料库 1167.2 清洗语料库 1187.3 展示语料库的高频词 1217.4 深度清洗 1217.4.1 词干提取 1227.4.2 词形还原 1247.5 词条关联说明 1247.6 其他一些度量 1257.7 文档分段 1267.8 小结 128第8章 数据平滑 1298.1 缺失值的类型和来源 1298.2 确定缺失值 1308.3 忽略缺失值 1318.4 去掉缺失值 1348.5 在分析前或分析中筛选缺失值 1368.6 填补缺失值 1368.6.1 缺失值建模 1388.6.2 不同填补方法的比较 1408.6.3 不处理缺失值 1418.6.4 多重填补 1418.7 异常值和孤立点 1418.8 使用模糊方法 1448.9 小结 146第9章 从大数据到小数据 1479.1 充分性测试 1489.1.1 正态性 1489.1.2 多元变量正态性 1499.1.3 变量间的依赖关系 1529.1.4 KMO和Barlett检验 1549.2 主成分分析 1579.2.1 PCA算法 1589.2.2 确定成分数 1599.2.3 成分解释 1619.2.4 旋转方法 1649.2.5 使用PCA检测孤立点 1679.3 因子分析 1709.4 主成分分析和因子分析 1729.5 多维尺度分析 1739.6 小结 176第10章 分类和聚类 17710.1 聚类分析 17810.1.1 层次聚类 17810.1.2 确定簇的理想个数 18110.1.3 k均值聚类 18310.1.4 可视化聚类 18510.2 潜类别模型 18610.2.1 潜类别分析 18710.2.2 LCR模型 18910.3 判别分析 18910.4 逻辑回归 19210.5 机器学习算法 19410.5.1 k近邻算法 19510.5.2 分类树 19710.5.3 随机森林 20010.5.4 其他算法 20110.6 小结 203第11章 基于R的社会网络分析 20411.1 装载网络数据 20411.2 网络中心性度量 20611.3 网络数据的展现 20711.3.1 交互网络图 21011.3.2 绘制层次图 21111.3.3 使用R包来解释包的依赖关系 21211.4 更多网络分析资源 21211.5 小结 213第12章 时序数据分析 21412.1 创建时序对象 21412.2 展现时序数据 21512.3 季节性分解 21712.4 Holt-Winters筛选 21812.5 自回归积分滑动平均模型 22012.6 孤立点检测 22112.7 更复杂的时序对象 22412.8 高级时序数据分析 22512.9 小结 225第13章 我们身边的数据 22613.1 地理编码 22613.2 在空间中展示数据点 22813.3 找出数据点的多边形重叠区域 23013.4 绘制主题图 23213.5 围绕数据点绘制多边形 23313.5.1 等高线 23413.5.2 冯洛诺伊图 23613.6 卫星图 23713.7 交互图 23813.7.1 查询Google地图 23813.7.2 Java脚本地图库 24013.8 其他绘图方法 24213.9 空间数据分析 24413.10 小结 246第14章 分析R社区 24714.1 R创始团队的成员 24714.2 R开发包的维护人员 24914.3 R-help邮件列表 25314.3.1 R-help邮件列表的规模 25614.3.2 预测未来的邮件规模 25814.4 分析用户列表的重叠部分 26014.5 社交媒体内的R用户数 26214.6 社交媒体中与R相关的贴子 26314.7 小结 266附录 267
^ 收 起
^ 收 起
目 录内容简介
本书共分为14章,重点探讨了数据预处理的方法,包括数据获取、筛选、重构、建模、平滑以及降维,本书还介绍了分类和聚类等几种主要的数据分析方法,zui后探讨了网络数据、时序数据、空间数据及社交媒体数据等一些特殊类型数据的分析处理。
比价列表