计算机视觉度量 从特征描述到深度学习
第 1章 图像的获取和表示1
1.1 图像传感器技术 1
1.1.1 传感器材料 2
1.1.2 传感器光电二极管元件 3
1.1.3 传感器配置:马赛克、Foveon和BSI 3
1.1.4 动态范围、噪声和超分辨率 4
1.1.5 传感器处理 5
1.1.6 去马赛克 5
1.1.7 坏像素校正 5
1.1.8 色彩和光照校正 6
查看完整
1.1 图像传感器技术 1
1.1.1 传感器材料 2
1.1.2 传感器光电二极管元件 3
1.1.3 传感器配置:马赛克、Foveon和BSI 3
1.1.4 动态范围、噪声和超分辨率 4
1.1.5 传感器处理 5
1.1.6 去马赛克 5
1.1.7 坏像素校正 5
1.1.8 色彩和光照校正 6
查看完整
作者简介
Scott Krig 是计算机成像学、计算机视觉和图形可视化方面的先驱。他在1988 年成立了Krig Research 公司,该公司提供了基于高性能工程工作站、超级计算机和专有硬件的成像和视觉系统,并为来自全球25 个国家的客户提供服务。
近年来,Scott 主要为大型公司和服务于商业市场的初创公司提供服务,帮助它们解决计算机视觉、图形成像、可视化、机器人、过程控制、工业自动化以及成像学和机器视觉在电子消费品(如笔记本电脑、手机和平板电脑)方面的应用问题。
Scott 也是全球范围的许多专利应用的发明人,并在斯坦福大学做过研究。
主要译者简介
刘波,副教授(博士),重庆工商大学计算机科学与信息工程学院教师,主要从…
查看完整
Scott Krig 是计算机成像学、计算机视觉和图形可视化方面的先驱。他在1988 年成立了Krig Research 公司,该公司提供了基于高性能工程工作站、超级计算机和专有硬件的成像和视觉系统,并为来自全球25 个国家的客户提供服务。
近年来,Scott 主要为大型公司和服务于商业市场的初创公司提供服务,帮助它们解决计算机视觉、图形成像、可视化、机器人、过程控制、工业自动化以及成像学和机器视觉在电子消费品(如笔记本电脑、手机和平板电脑)方面的应用问题。
Scott 也是全球范围的许多专利应用的发明人,并在斯坦福大学做过研究。
主要译者简介
刘波,副教授(博士),重庆工商大学计算机科学与信息工程学院教师,主要从…
查看完整
《计算机视觉度量 从特征描述到深度学习》全面介绍了计算机视觉中被广泛使用的各种方法,包括局部特征描述子、区域描述子、全局特征描述子以及评价这些内容的度量方法和分类方法,并用将近一半的篇幅重点介绍了基于深度学习的特征学习方法,以及FNN、RNN和BFN三类深度学习架构的特点。
《计算机视觉度量 从特征描述到深度学习》内容丰富、前沿,强调理论分析,旨在探讨各种计算机视觉研究方法背后的技术和原理,同时也探讨了深度学习与神经科学之间的关系,展望了未来深度神经网络的发展方向。
《计算机视觉度量 从特征描述到深度学习》用专门一章讲解了计算机视觉流程和算法的优化,通过汽车识别、人脸检测、图像分类和增强现实等实例具体探讨了硬件优化和软件优化的方法。
《计算机视觉度量 从特征描述到深度学习》每章末尾都配有相应的思考题,附…
查看完整
《计算机视觉度量 从特征描述到深度学习》内容丰富、前沿,强调理论分析,旨在探讨各种计算机视觉研究方法背后的技术和原理,同时也探讨了深度学习与神经科学之间的关系,展望了未来深度神经网络的发展方向。
《计算机视觉度量 从特征描述到深度学习》用专门一章讲解了计算机视觉流程和算法的优化,通过汽车识别、人脸检测、图像分类和增强现实等实例具体探讨了硬件优化和软件优化的方法。
《计算机视觉度量 从特征描述到深度学习》每章末尾都配有相应的思考题,附…
查看完整
第 1章 图像的获取和表示1
1.1 图像传感器技术 1
1.1.1 传感器材料 2
1.1.2 传感器光电二极管元件 3
1.1.3 传感器配置:马赛克、Foveon和BSI 3
1.1.4 动态范围、噪声和超分辨率 4
1.1.5 传感器处理 5
1.1.6 去马赛克 5
1.1.7 坏像素校正 5
1.1.8 色彩和光照校正 6
1.1.9 几何校正 6
1.2 照相机和计算成像 6
1.2.1 计算成像概述 7
1.2.2 单像素可计算相机 7
1.2.3 二维可计算照相机 8
1.2.4 三维深度的照相机系统 9
1.3 三维深度处理 18
1.3.1 方法概述 18
1.3.2 深度感知和处理中存在的问题 18
1.3.3 单目深度处理 23
1.4 三维表示:体元、深度图、网格和点云 26
1.5 总结 27
1.6 习题 27
第 2章 图像预处理 29
2.1 图像处理概述 29
2.2 图像预处理要解决的问题 29
2.2.1 计算机视觉的流程和图像预处理 30
2.2.2 图像校正 31
2.2.3 图像增强 31
2.2.4 为特征提取准备图像 32
2.3 图像处理方法分类 36
2.3.1 点运算 36
2.3.2 直线运算 36
2.3.3 区域运算 37
2.3.4 算法 37
2.3.5 数据转换 37
2.4 色彩学 37
2.4.1 色彩管理系统概述 38
2.4.2 光源、白点、黑点和中性轴 38
2.4.3 设备颜色模型 39
2.4.4 色彩空间与色彩感知 39
2.4.5 色域映射与渲染的目标 40
2.4.6 色彩增强的实际考虑 41
2.4.7 色彩的准确度与精度 41
2.5 空间滤波 41
2.5.1 卷积滤波与检测 41
2.5.2 核滤波与形状选择 43
2.5.3 点滤波 44
2.5.4 噪声与伪像滤波 45
2.5.5 积分图与方框滤波器 46
2.6 边缘检测器 46
2.6.1 核集合 47
2.6.2 Canny检测器 48
2.7 变换滤波、Fourier变换及其他 48
2.7.1 Fourier变换 48
2.7.2 其他变换 50
2.8 形态学与分割 51
2.8.1 二值形态学 51
2.8.2 灰度和彩色形态学 52
2.8.3 形态学优化和改进 53
2.8.4 欧氏距离映射 53
2.8.5 超像素分割 53
2.8.6 深度图分割 54
2.8.7 色彩分割 55
2.9 阈值化 55
2.9.1 全局阈值化 56
2.9.2 局部阈值化 59
2.10 总结 60
2.11 习题 60
第3章 全局特征和区域特征 63
3.1 视觉特征的历史概述 63
3.1.1 全局度量、区域度量和局部度量的核心思想 64
3.1.2 纹理分析 65
3.1.3 统计方法 68
3.2 纹理区域度量 68
3.2.1 边缘度量 69
3.2.2 互相关性和自相关性 70
3.2.3 Fourier谱、小波和基签名 71
3.2.4 共生矩阵、Haralick特征 71
3.2.5 Laws纹理度量 78
3.2.6 LBP局部二值模式 79
3.2.7 动态纹理 80
3.3 统计区域度量 81
3.3.1 图像矩特征 81
3.3.2 点度量特征 81
3.3.3 全局直方图 83
3.3.4 局部区域直方图 83
3.3.5 散点图、3D直方图 84
3.3.6 多分辨率、多尺度直方图 85
3.3.7 径向直方图 87
3.3.8 轮廓或边缘直方图 87
3.4 基空间度量 88
3.4.1 Fourier描述 90
3.4.2 Walsh-Hadamard变换 90
3.4.3 HAAR变换 91
3.4.4 斜变换 91
3.4.5 Zernike多项式 91
3.4.6 导向滤波器 92
3.4.7 Karhunen-Loeve变换与Hotelling变换 93
3.4.8 小波变换和Gabor滤波器 93
3.4.9 Hough变换与Radon变换 95
3.5 总结 96
3.6 习题 96
第4章 局部特征设计 97
4.1 局部特征 97
4.1.1 检测器、兴趣点、关键点、锚点和特征点 98
4.1.2 描述子、特征描述和特征提取 98
4.1.3 稀疏局部模式方法 98
4.2 局部特征属性 99
4.2.1 选择特征描述子和兴趣点 99
4.2.2 特征描述子和特征匹配 99
4.2.3 好特征的标准 99
4.2.4 可重复性,困难和容易的查找 101
4.2.5 判别性与非判别性 101
4.2.6 相对位置和绝对位置 101
4.2.7 匹配代价和一致性 101
4.3 距离函数 102
4.3.1 距离函数的早期工作 102
4.3.2 欧氏或笛卡儿距离度量 103
4.3.3 网格距离度量 104
4.3.4 基于统计学的差异性度量 105
4.3.5 二值或布尔距离度量 106
4.4 描述子的表示 107
4.4.1 坐标空间和复合空间 107
4.4.2 笛卡儿坐标 107
4.4.3 极坐标和对数极坐标 107
4.4.4 径向坐标 107
4.4.5 球面坐标 108
4.4.6 Gauge坐标 108
4.4.7 多元空间和多模数据 108
4.4.8 特征金字塔 109
4.5 描述子的密度 109
4.5.1 丢弃兴趣点和描述子 109
4.5.2 稠密与稀疏特征描述 110
4.6 描述子形状 110
4.6.1 关联性模板 111
4.6.2 块和形状 111
4.6.3 对象多边形 113
4.7 局部二值描述子与点对模式 113
4.7.1 FREAK视网膜模式 114
4.7.2 BRISK模式 115
4.7.3 ORB和BRIEF模式 116
4.8 描述子的判别性 116
4.8.1 谱的判别性 117
4.8.2 区域、形状和模式的判别性 118
4.8.3 几何判别因素 118
4.8.4 通过特征可视化来评价判别性 119
4.8.5 精度与可跟踪性 121
4.8.6 精度优化、子区域重叠、Gaussian加权和池化 122
4.8.7 亚像素精度 123
4.9 搜索策略与优化 123
4.9.1 密集搜索 124
4.9.2 网格搜索 124
4.9.3 多尺度金字塔搜索 124
4.9.4 尺度空间和图像金字塔 125
4.9.5 特征金字塔 126
4.9.6 稀疏预测搜索与跟踪 127
4.9.7 跟踪区域限制搜寻 127
4.9.8 分割限制搜索 127
4.9.9 深度或Z限制搜索 127
4.10 计算机视觉、模型和结构 128
4.10.1 特征空间 128
4.10.2 对象模型 129
4.10.3 约束 130
4.10.4 选择检测器和特征 131
4.10.5 训练概述 131
4.10.6 特征和对象的分类 132
4.10.7 特征学习、稀疏编码和卷积网络 136
4.11 总结 139
4.12 习题 139
第5章 特征描述属性的分类 141
5.1 一般的鲁棒性分类 143
5.2 一般的视觉度量分类 146
5.3 特征度量评估 155
5.3.1 SIFT的示例 156
5.3.2 LBP的示例 156
5.3.3 形状因子的示例 157
5.4 总结 158
5.5 习题 158
第6章 兴趣点检测与特征描述子 159
6.1 兴趣点调整 159
6.2 兴趣点的概念 160
6.3 兴趣点方法概述 162
6.3.1 Laplacian和LoG 163
6.3.2 Moravac角点检测器 163
6.3.3 Harris方法、Harris-Stephens、Shi-Tomasi和Hessian类型的检测器 163
6.3.4 Hessian矩阵检测器和Hessian-Laplace 164
6.3.5 Gaussian差 164
6.3.6 显著性区域 164
6.3.7 SUSAN、Trajkovic-Hedly 165
6.3.8 FAST 165
6.3.9 局部曲率方法 166
6.3.10 形态兴趣区域 167
6.4 特征描述简介 167
6.4.1 局部二值描述子 168
6.4.2 Census 173
6.4.3 改进的Census变换 174
6.4.4 BRIEF 174
6.4.5 ORB 175
6.4.6 BRISK 176
6.4.7 FREAK 176
6.5 谱描述子 177
6.5.1 SIFT 177
6.5.2 SIFT-PCA 181
6.5.3 SIFT-GLOH 181
6.5.4 SIFT-SIFER 182
6.5.5 SIFT CS-LBP 182
6.5.6 ROOTSIFT 183
6.5.7 CenSurE和STAR 183
6.5.8 相关模板 185
6.5.9 HAAR特征 186
6.5.10 使用类HAAR特征的Viola和Jones算法 187
6.5.11 SURF 187
6.5.12 改进的SURF算法 189
6.5.13 梯度直方图(HOG)及改进方法 189
6.5.14 PHOG和相关方法 190
6.5.15 Daisy和O-Daisy 191
6.5.16 CARD 193
6.5.17 具有鲁棒性的快速特征匹配 194
6.5.18 RIFF和CHOG 195
6.5.19 链码直方图 196
6.5.20 D-NETS 196
6.5.21 局部梯度模式 197
6.5.22 局部相位量化 198
6.6 基空间描述子 198
6.6.1 Fourier描述子 199
6.6.2 用其他基函数来构建描述子 200
6.6.3 稀疏编码方法 200
6.7 多边形形状描述 200
6.7.1 MSER方法 201
6.7.2 针对斑点和多边形的目标形状度量 202
6.7.3 形状上下文 204
6.8 3D和4D描述子 205
6.8.1 3D HOG 206
6.8.2 HON 4D 206
6.8.3 3D SIFT 207
6.9 总结 208
6.10 习题 208
第7章 基准数据、内容、度量和分析 210
7.1 基准数据 210
7.2 先前关于基准数据方面的工作:艺术与科学 212
7.2.1 质量的一般度量 212
7.2.2 算法性能的度量 212
7.2.3 Rosin关于角点方面的工作 213
7.3 构造基准数据的关键问题 214
7.3.1 内容:采用、修改或创建 214
7.3.2 可用的基准数据集 215
7.3.3 拟合基准数据的算法 215
7.3.4 场景构成和标注 216
7.4 定义目标和预期 218
7.4.1 Mikolajczyk和Schmid的方法 218
7.4.2 开放式评价系统 219
7.4.3 极端情况和限制 219
7.4.4 兴趣点和特征 219
7.5 基准数据的鲁棒性准则 220
7.5.1 举例说明鲁棒性标准 220
7.5.2 将鲁棒性标准用于实际应用 221
7.6 度量与基准数据配对 222
7.6.1 兴趣点、特征和基准数据的配对和优化 222
7.6.2 一般的视觉分类例子 223
7.7 合成的特征字母表 224
7.7.1 合成数据集的目标 224
7.7.2 合成兴趣点字母表 226
7.7.3 将合成字母表叠加到真实图像上 228
7.8 总结 229
7.9 习题 230
第8章 可视流程及优化 231
8.1 阶段、操作和资源 231
8.2 计算资源预算 233
8.2.1 计算单元、ALU和加速器 234
8.2.2 能耗的使用 235
8.2.3 内存的利用 235
8.2.4 I O性能 238
8.3 计算机视觉流程的实例 238
8.3.1 汽车识别 239
8.3.2 人脸检测、情感识别和年龄识别 244
8.3.3 图像分类 250
8.3.4 增强现实 254
8.4 可选的加速方案 258
8.4.1 内存优化 258
8.4.2 粗粒度并行 260
8.4.3 细粒度数据并行 261
8.4.4 高级指令集和加速器 263
8.5 视觉算法的优化与调整 263
8.5.1 编译器优化与手工优化 264
8.5.2 特征描述子改进、检测器和距离函数 265
8.5.3 Boxlets与卷积加速 265
8.5.4 数据类型优化(整数与浮点) 265
8.6 优化资源 266
8.7 总结 266
第9章 特征学习的架构分类和神经科学背景 267
9.1 计算机视觉中的神经科学思想 268
9.2 特征生成与特征学习 269
9.3 计算机视觉中所使用的神经科学术语 269
9.4 特征学习的分类 274
9.4.1 卷积特征权重学习 275
9.4.2 局部特征描述子学习 275
9.4.3 基本特征的组合和字典学习 275
9.4.4 特征学习方法总结 276
9.5 计算机视觉中的机器学习模型 276
9.5.1 专家系统 277
9.5.2 统计和数学分析方法 278
9.5.3 受神经科学启发的方法 278
9.5.4 深度学习 278
9.6 机器学习和特征学习的历史 280
9.6.1 历史回顾:20世纪40年代至21世纪初 280
9.6.2 人工神经网络(ANN)分类 284
9.7 特征学习概述 285
9.7.1 通过学习得到的各类描述子 285
9.7.2 层次特征学习 285
9.7.3 要学习多少特征 286
9.7.4 深度神经网络的优势 286
9.7.5 特征编码的有效性 286
9.7.6 手工设计的特征与深度学习 287
9.7.7 特征学习的不变性和鲁棒性 288
9.7.8 最好的特征和学习架构 288
9.7.9 大数据、分析和计算机视觉的统一 289
9.7.10 关键技术的推动因素 291
9.8 神经科学的概念 292
9.8.1 生物学及其整体结构 293
9.8.2 难以找到统一的学习理论 294
9.8.3 人类视觉系统的架构 295
9.9 特征学习的结构分类 299
9.9.1 架构拓扑 301
9.9.2 架构组件和层 302
9.10 总结 313
9.11 习题 313
第 10章 特征学习和深度学习架构概述 315
10.1 架构概述 315
10.1.1 FNN架构简介 316
10.1.2 RNN的结构简介 372
10.1.3 BFN的结构简介 395
10.2 集成方法 427
10.3 深度神经网络的未来 429
10.3.1 增加最大深度—深度残差学习 429
10.3.2 使用更简单的MLP来近似复杂模型(模型压缩) 430
10.3.3 分类器的分解与重组 431
10.4 总结 432
10.5 习题 432
附录A 合成特征分析 435
附录B 基准数据集概述 464
附录C 成像和计算机视觉资源 470
附录D 扩展SDM准则 474
附录E 视觉基因组模型(VGM) 487
参考文献 508
译后记 541
^ 收 起
1.1 图像传感器技术 1
1.1.1 传感器材料 2
1.1.2 传感器光电二极管元件 3
1.1.3 传感器配置:马赛克、Foveon和BSI 3
1.1.4 动态范围、噪声和超分辨率 4
1.1.5 传感器处理 5
1.1.6 去马赛克 5
1.1.7 坏像素校正 5
1.1.8 色彩和光照校正 6
1.1.9 几何校正 6
1.2 照相机和计算成像 6
1.2.1 计算成像概述 7
1.2.2 单像素可计算相机 7
1.2.3 二维可计算照相机 8
1.2.4 三维深度的照相机系统 9
1.3 三维深度处理 18
1.3.1 方法概述 18
1.3.2 深度感知和处理中存在的问题 18
1.3.3 单目深度处理 23
1.4 三维表示:体元、深度图、网格和点云 26
1.5 总结 27
1.6 习题 27
第 2章 图像预处理 29
2.1 图像处理概述 29
2.2 图像预处理要解决的问题 29
2.2.1 计算机视觉的流程和图像预处理 30
2.2.2 图像校正 31
2.2.3 图像增强 31
2.2.4 为特征提取准备图像 32
2.3 图像处理方法分类 36
2.3.1 点运算 36
2.3.2 直线运算 36
2.3.3 区域运算 37
2.3.4 算法 37
2.3.5 数据转换 37
2.4 色彩学 37
2.4.1 色彩管理系统概述 38
2.4.2 光源、白点、黑点和中性轴 38
2.4.3 设备颜色模型 39
2.4.4 色彩空间与色彩感知 39
2.4.5 色域映射与渲染的目标 40
2.4.6 色彩增强的实际考虑 41
2.4.7 色彩的准确度与精度 41
2.5 空间滤波 41
2.5.1 卷积滤波与检测 41
2.5.2 核滤波与形状选择 43
2.5.3 点滤波 44
2.5.4 噪声与伪像滤波 45
2.5.5 积分图与方框滤波器 46
2.6 边缘检测器 46
2.6.1 核集合 47
2.6.2 Canny检测器 48
2.7 变换滤波、Fourier变换及其他 48
2.7.1 Fourier变换 48
2.7.2 其他变换 50
2.8 形态学与分割 51
2.8.1 二值形态学 51
2.8.2 灰度和彩色形态学 52
2.8.3 形态学优化和改进 53
2.8.4 欧氏距离映射 53
2.8.5 超像素分割 53
2.8.6 深度图分割 54
2.8.7 色彩分割 55
2.9 阈值化 55
2.9.1 全局阈值化 56
2.9.2 局部阈值化 59
2.10 总结 60
2.11 习题 60
第3章 全局特征和区域特征 63
3.1 视觉特征的历史概述 63
3.1.1 全局度量、区域度量和局部度量的核心思想 64
3.1.2 纹理分析 65
3.1.3 统计方法 68
3.2 纹理区域度量 68
3.2.1 边缘度量 69
3.2.2 互相关性和自相关性 70
3.2.3 Fourier谱、小波和基签名 71
3.2.4 共生矩阵、Haralick特征 71
3.2.5 Laws纹理度量 78
3.2.6 LBP局部二值模式 79
3.2.7 动态纹理 80
3.3 统计区域度量 81
3.3.1 图像矩特征 81
3.3.2 点度量特征 81
3.3.3 全局直方图 83
3.3.4 局部区域直方图 83
3.3.5 散点图、3D直方图 84
3.3.6 多分辨率、多尺度直方图 85
3.3.7 径向直方图 87
3.3.8 轮廓或边缘直方图 87
3.4 基空间度量 88
3.4.1 Fourier描述 90
3.4.2 Walsh-Hadamard变换 90
3.4.3 HAAR变换 91
3.4.4 斜变换 91
3.4.5 Zernike多项式 91
3.4.6 导向滤波器 92
3.4.7 Karhunen-Loeve变换与Hotelling变换 93
3.4.8 小波变换和Gabor滤波器 93
3.4.9 Hough变换与Radon变换 95
3.5 总结 96
3.6 习题 96
第4章 局部特征设计 97
4.1 局部特征 97
4.1.1 检测器、兴趣点、关键点、锚点和特征点 98
4.1.2 描述子、特征描述和特征提取 98
4.1.3 稀疏局部模式方法 98
4.2 局部特征属性 99
4.2.1 选择特征描述子和兴趣点 99
4.2.2 特征描述子和特征匹配 99
4.2.3 好特征的标准 99
4.2.4 可重复性,困难和容易的查找 101
4.2.5 判别性与非判别性 101
4.2.6 相对位置和绝对位置 101
4.2.7 匹配代价和一致性 101
4.3 距离函数 102
4.3.1 距离函数的早期工作 102
4.3.2 欧氏或笛卡儿距离度量 103
4.3.3 网格距离度量 104
4.3.4 基于统计学的差异性度量 105
4.3.5 二值或布尔距离度量 106
4.4 描述子的表示 107
4.4.1 坐标空间和复合空间 107
4.4.2 笛卡儿坐标 107
4.4.3 极坐标和对数极坐标 107
4.4.4 径向坐标 107
4.4.5 球面坐标 108
4.4.6 Gauge坐标 108
4.4.7 多元空间和多模数据 108
4.4.8 特征金字塔 109
4.5 描述子的密度 109
4.5.1 丢弃兴趣点和描述子 109
4.5.2 稠密与稀疏特征描述 110
4.6 描述子形状 110
4.6.1 关联性模板 111
4.6.2 块和形状 111
4.6.3 对象多边形 113
4.7 局部二值描述子与点对模式 113
4.7.1 FREAK视网膜模式 114
4.7.2 BRISK模式 115
4.7.3 ORB和BRIEF模式 116
4.8 描述子的判别性 116
4.8.1 谱的判别性 117
4.8.2 区域、形状和模式的判别性 118
4.8.3 几何判别因素 118
4.8.4 通过特征可视化来评价判别性 119
4.8.5 精度与可跟踪性 121
4.8.6 精度优化、子区域重叠、Gaussian加权和池化 122
4.8.7 亚像素精度 123
4.9 搜索策略与优化 123
4.9.1 密集搜索 124
4.9.2 网格搜索 124
4.9.3 多尺度金字塔搜索 124
4.9.4 尺度空间和图像金字塔 125
4.9.5 特征金字塔 126
4.9.6 稀疏预测搜索与跟踪 127
4.9.7 跟踪区域限制搜寻 127
4.9.8 分割限制搜索 127
4.9.9 深度或Z限制搜索 127
4.10 计算机视觉、模型和结构 128
4.10.1 特征空间 128
4.10.2 对象模型 129
4.10.3 约束 130
4.10.4 选择检测器和特征 131
4.10.5 训练概述 131
4.10.6 特征和对象的分类 132
4.10.7 特征学习、稀疏编码和卷积网络 136
4.11 总结 139
4.12 习题 139
第5章 特征描述属性的分类 141
5.1 一般的鲁棒性分类 143
5.2 一般的视觉度量分类 146
5.3 特征度量评估 155
5.3.1 SIFT的示例 156
5.3.2 LBP的示例 156
5.3.3 形状因子的示例 157
5.4 总结 158
5.5 习题 158
第6章 兴趣点检测与特征描述子 159
6.1 兴趣点调整 159
6.2 兴趣点的概念 160
6.3 兴趣点方法概述 162
6.3.1 Laplacian和LoG 163
6.3.2 Moravac角点检测器 163
6.3.3 Harris方法、Harris-Stephens、Shi-Tomasi和Hessian类型的检测器 163
6.3.4 Hessian矩阵检测器和Hessian-Laplace 164
6.3.5 Gaussian差 164
6.3.6 显著性区域 164
6.3.7 SUSAN、Trajkovic-Hedly 165
6.3.8 FAST 165
6.3.9 局部曲率方法 166
6.3.10 形态兴趣区域 167
6.4 特征描述简介 167
6.4.1 局部二值描述子 168
6.4.2 Census 173
6.4.3 改进的Census变换 174
6.4.4 BRIEF 174
6.4.5 ORB 175
6.4.6 BRISK 176
6.4.7 FREAK 176
6.5 谱描述子 177
6.5.1 SIFT 177
6.5.2 SIFT-PCA 181
6.5.3 SIFT-GLOH 181
6.5.4 SIFT-SIFER 182
6.5.5 SIFT CS-LBP 182
6.5.6 ROOTSIFT 183
6.5.7 CenSurE和STAR 183
6.5.8 相关模板 185
6.5.9 HAAR特征 186
6.5.10 使用类HAAR特征的Viola和Jones算法 187
6.5.11 SURF 187
6.5.12 改进的SURF算法 189
6.5.13 梯度直方图(HOG)及改进方法 189
6.5.14 PHOG和相关方法 190
6.5.15 Daisy和O-Daisy 191
6.5.16 CARD 193
6.5.17 具有鲁棒性的快速特征匹配 194
6.5.18 RIFF和CHOG 195
6.5.19 链码直方图 196
6.5.20 D-NETS 196
6.5.21 局部梯度模式 197
6.5.22 局部相位量化 198
6.6 基空间描述子 198
6.6.1 Fourier描述子 199
6.6.2 用其他基函数来构建描述子 200
6.6.3 稀疏编码方法 200
6.7 多边形形状描述 200
6.7.1 MSER方法 201
6.7.2 针对斑点和多边形的目标形状度量 202
6.7.3 形状上下文 204
6.8 3D和4D描述子 205
6.8.1 3D HOG 206
6.8.2 HON 4D 206
6.8.3 3D SIFT 207
6.9 总结 208
6.10 习题 208
第7章 基准数据、内容、度量和分析 210
7.1 基准数据 210
7.2 先前关于基准数据方面的工作:艺术与科学 212
7.2.1 质量的一般度量 212
7.2.2 算法性能的度量 212
7.2.3 Rosin关于角点方面的工作 213
7.3 构造基准数据的关键问题 214
7.3.1 内容:采用、修改或创建 214
7.3.2 可用的基准数据集 215
7.3.3 拟合基准数据的算法 215
7.3.4 场景构成和标注 216
7.4 定义目标和预期 218
7.4.1 Mikolajczyk和Schmid的方法 218
7.4.2 开放式评价系统 219
7.4.3 极端情况和限制 219
7.4.4 兴趣点和特征 219
7.5 基准数据的鲁棒性准则 220
7.5.1 举例说明鲁棒性标准 220
7.5.2 将鲁棒性标准用于实际应用 221
7.6 度量与基准数据配对 222
7.6.1 兴趣点、特征和基准数据的配对和优化 222
7.6.2 一般的视觉分类例子 223
7.7 合成的特征字母表 224
7.7.1 合成数据集的目标 224
7.7.2 合成兴趣点字母表 226
7.7.3 将合成字母表叠加到真实图像上 228
7.8 总结 229
7.9 习题 230
第8章 可视流程及优化 231
8.1 阶段、操作和资源 231
8.2 计算资源预算 233
8.2.1 计算单元、ALU和加速器 234
8.2.2 能耗的使用 235
8.2.3 内存的利用 235
8.2.4 I O性能 238
8.3 计算机视觉流程的实例 238
8.3.1 汽车识别 239
8.3.2 人脸检测、情感识别和年龄识别 244
8.3.3 图像分类 250
8.3.4 增强现实 254
8.4 可选的加速方案 258
8.4.1 内存优化 258
8.4.2 粗粒度并行 260
8.4.3 细粒度数据并行 261
8.4.4 高级指令集和加速器 263
8.5 视觉算法的优化与调整 263
8.5.1 编译器优化与手工优化 264
8.5.2 特征描述子改进、检测器和距离函数 265
8.5.3 Boxlets与卷积加速 265
8.5.4 数据类型优化(整数与浮点) 265
8.6 优化资源 266
8.7 总结 266
第9章 特征学习的架构分类和神经科学背景 267
9.1 计算机视觉中的神经科学思想 268
9.2 特征生成与特征学习 269
9.3 计算机视觉中所使用的神经科学术语 269
9.4 特征学习的分类 274
9.4.1 卷积特征权重学习 275
9.4.2 局部特征描述子学习 275
9.4.3 基本特征的组合和字典学习 275
9.4.4 特征学习方法总结 276
9.5 计算机视觉中的机器学习模型 276
9.5.1 专家系统 277
9.5.2 统计和数学分析方法 278
9.5.3 受神经科学启发的方法 278
9.5.4 深度学习 278
9.6 机器学习和特征学习的历史 280
9.6.1 历史回顾:20世纪40年代至21世纪初 280
9.6.2 人工神经网络(ANN)分类 284
9.7 特征学习概述 285
9.7.1 通过学习得到的各类描述子 285
9.7.2 层次特征学习 285
9.7.3 要学习多少特征 286
9.7.4 深度神经网络的优势 286
9.7.5 特征编码的有效性 286
9.7.6 手工设计的特征与深度学习 287
9.7.7 特征学习的不变性和鲁棒性 288
9.7.8 最好的特征和学习架构 288
9.7.9 大数据、分析和计算机视觉的统一 289
9.7.10 关键技术的推动因素 291
9.8 神经科学的概念 292
9.8.1 生物学及其整体结构 293
9.8.2 难以找到统一的学习理论 294
9.8.3 人类视觉系统的架构 295
9.9 特征学习的结构分类 299
9.9.1 架构拓扑 301
9.9.2 架构组件和层 302
9.10 总结 313
9.11 习题 313
第 10章 特征学习和深度学习架构概述 315
10.1 架构概述 315
10.1.1 FNN架构简介 316
10.1.2 RNN的结构简介 372
10.1.3 BFN的结构简介 395
10.2 集成方法 427
10.3 深度神经网络的未来 429
10.3.1 增加最大深度—深度残差学习 429
10.3.2 使用更简单的MLP来近似复杂模型(模型压缩) 430
10.3.3 分类器的分解与重组 431
10.4 总结 432
10.5 习题 432
附录A 合成特征分析 435
附录B 基准数据集概述 464
附录C 成像和计算机视觉资源 470
附录D 扩展SDM准则 474
附录E 视觉基因组模型(VGM) 487
参考文献 508
译后记 541
^ 收 起
作者简介
Scott Krig 是计算机成像学、计算机视觉和图形可视化方面的先驱。他在1988 年成立了Krig Research 公司,该公司提供了基于高性能工程工作站、超级计算机和专有硬件的成像和视觉系统,并为来自全球25 个国家的客户提供服务。
近年来,Scott 主要为大型公司和服务于商业市场的初创公司提供服务,帮助它们解决计算机视觉、图形成像、可视化、机器人、过程控制、工业自动化以及成像学和机器视觉在电子消费品(如笔记本电脑、手机和平板电脑)方面的应用问题。
Scott 也是全球范围的许多专利应用的发明人,并在斯坦福大学做过研究。
主要译者简介
刘波,副教授(博士),重庆工商大学计算机科学与信息工程学院教师,主要从事机器学习理论、计算机视觉技术研究,同时爱好Hadoop 和Spark 平台上的大数据分析。
^ 收 起
Scott Krig 是计算机成像学、计算机视觉和图形可视化方面的先驱。他在1988 年成立了Krig Research 公司,该公司提供了基于高性能工程工作站、超级计算机和专有硬件的成像和视觉系统,并为来自全球25 个国家的客户提供服务。
近年来,Scott 主要为大型公司和服务于商业市场的初创公司提供服务,帮助它们解决计算机视觉、图形成像、可视化、机器人、过程控制、工业自动化以及成像学和机器视觉在电子消费品(如笔记本电脑、手机和平板电脑)方面的应用问题。
Scott 也是全球范围的许多专利应用的发明人,并在斯坦福大学做过研究。
主要译者简介
刘波,副教授(博士),重庆工商大学计算机科学与信息工程学院教师,主要从事机器学习理论、计算机视觉技术研究,同时爱好Hadoop 和Spark 平台上的大数据分析。
^ 收 起
《计算机视觉度量 从特征描述到深度学习》全面介绍了计算机视觉中被广泛使用的各种方法,包括局部特征描述子、区域描述子、全局特征描述子以及评价这些内容的度量方法和分类方法,并用将近一半的篇幅重点介绍了基于深度学习的特征学习方法,以及FNN、RNN和BFN三类深度学习架构的特点。
《计算机视觉度量 从特征描述到深度学习》内容丰富、前沿,强调理论分析,旨在探讨各种计算机视觉研究方法背后的技术和原理,同时也探讨了深度学习与神经科学之间的关系,展望了未来深度神经网络的发展方向。
《计算机视觉度量 从特征描述到深度学习》用专门一章讲解了计算机视觉流程和算法的优化,通过汽车识别、人脸检测、图像分类和增强现实等实例具体探讨了硬件优化和软件优化的方法。
《计算机视觉度量 从特征描述到深度学习》每章末尾都配有相应的思考题,附录给出了许多有效的实践资源和一些有用的分析,同时提供了源代码,既适合高校计算机视觉课程的教学,也适合从事计算机视觉的研究人员和工程技术人员参考使用。
^ 收 起
《计算机视觉度量 从特征描述到深度学习》内容丰富、前沿,强调理论分析,旨在探讨各种计算机视觉研究方法背后的技术和原理,同时也探讨了深度学习与神经科学之间的关系,展望了未来深度神经网络的发展方向。
《计算机视觉度量 从特征描述到深度学习》用专门一章讲解了计算机视觉流程和算法的优化,通过汽车识别、人脸检测、图像分类和增强现实等实例具体探讨了硬件优化和软件优化的方法。
《计算机视觉度量 从特征描述到深度学习》每章末尾都配有相应的思考题,附录给出了许多有效的实践资源和一些有用的分析,同时提供了源代码,既适合高校计算机视觉课程的教学,也适合从事计算机视觉的研究人员和工程技术人员参考使用。
^ 收 起
比价列表
1人想要
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠