智能语音处理
前言
第1章 智能语音处理导论1
11 概述1
12 经典语音处理2
121 语音处理的发展2
122 语音基本表示方法3
123 语音处理基本方法3
124 经典语音处理方法的不足4
13 智能语音处理5
131 智能语音处理的基本概念5
查看完整
第1章 智能语音处理导论1
11 概述1
12 经典语音处理2
121 语音处理的发展2
122 语音基本表示方法3
123 语音处理基本方法3
124 经典语音处理方法的不足4
13 智能语音处理5
131 智能语音处理的基本概念5
查看完整
本书从智能化社会对语音处理提出的新要求出发,系统地介绍了智能语音处理涉及的基础理论、基本技术、主要方法以及典型的智能语音处理应用,理论与实际紧密结合,适合作为高等院校人工智能、电子信息工程、物联网工程、数据科学与大数据技术、通信工程等专业高年级本科生以及智能科学与技术、信号与信息处理、网络空间安全、通信与信息系统等学科研究生的参考教材,也可供从事语音处理技术研究与应用的科研及工程技术人员参考。
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型…
查看完整
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型…
查看完整
前言
第1章 智能语音处理导论1
11 概述1
12 经典语音处理2
121 语音处理的发展2
122 语音基本表示方法3
123 语音处理基本方法3
124 经典语音处理方法的不足4
13 智能语音处理5
131 智能语音处理的基本概念5
132 智能语音处理的基本框架5
133 智能语音处理的基本模型6
14 语音处理的应用7
141 语音处理的传统应用领域8
142 语音处理的新应用领域11
15 小结14
参考文献14
第2章 稀疏和压缩感知15
21 引言15
22 稀疏和稀疏表示16
221 稀疏16
222 稀疏表示18
23 冗余字典19
231 基本概念19
232 字典学习20
233 字典学习算法22
234 原子选择算法25
24 压缩感知27
241 基本概念27
242 压缩感知模型29
243 观测矩阵30
244 信号重构32
25 小结33
参考文献33
第3章 隐变量模型36
31 引言36
32 高斯混合模型36
321 基本概念37
322 GMM参数估计37
33 隐马尔可夫模型39
331 基本概念39
332 HMM关键问题42
34 高斯过程隐变量模型48
341 基本模型48
342 GPLVM的理论来源49
343 GPLVM模型训练50
35 小结51
参考文献51
第4章 组合模型52
41 引言52
42 主成分分析53
421 基本模型53
422 求解算法54
43 非负矩阵分解56
431 基本模型56
432 求解算法57
433 NMF与其他数据表示模型的关系58
44 鲁棒组合模型60
441 组合模型的鲁棒性分析61
442 鲁棒主成分分析61
443 鲁棒非负矩阵分解63
45 小结64
参考文献64
第5章 人工神经网络和深度学习65
51 引言65
52 神经网络基础66
521 神经元模型66
522 浅层神经网络67
523 深度神经网络68
53 深度学习69
531 基本概念和形式69
532 深度网络的学习方法70
54 深度神经网络的典型结构71
541 深度置信网络71
542 自动编码器与栈式自动编码器72
543 卷积神经网络74
544 循环神经网络75
545 生成式对抗网络77
55 小结79
参考文献79
第6章 语音压缩编码81
61 引言81
62 基于字典学习的语音信号压缩感知82
621 语音信号的稀疏性82
622 语音在常见变换域的稀疏化83
623 基于K-L展开的语音非相干字典84
624 基于K-L非相干字典的语音压缩重构87
625 实验仿真与性能分析88
63 基于梅尔倒谱系数重构的语音压缩编码93
631 基于梅尔倒谱分析的抗噪语音编码模型94
632 基于稀疏约束的梅尔倒谱合成96
633 梅尔倒谱系数的量化算法99
634 实验仿真与性能分析103
64 基于深度学习的语音压缩编码107
641 基于DAE的幅度谱编码和量化107
642 基于DAE的低速率语音编码110
643 实验仿真与性能分析111
65 小结113
参考文献113
第7章 语音增强115
71 引言115
72 语音增强技术基础116
721 语音增强的估计参数116
722 智能语音增强的语音特征117
723 性能评价118
73 基于非负矩阵分解的语音增强120
731 基本模型121
732 基于不相交约束非负矩阵分解的语音增强122
733 基于CNMF字典学习的语音增强127
74 基于深度学习的语音增强136
741 基于听觉感知加权的深度神经网络语音增强方法136
742 基于听觉感知掩蔽的深度神经网络语音增强方法141
75 小结151
参考文献152
第8章 语音转换155
81 引言155
82 语音转换基本原理155
83 语音转换模型与评价156
831 语音分析/合成模型156
832 语音参数的选择157
833 时间对齐157
834 转换模型和规则158
835 转换性能评价159
84 基于非负矩阵分解的谱转换160
841 概述160
842 基于卷积非负矩阵分解的谱转换161
843 声道谱转换效果164
85 基于深度神经网络的谱转换168
851 深度学习驱动下的语音转换168
852 面向谱转换的神经网络模型选择168
853 基于BLSTM和神经网络声码器交替训练的语音转换171
86 小结176
参考文献176
第9章 说话人识别178
91 引言178
92 说话人识别基础179
921 说话人识别系统框架179
922 典型的说话人识别模型180
93 基于i-vector的说话人识别及其改进181
931 基于i-vector的说话人识别概述181
932 用于提高i-vector鲁棒性的帧加权方法182
933 实验结果与分析187
94 基于深度神经网络的说话人识别187
941 基于深度神经网络的说话人识别概述187
942 基于对比度损失函数优化说话人矢量189
943 实验结果与分析191
95 说话人识别系统的攻击与防御192
951 攻击和防御的背景192
952 说话人识别系统的攻击方法192
953 说话人识别攻击的检测方法194
954 实验结果与分析196
96 小结196
参考文献197
第10章 骨导语音增强200
101 引言200
102 骨导语音增强基础201
1021 骨导语音的产生与特性201
1022 骨导语音盲增强的特点202
1023 骨导语音盲增强的典型方法203
103 基于长短时记忆网络的骨导语音盲增强205
1031 骨导/气导语音的谱映射206
1032 基于深度残差BLSTM的骨导语音盲增强方法207
1033 实验仿真及性能分析211
104 基于均衡-生成组合谱映射的骨导语音盲增强215
1041 均衡法215
1042 基于均衡-生成组合谱映射的骨导语音盲增强方法216
1043 实验仿真及性能分析218
105 小结222
参考文献223
第11章 智能语音处理展望224
111 智能语音处理的未来224
112 有待解决的关键技术225
1121 语音识别226
1122 语音合成228
1123 语音增强229
1124 语音处理中的安全问题230
113 小结230
参考文献230
缩略语232
^ 收 起
第1章 智能语音处理导论1
11 概述1
12 经典语音处理2
121 语音处理的发展2
122 语音基本表示方法3
123 语音处理基本方法3
124 经典语音处理方法的不足4
13 智能语音处理5
131 智能语音处理的基本概念5
132 智能语音处理的基本框架5
133 智能语音处理的基本模型6
14 语音处理的应用7
141 语音处理的传统应用领域8
142 语音处理的新应用领域11
15 小结14
参考文献14
第2章 稀疏和压缩感知15
21 引言15
22 稀疏和稀疏表示16
221 稀疏16
222 稀疏表示18
23 冗余字典19
231 基本概念19
232 字典学习20
233 字典学习算法22
234 原子选择算法25
24 压缩感知27
241 基本概念27
242 压缩感知模型29
243 观测矩阵30
244 信号重构32
25 小结33
参考文献33
第3章 隐变量模型36
31 引言36
32 高斯混合模型36
321 基本概念37
322 GMM参数估计37
33 隐马尔可夫模型39
331 基本概念39
332 HMM关键问题42
34 高斯过程隐变量模型48
341 基本模型48
342 GPLVM的理论来源49
343 GPLVM模型训练50
35 小结51
参考文献51
第4章 组合模型52
41 引言52
42 主成分分析53
421 基本模型53
422 求解算法54
43 非负矩阵分解56
431 基本模型56
432 求解算法57
433 NMF与其他数据表示模型的关系58
44 鲁棒组合模型60
441 组合模型的鲁棒性分析61
442 鲁棒主成分分析61
443 鲁棒非负矩阵分解63
45 小结64
参考文献64
第5章 人工神经网络和深度学习65
51 引言65
52 神经网络基础66
521 神经元模型66
522 浅层神经网络67
523 深度神经网络68
53 深度学习69
531 基本概念和形式69
532 深度网络的学习方法70
54 深度神经网络的典型结构71
541 深度置信网络71
542 自动编码器与栈式自动编码器72
543 卷积神经网络74
544 循环神经网络75
545 生成式对抗网络77
55 小结79
参考文献79
第6章 语音压缩编码81
61 引言81
62 基于字典学习的语音信号压缩感知82
621 语音信号的稀疏性82
622 语音在常见变换域的稀疏化83
623 基于K-L展开的语音非相干字典84
624 基于K-L非相干字典的语音压缩重构87
625 实验仿真与性能分析88
63 基于梅尔倒谱系数重构的语音压缩编码93
631 基于梅尔倒谱分析的抗噪语音编码模型94
632 基于稀疏约束的梅尔倒谱合成96
633 梅尔倒谱系数的量化算法99
634 实验仿真与性能分析103
64 基于深度学习的语音压缩编码107
641 基于DAE的幅度谱编码和量化107
642 基于DAE的低速率语音编码110
643 实验仿真与性能分析111
65 小结113
参考文献113
第7章 语音增强115
71 引言115
72 语音增强技术基础116
721 语音增强的估计参数116
722 智能语音增强的语音特征117
723 性能评价118
73 基于非负矩阵分解的语音增强120
731 基本模型121
732 基于不相交约束非负矩阵分解的语音增强122
733 基于CNMF字典学习的语音增强127
74 基于深度学习的语音增强136
741 基于听觉感知加权的深度神经网络语音增强方法136
742 基于听觉感知掩蔽的深度神经网络语音增强方法141
75 小结151
参考文献152
第8章 语音转换155
81 引言155
82 语音转换基本原理155
83 语音转换模型与评价156
831 语音分析/合成模型156
832 语音参数的选择157
833 时间对齐157
834 转换模型和规则158
835 转换性能评价159
84 基于非负矩阵分解的谱转换160
841 概述160
842 基于卷积非负矩阵分解的谱转换161
843 声道谱转换效果164
85 基于深度神经网络的谱转换168
851 深度学习驱动下的语音转换168
852 面向谱转换的神经网络模型选择168
853 基于BLSTM和神经网络声码器交替训练的语音转换171
86 小结176
参考文献176
第9章 说话人识别178
91 引言178
92 说话人识别基础179
921 说话人识别系统框架179
922 典型的说话人识别模型180
93 基于i-vector的说话人识别及其改进181
931 基于i-vector的说话人识别概述181
932 用于提高i-vector鲁棒性的帧加权方法182
933 实验结果与分析187
94 基于深度神经网络的说话人识别187
941 基于深度神经网络的说话人识别概述187
942 基于对比度损失函数优化说话人矢量189
943 实验结果与分析191
95 说话人识别系统的攻击与防御192
951 攻击和防御的背景192
952 说话人识别系统的攻击方法192
953 说话人识别攻击的检测方法194
954 实验结果与分析196
96 小结196
参考文献197
第10章 骨导语音增强200
101 引言200
102 骨导语音增强基础201
1021 骨导语音的产生与特性201
1022 骨导语音盲增强的特点202
1023 骨导语音盲增强的典型方法203
103 基于长短时记忆网络的骨导语音盲增强205
1031 骨导/气导语音的谱映射206
1032 基于深度残差BLSTM的骨导语音盲增强方法207
1033 实验仿真及性能分析211
104 基于均衡-生成组合谱映射的骨导语音盲增强215
1041 均衡法215
1042 基于均衡-生成组合谱映射的骨导语音盲增强方法216
1043 实验仿真及性能分析218
105 小结222
参考文献223
第11章 智能语音处理展望224
111 智能语音处理的未来224
112 有待解决的关键技术225
1121 语音识别226
1122 语音合成228
1123 语音增强229
1124 语音处理中的安全问题230
113 小结230
参考文献230
缩略语232
^ 收 起
本书从智能化社会对语音处理提出的新要求出发,系统地介绍了智能语音处理涉及的基础理论、基本技术、主要方法以及典型的智能语音处理应用,理论与实际紧密结合,适合作为高等院校人工智能、电子信息工程、物联网工程、数据科学与大数据技术、通信工程等专业高年级本科生以及智能科学与技术、信号与信息处理、网络空间安全、通信与信息系统等学科研究生的参考教材,也可供从事语音处理技术研究与应用的科研及工程技术人员参考。
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。
^ 收 起
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。
^ 收 起
比价列表
1人想要
公众号、微信群
缺书网
微信公众号
微信公众号
扫码进群
实时获取购书优惠
实时获取购书优惠