智能语音处理

作者：张雄伟，孙蒙，杨吉斌著
出版：机械工业出版社 2020.9
丛书：智能科学与技术丛书
页数：248
定价：79.00 元
ISBN-13：9787111665328
ISBN-10：7111665325 去豆瓣看看

0 0暂无人评价...

　　前言
　　第1章　智能语音处理导论1
　　11　概述1
　　12　经典语音处理2
　　121　语音处理的发展2
　　122　语音基本表示方法3
　　123　语音处理基本方法3
　　124　经典语音处理方法的不足4
　　13　智能语音处理5
　　131　智能语音处理的基本概念5
　　132　智能语音处理的基本框架5
　　133　智能语音处理的基本模型6
　　14　语音处理的应用7
　　141　语音处理的传统应用领域8
　　142　语音处理的新应用领域11
　　15　小结14
　　参考文献14
　　第2章　稀疏和压缩感知15
　　21　引言15
　　22　稀疏和稀疏表示16
　　221　稀疏16
　　222　稀疏表示18
　　23　冗余字典19
　　231　基本概念19
　　232　字典学习20
　　233　字典学习算法22
　　234　原子选择算法25
　　24　压缩感知27
　　241　基本概念27
　　242　压缩感知模型29
　　243　观测矩阵30
　　244　信号重构32
　　25　小结33
　　参考文献33
　　第3章　隐变量模型36
　　31　引言36
　　32　高斯混合模型36
　　321　基本概念37
　　322　GMM参数估计37
　　33　隐马尔可夫模型39
　　331　基本概念39
　　332　HMM关键问题42
　　34　高斯过程隐变量模型48
　　341　基本模型48
　　342　GPLVM的理论来源49
　　343　GPLVM模型训练50
　　35　小结51
　　参考文献51
　　第4章　组合模型52
　　41　引言52
　　42　主成分分析53
　　421　基本模型53
　　422　求解算法54
　　43　非负矩阵分解56
　　431　基本模型56
　　432　求解算法57
　　433　NMF与其他数据表示模型的关系58
　　44　鲁棒组合模型60
　　441　组合模型的鲁棒性分析61
　　442　鲁棒主成分分析61
　　443　鲁棒非负矩阵分解63
　　45　小结64
　　参考文献64
　　第5章　人工神经网络和深度学习65
　　51　引言65
　　52　神经网络基础66
　　521　神经元模型66
　　522　浅层神经网络67
　　523　深度神经网络68
　　53　深度学习69
　　531　基本概念和形式69
　　532　深度网络的学习方法70
　　54　深度神经网络的典型结构71
　　541　深度置信网络71
　　542　自动编码器与栈式自动编码器72
　　543　卷积神经网络74
　　544　循环神经网络75
　　545　生成式对抗网络77
　　55　小结79
　　参考文献79
　　第6章　语音压缩编码81
　　61　引言81
　　62　基于字典学习的语音信号压缩感知82
　　621　语音信号的稀疏性82
　　622　语音在常见变换域的稀疏化83
　　623　基于K-L展开的语音非相干字典84
　　624　基于K-L非相干字典的语音压缩重构87
　　625　实验仿真与性能分析88
　　63　基于梅尔倒谱系数重构的语音压缩编码93
　　631　基于梅尔倒谱分析的抗噪语音编码模型94
　　632　基于稀疏约束的梅尔倒谱合成96
　　633　梅尔倒谱系数的量化算法99
　　634　实验仿真与性能分析103
　　64　基于深度学习的语音压缩编码107
　　641　基于DAE的幅度谱编码和量化107
　　642　基于DAE的低速率语音编码110
　　643　实验仿真与性能分析111
　　65　小结113
　　参考文献113
　　第7章　语音增强115
　　71　引言115
　　72　语音增强技术基础116
　　721　语音增强的估计参数116
　　722　智能语音增强的语音特征117
　　723　性能评价118
　　73　基于非负矩阵分解的语音增强120
　　731　基本模型121
　　732　基于不相交约束非负矩阵分解的语音增强122
　　733　基于CNMF字典学习的语音增强127
　　74　基于深度学习的语音增强136
　　741　基于听觉感知加权的深度神经网络语音增强方法136
　　742　基于听觉感知掩蔽的深度神经网络语音增强方法141
　　75　小结151
　　参考文献152
　　第8章　语音转换155
　　81　引言155
　　82　语音转换基本原理155
　　83　语音转换模型与评价156
　　831　语音分析/合成模型156
　　832　语音参数的选择157
　　833　时间对齐157
　　834　转换模型和规则158
　　835　转换性能评价159
　　84　基于非负矩阵分解的谱转换160
　　841　概述160
　　842　基于卷积非负矩阵分解的谱转换161
　　843　声道谱转换效果164
　　85　基于深度神经网络的谱转换168
　　851　深度学习驱动下的语音转换168
　　852　面向谱转换的神经网络模型选择168
　　853　基于BLSTM和神经网络声码器交替训练的语音转换171
　　86　小结176
　　参考文献176
　　第9章　说话人识别178
　　91　引言178
　　92　说话人识别基础179
　　921　说话人识别系统框架179
　　922　典型的说话人识别模型180
　　93　基于i-vector的说话人识别及其改进181
　　931　基于i-vector的说话人识别概述181
　　932　用于提高i-vector鲁棒性的帧加权方法182
　　933　实验结果与分析187
　　94　基于深度神经网络的说话人识别187
　　941　基于深度神经网络的说话人识别概述187
　　942　基于对比度损失函数优化说话人矢量189
　　943　实验结果与分析191
　　95　说话人识别系统的攻击与防御192
　　951　攻击和防御的背景192
　　952　说话人识别系统的攻击方法192
　　953　说话人识别攻击的检测方法194
　　954　实验结果与分析196
　　96　小结196
　　参考文献197
　　第10章　骨导语音增强200
　　101　引言200
　　102　骨导语音增强基础201
　　1021　骨导语音的产生与特性201
　　1022　骨导语音盲增强的特点202
　　1023　骨导语音盲增强的典型方法203
　　103　基于长短时记忆网络的骨导语音盲增强205
　　1031　骨导/气导语音的谱映射206
　　1032　基于深度残差BLSTM的骨导语音盲增强方法207
　　1033　实验仿真及性能分析211
　　104　基于均衡-生成组合谱映射的骨导语音盲增强215
　　1041　均衡法215
　　1042　基于均衡-生成组合谱映射的骨导语音盲增强方法216
　　1043　实验仿真及性能分析218
　　105　小结222
　　参考文献223
　　第11章　智能语音处理展望224
　　111　智能语音处理的未来224
　　112　有待解决的关键技术225
　　1121　语音识别226
　　1122　语音合成228
　　1123　语音增强229
　　1124　语音处理中的安全问题230
　　113　小结230
　　参考文献230
　　缩略语232

目　录作者简介内容简介

　　本书从智能化社会对语音处理提出的新要求出发，系统地介绍了智能语音处理涉及的基础理论、基本技术、主要方法以及典型的智能语音处理应用，理论与实际紧密结合，适合作为高等院校人工智能、电子信息工程、物联网工程、数据科学与大数据技术、通信工程等专业高年级本科生以及智能科学与技术、信号与信息处理、网络空间安全、通信与信息系统等学科研究生的参考教材，也可供从事语音处理技术研究与应用的科研及工程技术人员参考。
　　本书共11章，可分为四个部分。
　　第一部分是导论，对应第1章，概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
　　第二部分是基础理论，包括第2～5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法；第3章介绍了隐变量模型，包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等；第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型；第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
　　第三部分是应用实践，包括第6～10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术，分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案；第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法；第8章在介绍语音转换的基本原理的基础上，重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法；第9章首先介绍了说话人识别系统的框架和模型，然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法；第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上，分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
　　第四部分是结束语，对应第11章，对全书进行了总结，并对智能语音处理的未来发展进行展望。
　　本书共11章，可分为四个部分。
　　第一部分是导论，对应第1章，概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
　　第二部分是基础理论，包括第2～5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法；第3章介绍了隐变量模型，包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等；第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型；第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
　　第三部分是应用实践，包括第6～10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术，分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案；第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法；第8章在介绍语音转换的基本原理的基础上，重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法；第9章首先介绍了说话人识别系统的框架和模型，然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法；第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上，分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
　　第四部分是结束语，对应第11章，对全书进行了总结，并对智能语音处理的未来发展进行展望。

比价列表价格走势

商家

评价 (323)

折扣

价格