说话人识别模型与方法pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:说话人识别模型与方法pdf/doc/txt格式电子书下载
推荐语:
作者:吴朝晖,杨莹春
出版社:清华大学出版社
出版时间:2009-03-01
书籍编号:30036572
ISBN:9787302189688
正文语种:中文
字数:443000
版次:1
所属分类:互联网+-人工智能
版权信息
书名:说话人识别模型与方法
作者:吴朝晖,杨莹春
出版社:清华大学出版社
出版日期:2009-02-01
ISBN:9787302189688
免责声明:本站所有资源收集整理于网络,版权归原作者所有。
本站所有内容不得用于商业用途。本站发布的内容若侵犯到您的权益,请联系站长删除,我们将及时处理!
前 言
Foreword
说话人识别属于生物特征识别技术的一种,是一项根据语音波形中反映说话人生理和行为的特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。说话人识别技术的崛起得益于信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展,这是一个涉及生理学、心理学、声学、语音学等多学科的研究领域。
本书结合我们对说话人识别进行的研究和工作,在对说话人识别的基本概念和方法进简要介绍的基础上详细介绍了我们在测试语料库、特征组合、特征变换、识别模型以及应用系统开发的最新重要研究成果。我们从事说话人识别研究至今已8年有余,简单回顾一下作者与本书写作内容有关的几个重要时间标记。
1999年,在杭州中正生物认证有限公司的资助下,我们的生物认证实验室宣告成立。
2001年3月一天的午后,中国科学院自动化所模式识别国家重点实验室徐波研究员应邀风尘仆仆来到曹光彪主楼208,将数十年语音识别技术纵横史娓娓道来,对语音研究的挚爱溢于言表,坚定了我们从事说话人识别研究的信心和方向。
2001年10月与中国科学院自动化所联合成功组织、举办了中国第二届生物特征识别研讨会,获得国家“863”计划资助。
2002年提出了基于SVM-HMM的说话人识别模型,该成果发表于国际语音处理会议ICSLP 2002(International Conference on Spoken Language Processing)。获得浙江省自然科学基金青年科技人才培养专项基金和博士点专项基金资助。
2003年提出了基于主元分析(PCA)的说话人识别模型,该成果发表于机器学习会议IJCNN 2003(IEEE International Joint Conference on Neural Network)。又提出了基于动态贝叶斯网络(DBN)的说话人识别模型,该成果发表于国际语音处理会议ICASSP 2003(IEEE International Conference on Acoustics, Speech and Signal Processing)和2003年国际著名杂志IEE Electronic Lettters。完成国内外第一个面向移动互联环境的多通道说话人识别语料库SRMC的采集。首次提出基于情感补偿的活体声纹识别模型研究问题,获得国家自然科学基金资助。
2004年提出了基于声门特征的倒谱补偿模型,该成果发表于机器学习会议IJCNN 2004(IEEE International Joint Conference on Neural Network);提出了基于声门特征的倒谱平均减算法,该成果发表于美国声学学会年会ASA(Proceedings of 148th Meeting of the Acoustic Society of America)。两项发明专利均获准授权。获得浙江省自然科学基金资助。“支持说话人识别研究与开发的开放式平台SONAR”通过省级鉴定。
2005年提出了基于VQ核的SVM模型和基于声门信息的并行GMM模型,该成果发表于国际生物认证会议AVBPA 2005(Audio- and Video-based Biometric Person Authentication 2005)。又提出了基于混合支持向量机的说话人识别和基于得分差加权融合的多模态说话人识别方法,该成果发表于国际语音处理会议Interspeech 2005(9th European Conference on Speech Communication and Technology)。
本书的撰写,既参考了他人的有关文献,又结合了作者近年在该领域的研究工作,基本上遵循我们对相关问题的研究思路展开,使理论性、实用性、系统性相结合,不仅有较系统全面的原理介绍,还结合科研成果给出了许多实例与结果。希望能为说话人识别研究人员提供有益借鉴。
本书分为5部分。第1部分概括介绍说话人识别的主要概念、基本原理、研究历史与现状,以及测试语料库的构建;第2部分介绍我们对特征提取提出的不同改进方法,包括特征组合与特征变换;第3部分介绍我们提出的新的说话人识别模型,包括支持向量机、动态贝叶斯网络、主成分分析;第4部分介绍我们在基于信息融合的说话人识别上的创新工作;第5部分介绍我们开发的一个软件平台及其基础上的两个具体应用系统,最后是全书总结并展望发展趋势。
本书是作者和学生们共同研究成果的总结。多年来,先后有忻栋、陈大为、马志友、章万锋、桑立锋、俞成功、郑海树、杨璞、吕刚、雷震春、李冬冬、单振宇、徐卢传、任舒彬、黄挺、杨旻、吴甜、周森、刘漪琰、余奇、魏春明、陈文翔、陈力等直接参与了有关研究工作,本书也使用了他们学位论文和发表文章的一些内容。衷心祝愿青年才俊们前程似锦。
1999年在我们刚迈入生物认证研究领域之时,承蒙杭州中正生物认证有限公司的梁樵女士、孙黎先生、邱柏云先生和郝云龙先生的热情关心与帮助。中国科学院自动化所模式识别国家重点实验室的谭铁牛研究员、徐波研究员,北京航空航天大学王蕴红教授对我们的研究工作给予了极大的关注和支持。作者曾与中国科学院声学所的俞铁城研究员,北京大学视觉与听觉信息处理国家重点实验室的吴玺宏教授,封举富教授,北京交通大学袁保宗教授,中国社会科学院民族所鲍怀翘研究员等进行深入、有益的探讨,在此一并向他们致以衷心的感谢。
本书的撰写先后得到了国家杰出青年基金60525202、国家自然科学基金60533040/60273059、教育部新世纪优秀人才计划NCET-04-0545、国家高技术研究发展计划2001AA4180/2006AA01Z136、浙江省自然科学基金M603229/Y106705、浙江省自然科学基金青年科技人才培养专项基金RC01058、博士点专项基金20020335025等多项资助。
作者
2008年10月于浙江大学求是园
第一篇 绪 论
第1章 背景与概述
1.1 研究背景及意义
1.1.1 说话人识别介绍
语音是实现人们之间沟通交流的最直接与方便的手段,而实现计算机与人之间畅通无阻的语音交流,一直是人类不懈追求的一个梦想,语音识别则是实现这一梦想的关键性技术。语音识别是指计算机对人类语音进行正确响应的技术[1]。广义的语音识别(speech recognition)技术具体包括:语音识别(识别说话内容)、说话人识别(识别说话人是谁)、语种识别(识别说话语言种类)、语音评分(评价发音的标准程度)。
说话人识别(speaker recognition, SR)技术(也称声纹识别技术)属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。说话人识别技术的核心是通过预先录入说话人的声音样本,提取说话人独一无二的语音特征并保存在数据库中,应用时将待验证的声音与数据库中的特征进行匹配,从而决定说话人的身份。说话人识别技术以其独特的方便性、经济性和准确性受到世人瞩目。
语音中既包含说话人的生理特征,即先天发音器官差异,又包含说话人的行为特征,即后天的发音与言语习惯的特殊征象。说话人识别与语音识别之间有很大的区别,前者从语音中提取说话人的信息,而不考虑其说话内容,提取的是说话人的个性特征;后者从语音中提取说话的内容,并不考虑说话人是谁,提取的是说话人的共性特征。说话人识别涉及说话人发音器官上的个体差异、发音声道之间的个性差异、发音习惯之间的个性差异等,因此是一种交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。
说话人识别任务根据识别方式的不同,可以分为三类[2,3](如图1-1所示):
图1-1 说话人识别任务分类[3]
(1)说话人鉴别(speaker identification,也称为说话人辨认),是指从给定用户集中把测试语音所属的说话人区分出来;
(2)说话人确认(speaker verification,也称说话人检测),是针对单个用户,即通过用户测试语音来判断其是否是所声称的用户身份;
(3)说话人探测跟踪(speaker segmentation and clustering,也称说话人切分与聚类),是指对一段包含多个说话人的语音,正确标注在这段语音中说话人切换的时刻。
前两个问题在某种程度上是相通的,即如果把说话人确认问题看做是一个两类的说话人识别问题,则其基本算法是一致的。
在说话人鉴别系统中,可进一步分为开集(open-set)的说话人鉴别和闭集(closed-set)的说话人鉴别两种。
(1)闭集的说话人鉴别,是指系统具有这样的先验知识:测试的说话人肯定是训练集中出现过的。
(2)开集的说话人鉴别,指的是所测试的说话人还有可能是训练集中没有出现过的。
开集的说话人鉴别和说话人确认通常都通过一个阈值来判断被测试的说话人是不是在训练集中。
说话人识别任务从对语音的要求上可以分为与文本无关的(text-independent)和与文本有关的(text-dependent)两种说话人识别。
(1)与文本无关的说话人识别:是指模型训练语料不要求特定的语种和内容,而且训练语料与测试语料之间也不要求一致;
(2)与文本有关的说话人识别:是指模型的训练语料由用户按照给定的文本朗读得到,测试语料应与训练语料相一致。
1.1.2 说话人识别的优势与应用前景
与其他生物认证技术如指纹识别、掌形识别、虹膜识别等一样,声纹识别有不会遗失、无须记忆和使用方便等优点。在生物认证技术领域中,说话人识别技术以其独特的方便性、经济性和准确性受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。
在众多的生物认证技术中,说话人识别技术表现出很多应用上的优势。首先,说话人识别有着天然的优点:以声音作为识别特征,因其非接触性和自然性,用户容易接受。在说话人识别中,用户不用刻意地将手指放在传感器上,或者把眼睛凑向摄像头,只需要简单地说一两句话即可完成识别。
其次,说话人识别所用的设备成本很低。对输入设备如麦克风、电话送话器等没有特别的要求;声音的采样与量化对芯片的要求也不高;特征提取、模型训练和匹配只需普通计算机即可完成。另外,因为普遍存在的电话网络和麦克风、计算机的一体化,所以说话人识别系统所需的硬件成本几乎为零。
再次,其他生物特征识别技术各有其比较劣势。指纹识别技术虽然已经比较成熟,但用户的接受度不高,人们经常把指纹同犯罪联系在一起,不卫生是另外一个不利因素。虹膜、视网膜识别技术的精确度虽然很高,但所需的设备非常昂贵,并且据研究,这些特征中包含用户的健康状况等隐私信息,大众接受度也不高。脸部、步法等特征,虽然比较自然,用户也容易接受,但实现难度很大。因此,说话人识别的优势更加明显。
第四,对于远程应用和移动互联环境,如通过电话、移动设备进行身份验证,声音恐怕是唯一可用的生物特征。语音识别技术已经成功地应用于桌面听写和电话呼叫中心。第三个应用领域马上就要出现:移动设备和嵌入式系统。同样地,说话人识别也面临着这样的机会。在21世纪,语音输入和控制将成为手持移动设备和嵌入式系统最好的交互手段,这种说法越来越多地得到认可。因此,以声音为特征的身份鉴别技术越发显得重要。
说话人识别有着广泛的应用前景,可以应用在需要进行身份认证的各种安全领域[4,5],如:
· 通过SR技术,可以利用人本身的生物特性进行身份鉴别,例如,为公安部门进行语音验证,为一般用户提供防盗门开启功能等。
· 在互联网应用及通信领域,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音电子邮件、安全控制、计算机远程登录等领域。
· 在呼叫中心应用上,SR技术同样可以提供更加个性化的人
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询