当前位置:
首页 > 互联网+ > 人工智能 > 解析深度学习:语音识别实践pdf/doc/txt格式电子书下载

解析深度学习:语音识别实践pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

解析深度学习:语音识别实践pdf/doc/txt格式电子书下载

书名:解析深度学习:语音识别实践pdf/doc/txt格式电子书下载

推荐语:了解深度学习应用实践不可错过的经典专著

作者:(美)俞栋,(美)邓力,俞凯译

出版社:电子工业出版社

出版时间:2016-07-01

书籍编号:30431956

ISBN:9787121287961

正文语种:中文

字数:255176

版次:1

所属分类:互联网+-人工智能

全书内容:

解析深度学习:语音识别实践pdf/doc/txt格式电子书下载









献给我的妻子和父母


——俞栋(Dong Yu)


献给Lih-Yuan、Lloyd、Craig、Lyle、Arie和Axel


——邓力(LiDeng)

译者序


技术科学的进步历程往往是理论通过实践开辟道路的过程。尽管众多研究者将Geoffrey Hinton在2006年发表关于深度置信网络(Deep Belief Networks)的论文视为深度学习出现的重要标志,但那时,该技术还只是多层神经网络权值初始化的一种有效理论尝试,仅仅对一小部分机器学习专家产生着影响。真正让深度学习成为2013年《麻省理工学院技术评论》的十大突破性技术之首的,则是深度学习在应用领域的巨大实践成功。而语音识别正是深度学习取得显著成功的应用领域之一。


语音识别的发展自20世纪70年代采用隐马尔可夫模型(HMM)进行声学建模以来,每个时代都有经典的创新成果。如20世纪80年代的N元组语言模型,20世纪90年代的HMM状态绑定和自适应技术,21世纪第一个十年的GMM-HMM模型的序列鉴别性训练等。尽管这些技术都显著降低了语音识别的错误率,但它们都无法把语音识别推动到商业可用的级别。深度学习技术在21世纪第二个十年产生的最重大的影响,就是使得语音识别错误率在以往最好系统的基础上相对下降30%或更多,而这一下降恰恰突破了语音识别真正可用的临界点。该技术的突破伴随着并行计算基础设施的发展和移动互联网大数据的产生,其影响进一步交叠扩大,目前已经成为业界毫无争议的标准前沿技术。


本书作者俞栋博士和邓力博士正是这一突破的最早也是最主要的推动者和实践者。他们与Geoffrey Hinton合作,最早将深度学习引入语音识别并取得初步成功,后续又连续突破一系列技术瓶颈,在大尺度连续语音识别系统上取得了研究界和工业界广泛认可的突破。在几乎所有的语音识别应用深度学习的核心领域上都有这两位学者的影响。我与这两位学者相交多年,深刻地感觉到,他们在深度学习应用上的突破并非在恰当的时间接触到恰当的算法那么简单,而是来源于对语音识别技术发展历程的不懈摸索。事实上,如作者们在本书中提到的,神经网络、层次化模型等思路在语音识别发展的历史上早已被提出并无数次验证,但都没有成功。回到深度学习成功前的十年,那时能够持续不断地在“非主流”的方向上尝试、改进、探索,是一件非常不易的事情。因此,我对二位学者一直怀有敬意。此次受他们之托,将展现深度学习在语音识别中实践历程的英文著作翻译成中文,也感到十分荣幸。


目前已有的语音识别书籍均以介绍经典技术为主,本书是首次以深度学习为主线,介绍语音识别应用的书籍,对读者了解前沿的语音识别技术以及语音识别的发展历程具有重要的参考价值。全书概要地介绍了语音识别的基本理论,主体部分则全面而详细地讲解了深度学习的各类应用技术细节,既包括理论细节,也包括工程实现细节,给出了深度学习在语音识别领域进行应用研究的全景。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读。由于篇幅限制,一些算法的介绍没有进行大幅展开,但所有的算法及技术细节都提供了详尽的参考文献,读者可以按图索骥。


本书的翻译是由我与钱彦旻博士共同完成的,同时,也得到了上海交通大学智能语音实验室的贺天行、毕梦霄、陈博、陈哲怀、邓威、金汶功、刘媛、谭天、童思博、项煦、游永彬、郑达、朱苏、庄毅萌的帮助,以及电子工业出版社的大力支持,在此一并表示感谢。翻译过程难免存在疏漏和错误,欢迎读者批评、指正。


俞凯


本书首次专门讲述了如何将深度学习方法,特别是深度神经网络(DNN)技术应用于语音识别(ASR)领域。在过去的几年中,深度神经网络技术在语音识别领域的应用取得了前所未有的成功。这使得本书成为在深度神经网络技术的发展历程中一个重要的里程碑。作者继其前一本书Deep Learning:Methods and Applications之后,在语音识别技术和应用上进行了更深入钻研,得成此作。与上一本书不同,该作并没有对深度学习的各个应用领域都进行探讨,而是将重点放在了语音识别技术及其应用上,并就此进行了更深入、更专一的讨论。难能可贵的是,这本书提供了许多语音识别技术背景知识,以及深度神经网络的技术细节,比如严谨的数学描述和软件实现也都包含其中。这些对语音识别领域的专家和有一定基础的读者来说都将是极其珍贵的资料。


本书的独特之处还在于,它并没有局限于目前常应用于语音识别技术的深度神经网络上,还兼顾包含了深度学习中的生成模型,这种模型可以很自然地嵌入先验的领域知识和问题约束。作者在背景材料中充分证实了自20世纪90年代早期起,语音识别领域研究者提出的深度动态生成模型(dynamic generativemodels)的丰富性,同时又将其与最近快速发展的深度鉴别性模型在统一的框架下进行了比较。书中以循环神经网络和隐动态模型为例,对这两种截然不同的深度模型进行了全方位有见地的优劣比较。这为语音识别中的深度学习发展和其他信号及信息处理领域开启了一个新的激动人心的方向。该书还满怀历史情怀地对四代语音识别技术进行了分析。当然,以深度学习为主要内容的第四代技术是本书所详细阐述的,特别是DNN和深度生成模型的无缝结合,将使得知识扩展可以在一种最自然的方式下完成。


总的来说,该书可能成为语音识别领域工作者在第四代语音识别技术时代的重要参考书。全书不但巧妙地涵盖了一些基本概念,使你能够理解语音识别全貌,还对近两年兴盛起来的强大的深度学习方法进行了深入的细节介绍。读完本书,你将可以看清前沿的语音识别是如何构建在深度神经网络技术上的,可以满怀自信地去搭建识别能力达到甚至超越人类的语音识别系统。


SadaokiFurui


芝加哥丰田技术研究所所长,东京理工学院教授

前言


以自然语言人机交互为主要目标的自动语音识别(ASR),在近几十年来一直是研究的热点。在2000年以前,有众多语音识别相关的核心技术涌现出来,例如:混合高斯模型(GMM)、隐马尔可夫模型(HMM)、梅尔倒谱系数(MFCC)及其差分、n元词组语言模型(LM)、鉴别性训练以及多种自适应技术。这些技术极大地推进了ASR以及相关领域的发展。但是比较起来,在2000年到2010年间,虽然GMM-HMM序列鉴别性训练这种重要的技术被成功应用到实际系统中,但是在语音识别领域中无论是理论研究还是实际应用,进展都相对缓慢与平淡。


然而在过去的几年里,语音识别领域的研究热情又一次被点燃。由于移动设备对语音识别的需求与日俱增,并且众多新型语音应用,例如,语音搜索(VS)、短信听写(SMD)、虚拟语音助手(例如,苹果的Siri、GoogleNow以及微软的Cortana)等在移动互联世界获得了成功,新一轮的研究热潮自然被带动起来。此外,由于计算能力的显著提升以及大数据的驱动,深度学习在大词汇连续语音识别下的成功应用也是同样重要的影响因素。比起此前最先进的识别技术——GMM-HMM框架,深度学习在众多真实世界的大词汇连续语音识别任务中都使得识别的错误率降低了三分之一或更多,识别率也进入到真实用户可以接受的范围内。举例来说,绝大多数SMD系统的识别准确率都超过了90%,甚至有些系统超过了95%。


作为研究者,我们参与并见证了这许许多多令人兴奋的深度学习技术上的发展。考虑到近年来在学术领域与工业领域迸发的ASR研究热潮,我们认为是时候写一本书来总结语音识别领域的技术进展,尤其是近年来的最新进展。


最近20年,随着语音识别领域的不断发展,很多关于语音识别以及机器学习的优秀书籍相继问世,这里列举一部分:


•Deep Learning:Methodsand Applications,by LiDeng and Dong Yu(June,2014)


•Automatic Speech and Speaker Recognition:Large Margin and KernelMethods,by Joseph Keshet,Samy Bengio(Jan,2009)


•Speech Recognition Over Digital Channels:Robustness and Standards,by Antonio Peinado and Jose Segura(Sept,2006)


•PatternRecognition in Speechand Language Processing,byWuChouand Biing-Hwang Juang(Feb,2003)


•Speech Processing—A Dynamic and Optimization-Oriented Approach,by LiDeng and Doug O’Shaughnessy(June2003)


•Spoken Language Processing:A Guide to Theory,A lgorithm and System Development,by Xuedong Huang,A lex Acero,and Hsiao-Wuen Hon(April2001)


•Digital Speech Processing:Synthesis,and Recognition,Second Edition,by Sadaoki Furui(June,2001)


•SpeechCommunications:HumanandMachine,Second Edition,by DouglasO’Shaughnessy (June,2000)


•Speech and Language Processing—An Introduction to Natural Language Processing, Computational Linguistics,and Speech Recognition,by Daniel Jurafsky and James Martin(April,2000)


•Speech and Audio Signal Processing,by Ben Gold and Nelson Morgan(April,2000)


•StatisticalMethods for Speech Recognition,by Fred Jelinek(June,1997)


•Fundamentalsof Speech Recognition,by Law rence Rabiner and Biing-Hwang Juang (April,1993)


•Acousticaland EnvironmentalRobustness in Automatic Speech Recognition,by A lex Acero(Nov,1992)


然而,所有这些书或者是出版于2009年以前,也就是深度学习理论被提出之前,或者是像我们2014年出版的综述书籍,都没有特别关注深度学习技术在语音识别领域的应用。早期的书籍缺少2010年以后的深度学习新技术,而语音识别领域以及深度学习的研究者所需求的技术及数学细节更是没能涵盖其中。不同于以上书籍,本书除了涵盖必要的背景材料外,特别整理了近年来语音识别领域上深度学习以及鉴别性层次模型的相关研究。本书涵盖了一系列深度学习模型的理论基础及对其的理解,其中包括深度神经网络(DNN)、受限玻耳兹曼机(RBM)、降噪自动编码器、深度置信网络、循环神经网络(RNN)、长短时记忆(LSTM)RNN,以及各种将它们应用到实际系统的技术,例如,DNN-HMM混合系统、tandem和瓶颈系统、多任务学习及迁移学习、序列鉴别性训练以及DNN自适应技术。本书更加细致地讨论了搭建真实世界实时语音识别系统时的注意事项、技巧、配置、深层模型的加速以及其他相关技术。为了更好地介绍基础背景,本书有两章讨论了GMM与HMM的相关内容。然而由于本书的主题是深度学习以及层次性建模,因而我们略过了GMM-HMM的

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示