机器学习及其应用2017pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:机器学习及其应用2017pdf/doc/txt格式电子书下载
推荐语:
作者:高阳,陈松灿等编
出版社:清华大学出版社
出版时间:2017-11-01
书籍编号:30392651
ISBN:9787302487814
正文语种:中文
字数:133083
版次:1
所属分类:互联网+-人工智能
版权信息
书名:机器学习及其应用2017
作者:高阳 陈松灿
ISBN:9787302487814
版权所有 · 侵权必究
评审委员会
名誉主任委员:张效祥
主任委员:唐泽圣
副主任委员:陆汝钤
委 员:(以姓氏笔画为序)
王 珊 吕 建 李晓明
林惠民 罗军舟 郑纬民
施伯乐 焦金生 谭铁牛
序
第一台电子计算机诞生于20世纪40年代。到目前为止,计算机的发展已远远超出了其创始者的想象。计算机的处理能力越来越强,应用面越来越广,应用领域也从单纯的科学计算渗透到社会生活的方方面面:从工业、国防、医疗、教育、娱乐直至人们的日常生活,计算机的影响可谓无处不在。
计算机之所以能取得上述地位并成为全球最具活力的产业,原因在于其高速的计算能力、庞大的存储能力以及友好灵活的用户界面。而这些新技术及其应用有赖于研究人员多年不懈的努力。学术研究是应用研究的基础,也是技术发展的动力。
自1992年起,清华大学出版社与广西科学技术出版社为促进我国计算机科学技术与产业的发展,推动计算机科技著作的出版,设立了“计算机学术著作出版基金”,并将资助出版的著作列为中国计算机学会的学术著作丛书。时至今日,本套丛书已出版学术专著近50种,产生了很好的社会影响,有的专著具有很高的学术水平,有的则奠定了一类学术研究的基础。中国计算机学会一直将学术著作的出版作为学会的一项主要工作。本届理事会将秉承这一传统,继续大力支持本套丛书的出版,鼓励科技工作者写出更多的优秀学术著作,多出好书,多出精品,为提高我国的知识创新和技术创新能力,促进计算机科学技术的发展和进步作出更大的贡献。
中国计算机学会
2002年6月14日
序言
2002年秋天,由王珏教授策划和组织,复旦大学智能信息处理开放实验室(即现在的上海市智能信息处理重点实验室)举办了一次“机器学习及其应用”研讨会。该研讨会属于实验室的“智能信息处理系列研讨会”之一。十余位学者在综述机器学习各个分支的发展的同时报告了他们自己的成果。鉴于研讨会取得了非常好的效果,而机器学习领域又是如此之广阔,有那么多重要的问题还没有涉及或还没有深入,2004年秋天王珏教授又和周志华教授联合发起并组织第二届“机器学习及其应用”研讨会,仍由复旦实验室举办。这次研讨会又取得了非常好的效果,并且参加的学者比上次更多,报告的内容也更丰富。根据与会者的意见,决定把报告及相关内容编成一本书出版,以便与广大的国内学者共享研讨会的成果。
机器学习是人工智能研究的核心课题之一,不但有深刻的理论内蕴,也是现代社会中人们获取和处理知识的重要技术来源。它的活力久盛不衰,并且日呈燎原之势。对此,国内已经有多种定期和不定期的学术活动。本书的出版反映了机器学习界一种新型的“华山论剑”:小范围、全视角、更专业、更深入,可与大、中型机器学习会议互相补充。值得赞扬的是,它没有任何学派和门户之见,无论是强调基础的“气宗”,还是注重技术的“剑宗”,都能在这里畅所欲言,自由交流。我很高兴地获悉:第三届“机器学习及其应用”研讨会已经于2005年11月由周志华教授和王珏教授主持在南京大学成功举行。并且以后还将有第四届、第五届……作为一直跟踪这项活动并从中获得许多教益的一个学习者,我真希望它发展成这个领域的一个品牌,希望机器学习的优秀成果不断地由这里飞出,飞向全世界。
值得一提的是王珏教授有一篇颇具特色的综述文章为本书开道。长期以来,许多有识之士为国内学术界缺少热烈的争鸣风气而不安。因为没有争鸣就没有学术繁荣。细心的读者可以看出,这篇综述的观点并非都是传统观点的翻版,并且很可能不是所有的同行都认同的。作者深刻反思了机器学习这门学科诞生以来走过的道路,对一些被行内人士几乎认作定论的观点摆出了自己的不同看法。其目的不是想推出一段惊世骇俗的宏论,而是为了寻求真理、辨明是非。在这个意义上,王珏教授也可算是一位“独孤求败”。如果有人能用充分的论据指出其中可能存在的瑕疵,他也许会比听到一片鼓掌之声更感到宽慰。
随着本书的出版,中国计算机学会丛书知识科学系列也正式挂牌了。在衷心庆贺这个系列诞生的同时,我想重复过去说过的一段话:“二十多年来,知识工程主要是一门实验性科学。知识处理的大量理论性问题尚待解决。我们认为对知识的研究应该是一门具有坚实理论基础的科学,应该把知识工程的概念上升为知识科学。知识科学的进步将从根本上回答在知识工程中遇到过,但是没有很好解决的一系列重大问题”。本系列为有关领域的学者提供了一个宽松的论坛。衷心感谢王珏、周志华、周傲英三位编者把这本精彩的文集贡献给知识科学系列的首发式。我相信今后机器学习著作仍将是这个系列的一个常客。据悉,第四届机器学习研讨会将于今秋在南京大学举行,届时各种观点又将有进一步的发展和碰撞。欲知争鸣烽火如何再燃,独孤如何锐意求败,且看本系列下回分解。
陆汝钤
2006年1月
前言
为促进国内人工智能领域学者的交流,2002年,陆汝钤院士在复旦大学智能信息处理实验室发起组织了“智能信息处理系列研讨会”,并将“机器学习及其应用”列为当年支持的研讨会之一。是年11月,第一届研讨会邀请了10余位专家闭门研讨,在复旦大学成功举行。2004年11月周志华教授与王珏研究员在复旦大学主持举办了第二届“机器学习及其应用”研讨会。此次研讨会除邀请报告人外,还吸引了闻讯自发与会旁听的学者和研究生100余人。自此,研讨会的模式从闭门的学术讨论,走向了开放的学术交流。
由于当时机器学习受到的关注和支持较少,组织者和主办单位需承担较多压力,2005年研讨会移师南京大学软件新技术国家重点实验室,周志华教授和王珏研究员主持举办了第三届研讨会,吸引了来自全国近10个省市的250余人旁听。此次研讨会确定了会议不征文、不收费、报告人由组织者邀请,以及“学术至上,其他从简”的办会宗旨,同时确定了研讨会举办的时间,如无特殊,则为当年11月份的第一个周末。此后,组织者争取到兄弟单位给予协助,2006年、2007年分别由南京航空航天大学信息科学与技术学院、南京师范大学数学与计算机学院协办了第四届和第五届研讨会,两次均吸引了来自全国10余个省市的约300人旁听;2008年举行的第六届研讨会,适逢南京大学计算机学科建立50周年,与会人数达到了380余人;2009年和2010年在南京大学分别举行了第七、八届研讨会,均有约400余人旁听。这一时期为国内机器学习界的“垦荒”阶段,众多学者为研讨会做出了重要贡献。研讨会在国内机器学习领域乃至整个计算机领域逐渐产生了重要的影响,学界美名为“南京会议”。
随着国内科研条件的改善,机器学习逐渐获得更多关注和支持。为进一步推动机器学习在国内的发展,从2011年起,研讨会的举办地开始走出南京。2011年和2012年由张长水教授和杨强教授主持,清华大学自动化系、智能科学与系统国家重点实验室、清华大学信息科学与技术国家实验室(筹)举办第九届和第十届研讨会,两次会议均有500多人参加。2013年、2014年由张军平教授和高新波教授主持,分别在复旦大学计算机科学技术学院和上海市智能信息处理实验室举行了第十一届研讨会,在西安电子科技大学举办了第十二届研讨会,这两次会议分别达到600多人和800多人参加。2015年和2016年,研讨会再次回到南京大学举办,此时国内机器学习研究和应用已经发展到一个新的高峰,这两次会议均约有1400人参加。至此,研讨会已经成为备受国内机器学习及其相关领域研究人员关注的盛会。
研讨会自发起之日起,清华大学出版社敏锐地了解到这一学术动态。研讨会主要组织者与清华大学出版社达成共识,每两年对研讨会上专家交流的部分技术内容,经过整理,结集成书,以飨读者。十余年来,陆续出版了《机器学习及其应用》《机器学习及其应用2007》《机器学习及其应用2009》《机器学习及其应用2011》《机器学习及其应用2013》《机器学习及其应用2015》等系列书籍。本书是以上序列书籍的延续。
本书是对第十三届和第十四届中国机器学习及其应用研讨会交流内容的部分总结,共邀请了会议中的7位专家就其研究领域撰文,以综述的形式探讨了机器学习不同分支及相关领域的研究进展。全书共分7章,内容分别涉及矩阵回归模型、低秩子空间模型、随机优化等经典模型和优化方法,介绍了新型的标记分布机器学习范型,以及机器学习在图像描述、软件缺陷挖掘等方面的应用。
杨健教授介绍了几种全新的稳健回归模型,包括基于核范数的稳健矩阵回归,基于推广幂指数分布的稳健矩阵回归,基于核-L1范数的联合矩阵回归,以及基于树结构核范数的稳健矩阵回归。
林宙辰教授讨论了若干具有闭解的低秩模型,以及其在图像处理领域的诸多成功应用。
在大规模数据的机器学习算法中,随机近似是一种新兴的技术手段。张利军教授介绍了阶段混合梯度下降、随机临近梯度下降,能够有效降低学习算法的空间和时间复杂度。
张量结构往往用于刻画数据的多源关系。徐增林教授介绍了非参非线性张量分解,能够提高分解模型的精度。
图像描述是近年来有挑战性的任务。张长水教授介绍了基于注意力的递归神经网络编码器,刻画了图像和句子之间的编码关系。
和图像描述类似,大量的机器学习样本涉及标记多义性的问题。耿新教授详细介绍了一种新的机器学习范型——标记分布学习,为解决标记多义性开辟了一条新途径。
最后,黎铭副教授探讨了机器学习技术在软件缺陷挖掘中的创新应用,以及其中面临的若干挑战性问题。
本书概括了国内机器学习及其应用的最新研究进展,可供计算机、自动化、信息处理及相关专业的研究人员、教师、研究生和工程技术人员参考,也可作为人工智能、机器学习课程的辅助内容,希望对有志于从事机器学习研究的人员有所帮助。
高 阳 陈松灿
2017年9月4日
1 稳健的矩阵回归模型与方法
杨 健 罗 雷
南京理工大学模式计算与应用实验室,南京210094
1 引言
随着网络和信息技术的不断发展,全球数据量呈现爆炸式增长。特别地,人类在最近两年产生的数据量相当于之前产生的全部数据量。这些海量、复杂的数据已经对社会经济、政治、文化以及生活等方面产生了深远的影响。如何有效地分析它们使其更好地为人类服务是一个亟待解决的问题。
近年来,机器学习方法已经渗透到了数据分析的各个方面,成为了其中的重要组成部分。它利用已知数据来学习和推理其中未知的、潜在的概率分布等重要信息,解释数据样本中变量(或特征)之间的关系。也就是说,它能从庞大的数据中揭示出数据的内在规律或本质结构。这种本质结构可方便人类对数据的理解,提高人类对数据的驾驭能力。为实现这一任务,我们首先要熟知数据分析中可能面临的问题。一方面,在实际的信号和图像采集与处理中,数据的维数越高,给数据的采集和处理带来越多的限制。大规模的数据不仅存在着较多的冗余、无关的属性,还会带来维数的灾难。另一方面,实际中数据往往结构复杂,例如采集的数据本身不完整或者存在大量的噪声,这导致了一些传统的数据处理技巧也许失效。
基于线性回归(linear regression, LR)分析的方法一直是机器学习领域的研究热点。它的目的是估计测试数据与训练数据之间的关系。值得注意的是,这种关系可理解成数据的一种内在结构。为避免过拟合,一个正则项需要强加到LR模型中。基于L1范数的正则项和基于L2范数的正则项是目前使用最广泛的两种正则项。L2范数正则化的线性回归一般称为脊回归(ridge regression)。该方法使用L2范数的平方来约束表示系数,并使用同样的方式来刻画表示残差。最近,I.Naseem等人[1]将此方法应用于人脸识别并由此提出了线性回归分类器(LRC)。在这个方法中,他们先通过脊回归模型获得测试样本在每类训练样本中的表示系数,然后将测试样本分在离其最近的那一类。事实上,一些以往的工作,诸如最近邻特征线[2]、最近邻特征面以及最近邻特征空间[3]都可看作LRC的不同变体。
L1范数正则化的线性回归称为Lasso,它已被广泛地应用于稀疏表示中。例如,J.Wright等人[4]引入了稀疏表示分类器(SRC)。SRC使用所有训练样本作为一个字典来表
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询