当前位置:
首页 > 互联网+ > 大数据 > 机器学习与大数据技术pdf/doc/txt格式电子书下载

机器学习与大数据技术pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

机器学习与大数据技术pdf/doc/txt格式电子书下载

书名:机器学习与大数据技术pdf/doc/txt格式电子书下载

推荐语:

作者:牟少敏著

出版社:人民邮电出版社

出版时间:2018-06-01

书籍编号:30442288

ISBN:9787115487711

正文语种:中文

字数:191711

版次:1

所属分类:互联网+-大数据

全书内容:

机器学习与大数据技术pdf/doc/txt格式电子书下载








内容提要


机器学习、大数据技术是计算机科学与技术的重要研究内容。本书比较全面地论述了机器学习与大数据技术的基本概念、基础原理和基本方法,力求通俗易懂,深入浅出。本书的主要内容包括聚类、遗传算法、粒子群算法、人工神经网络和支持向量机等常见的机器学习算法,重点讲解了深度学习常见的模型、大数据相关内容和大数据技术的具体应用、常见的图像处理技术、Python 语言的编程基础,以及基于Python的科学计算和机器学习算法,并配有大量的源代码。书中介绍了作者近年来取得的部分相关研究成果,涉及机器学习、大数据技术等多个领域。


本书适合计算机科学与技术、数据科学与技术的研究生和本科生使用,也可供从事农业大数据等领域的相关人员参考。

前言 FOREWORD


机器学习是近 20 多年来兴起的涉及计算机科学与技术、概率论与数理统计和认知科学等多领域交叉的学科,主要研究机器模仿人类的学习过程,以进行知识和技能的获取。作为人工智能领域中一个重要的组成部分,机器学习广泛运用于数据挖掘、计算机视觉、自然语言处理,以及机器人研发等领域。


本书是作者在多年讲授“机器学习”和“大数据技术”课程,以及长期从事机器学习和农业大数据研究工作的基础上编写的。全书共分9章,第1章简要介绍机器学习、大数据、人工智能和图像处理技术的基础知识,第2章和第3章主要介绍机器学习和深度学习的理论与方法,第4章和第5章主要介绍大数据和农业智能的相关知识,第6章主要介绍图像处理与分析技术,第7章是作者近年来取得的与机器学习、大数据和图像处理技术相关的部分科研成果,第8章和第9章主要介绍机器学习和大数据的编程基础。


本书的编写得到了王秀美、林中琦、曹旨昊、苏婷婷、孙肖肖、郭嘉和张烁的大力支持和帮助,在此表示感谢。


本书吸收当前微课版教材优点,在书中放置了二维码,读者可以通过扫描二维码获取部分编程源码,以方便使用。


由于作者水平有限,写作时间仓促,书中难免存在错误,敬请读者批评指正。


牟少敏


2018年3月于山东农业大学

机器学习与大数据技术pdf/doc/txt格式电子书下载


目前,云计算、物联网、大数据、机器学习、人工智能、芯片技术和移动网络等新一代信息技术不断涌现,掀起了新一轮技术革命和产业革命的浪潮,新一代信息技术受到了政府、学术界、媒体和企业的广泛关注,同时也带来了巨大的市场机遇,具有广阔的应用前景。


人工智能不是一个新名词,在 1956 年达特茅斯会议上计算机专家约翰·麦卡锡首先提出了“人工智能”的概念。1980年美国卡耐基·梅隆大学设计并实现了具有知识库和推理功能的专家系统;1997年IBM公司的“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫;2016年谷歌公司的“阿尔法狗”(AlphaGO)战胜了韩国棋手李世石和我国的围棋天才柯洁。这些里程碑式的标志使得人们对人工智能未来的发展充满了渴望和期待。


人工智能至今尚没有一个统一的定义。专家和学者们从不同的角度出发,给出了各自的定义:畅销书《人工智能》的作者伊莱恩·里奇(Elaine Rich)认为人工智能是研究如何利用计算机模拟人脑从事推理、规划、设计和学习等思维活动,协助人类解决复杂的工程问题;麻省理工学院教授温斯顿(Winston)认为人工智能是那些使知觉、推理和行为成为可能的计算的研究;加州大学伯克利分校教授斯图尔特·罗素(Stuart Russell)则把人工智能定义为:像人一样思考的系统,像人一样行动的系统。


机器学习的发展可以追溯到 1950 年,其发展过程大体经历了 3个重要时期,即推理期、知识期和学习期。1970年前称为推理期,主要标志是让机器具有简单的逻辑推理能力;1970年后称为知识期,主要标志是1965年斯坦福大学教授费根鲍姆(E.A.Feigenbaum)等人研制了世界上首个专家系统。20世纪80年代至今称为学习期,主要标志是让机器从样本中学习。1983年,美国加州理工学院霍普菲尔德(J.J.Hopfield)教授提出了著名的Hopfield反馈神经网络;1986年,斯坦福大学教授鲁姆哈特(D.E.Rumelhart)等人提出了 BP 神经网络;1995 年,美国工程院院士瓦普尼克(Vapnik)教授提出了基于统计学习理论的支持向量机,产生了以支持向量机为代表的核机器学习方法,如核聚类和核主分量分析等。深度学习是机器学习和人工智能的一个重要组成部分,来源于人工神经网络研究和发展,最早由加拿大多伦多大学的辛顿(Geoffrey E.Hinton)教授于2006年提出,辛顿通过pre-training较好地解决了多层网络难以训练的问题。深度学习近年来在图像识别和语音识别上取得了突破性的进展,深度学习的成功主要归功于 3 大因素,即大数据、大模型和大算力。深度学习的优越性能将人工智能推向了新的高潮。


目前,大数据背景下机器学习的研究又成为人们研究和关注的热点。传统机器学习的分类算法很难直接应用到大数据环境下,不同的分类算法面临着不同的挑战。大数据环境下的并行分类算法的研究成为一个重要的研究方向。目前,针对并行机器学习的研究方法主要有:基于多核与众核的并行机器学习、基于集群或云的并行机器学习、基于超算的机器学习和基于混合体系结构的并行机器学习。


“数据仓库之父”比尔·恩门(Bill Inmon)早在20世纪90年代就经常提起大数据。自2008年9 月国际著名的期刊《自然》(Nature)出版了大数据专刊以来,大数据的处理、分析和利用已经成为各行各业和科研人员关注的焦点。美国把大数据视为“未来的新石油”,我国将大数据上升为国家战略,大数据产业正在逐步地进入成熟期。目前,大数据几乎是家喻户晓,成为当今非常热门的话题。从电视上经常可以看到有关大数据的新闻,比如:中央电视台将大数据分析技术应用于新闻报道中,推出了两会大数据、春运大数据等相关栏目。


当今世界是一个“数据为王”的时代,数据的重要性已经引起各个国家政府、企业和科研人员的高度重视,大数据背后的价值也在发挥着重要的作用。IBM智力竞赛机器人沃森(Watson)收集了2亿页知识文本数据,并采用并行处理集群,利用大数据处理技术进行数据分析,可在1秒内完成对大量非结构化信息的检索。目前,软硬件技术与行业需求正在极大地推动大数据的发展。


大数据首先要有数据,因此大数据的采集技术是非常重要的。物联网技术、电商平台等各种采集技术和方法为大数据的采集提供了有力的支撑。另外,数据采集的完整性、准确性和稳定性,决定了数据采集的质量及数据是否能真实可靠地发挥作用。例如:传统农业田间数据的采集有时必须采用人工手段来进行,由于环境的复杂性等原因,往往存在数据采集不完整和不准确等问题。利用物联网技术进行农业数据的采集具有实时性、多样性和可靠性,又如:农业小气候站采集的气象数据具有实时性、多样性和可靠性的特点,为农业的辅助决策提供较为准确的依据。


研究大数据不仅仅是各种数据的采集和存储,更重要的是如何利用好大数据,通过分析和挖掘海量数据,发现其内在有价值和有规律的知识,并服务于各个领域。大数据的分析挖掘技术又为机器学习的发展和应用提供了广阔的空间。


目前,深度学习成为机器学习热点的同时,又为人工智能的发展提供了巨大的发展空间,例如:利用深度学习感知、识别周围环境,以及各种对车辆有用的信息,使得无人驾驶汽车成为可能;微软和谷歌利用深度置信网络,将语音识别的错误率降低了20%~30%。


深度学习在云计算和大数据背景下取得实质性进展,云计算为深度学习提供了平台。云计算平台服务的优点:搭建快速、操作简捷、智能管理、运行稳定、安全可靠和弹性扩展。国内云计算平台有很多,如著名的阿里巴巴公司和百度公司等。


物联网(Internet of Things)的概念是由麻省理工学院自动识别(MIT Auto-ID)中心阿什顿(Ashton)教授1999年提出的,其原理是利用各种传感设备,如射频识别装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来从而形成的一个巨大网络。《传感器通用术语》(GB7665—87)对传感器的定义是:“能感受规定的被测量并按照一定的规律转换成可用信号的器件或装置,通常由敏感元件和转换元件组成”。通俗地讲,物联网就是物与物相连的互联网。目前,各种传感器广泛地应用到我们的衣食住行等日常生活中,如湿度传感器、气体烟雾传感器、超声波传感器和空气质量传感器等。传感器正在朝着微型化、智能化、多功能化和无线网络化的方向发展。与发达国家相比,我国自主传感器核心技术仍需不断提高,高端传感器芯片以进口为主,市场竞争较为激烈。


当前,新一代信息技术革命已经成为全球关注的重点。同时,新产品、新应用和新模式不断涌现,改变了传统经济发展方式,极大地推动了新兴产业的发展壮大。这也给研究计算机技术的专业人员和企业带来新的机遇和挑战,这就需要加速学科深度交叉和融合,需要学术界和企业界深度交叉和融合,需要充分利用各行各业大数据,学习和研究人工智能、深度学习和大数据等新技术的基本概念、基本思想、基本理论和技术,掌握常用的相关开发工具,需要挖掘大数据背后的价值,发现规律、预测趋势,并辅助决策。


大数据必须和具体的领域、行业相结合,才能真正地为政府和企业决策提供帮助,才能产生巨大的实用价值和应用前景。本书以农业为应用背景,重点研究机器学习、深度学习、图像处理技术,以及大数据技术在农业领域中的应用。


1.1 机器学习


1.1.1 概述


机器学习简单地讲就是让机器模拟人类的学习过程,来获取新的知识或技能,并通过自身的学习完成指定的工作或任务,目标是让机器能像人一样具有学习能力。


机器学习的本质是样本空间的搜索和模型的泛化能力。目前,机器学习研究的主要内容有3类,分别是模式识别(Pattern Recognition)、回归分析(Regression Analysis)和概率密度估计(Probability Density Estimation)。模式识别又称为模式分类,是利用计算机对物理对象进行分类的过程,目的是在错误概率最小的情况下,尽可能地使结果与客观物体相一致。显然,模式识别的方法离不开机器学习。回归分析是研究两个或两个以上的变量和自变量之间的相互依赖关系,是数据分析的重要方法之一。概率密度估计是机器学习挖掘数据规律的重要方法。


机器学习与统计学习、数据挖掘、计算机视觉、大数据和人工智能等学科有着密不可分的联系。人工智能的发展离不开机器学习的支撑,机器学习逐渐成为人工智能研究的核心之一。大数据的核心是利用数据的价值,机器学习是利用数据挖掘价值的关键技术,数据量的增加有利于提升机器学习算法的精度,大数据背景下的机器学习算法也迫切需要大数据处理技术。大数据与机器学习两者是互相促进、相互依存的关系。


1.1.2 评价准则


评价指标是机器学习非常重要的一个环节。机器学习的任务不同,评价指标可能就不同。同一种机器学习算法针对不同的应用,可以采用不同的评价指标,每个指标的侧重点不一样。下面介绍常用的机器学习评价指标。


1.准确率


样本分类时,被正确分类的样本数与样本总数之比称为准确率(Accuracy)。与准确率对应的是错误率,错误率是错分样本数与总样本数之比。


显然,准确率并没有反映出不同类别错分样本的情况。例如:对于一个二类分类问题,准确率并不能反映出第一类和第二类分别对应的错分样本的个数。但是,在实际应用中,因为不同类别下错分样本的代价或成本不同,往往需要知道不同类别错分样本的情况。例如:在医学影像分类过程中,未患有乳腺癌被错分类为患有乳腺癌,与患有乳腺癌被错分类为未患有乳腺癌的重要性显然是不一样的。另外,数据分布不平衡时,样本占大多数的类主导了准确率的计算等情况,这就需要求出不同类别的准确率。


2.召回率


召回率(Precision-Recall)指分类正确的正样本个数占所有的正样本个数的比例。它表示的是数据集中的正样本有多少被预测正确。


3.ROC曲线


ROC(Receiver Operating Characteristic)曲线是分类器的一种性能指标,可以实现不同分类器性能比较。不同

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示