当前位置:
首页 > 互联网+ > 人工智能 > 机器学习实践指南pdf/doc/txt格式电子书下载

机器学习实践指南pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

机器学习实践指南pdf/doc/txt格式电子书下载

书名:机器学习实践指南pdf/doc/txt格式电子书下载

推荐语:

作者:(英)阿图尔·特里帕蒂(AtulTripathi),王喆,曹建勋等译

出版社:机械工业出版社

出版时间:2018-03-01

书籍编号:30400235

ISBN:9787111592129

正文语种:中文

字数:102148

版次:1

所属分类:互联网+-人工智能

全书内容:

机器学习实践指南pdf/doc/txt格式电子书下载







译者序


2015年以来,AI、机器学习、深度学习等概念无疑成为整个互联网行业甚至整个社会最火热的概念。无论是Alpha Go以摧枯拉朽之势战胜所有人类选手,宣告着“围棋之神”的降临;还是Tesla、Google、百度等互联网巨头在自动驾驶领域投入重金以抢夺这个AI时代最大的行业风口;抑或是Geoff Hinton、吴恩达、李飞飞等机器学习领域的著名学者纷纷走出校园,投奔业界。这些都意味着机器学习早已不再是仅仅被象牙塔中的学者教授们谈及的冷门学科,而是终将走到每个人的身边,影响每个人的生活,甚至改变整个社会生产生活方式的科技革命。


对于所有的IT行业从业者来说,机器学习也是一场思维方式的变革。所有主流的互利网公司甚至是传统行业的优秀公司都越来越重视数据的重要性,通过算法和机器学习模型来挖掘数据中的价值,以驱动公司业务的进一步增长。与此同时,越来越多的从业者转型成数据科学家、算法工程师,走在这场变革的最前沿。对于刚刚走出校园的应届生来说,无论是计算机相关专业,还是数学、物理等基础专业,抑或是生物、化学等应用学科专业,也都纷纷拥抱这场由数据和算法带来的革命,成为AI业界的新鲜血液。


我是一名有五年工作经验的算法工程师,在我工作的计算广告领域,也切身感受到行业发展之快,变化之迅速,以及人才需求之迫切。2015年之前,算法工程师这个“title”还是各个公司的小众群体,但时至2017年,优秀的算法工程师已经成为各大公司最火热也最紧缺的职位,而拥有优秀算法工程师的公司也因此大放异彩,像今日头条的推荐,滴滴的运筹规划,阿里的广告算法,都让其公司成为各自领域当之无愧的巨头。但在招聘和工作的过程中,我也发现了诸多不好的现象,许多工程师和应届生急于转行,忽视了算法和统计学的基础,也有很多算法工程师对于算法和模型的态度不够严谨,知其然而不知其所以然,不能将公司业务与算法更好地结合起来,这些都成为阻碍算法工程师成长的绊脚石。这也是我翻译本书的原因和动力,一本将机器学习、统计学基础和实际数据、实际分析工具结合起来的优秀参考书,能够极大提高我们的理论功底和动手水平。我自己在阅读原著并完成原著实例的过程中受益匪浅,也希望通过翻译本书让更多的从业者、有志于算法领域的在校生受益。


本书作者在机器学习领域拥有超过11年的从业经历,并在量化投资、图像处理、自然语言处理等多个领域拥有丰富的研究和开发经验。从他的书中,你明显可以发现“理论联系实际”的特点。无论是使用隐马尔可夫模型构建量化交易策略,还是使用决策树模型构建疾病护理体系,在介绍每种模型时,作者都会结合实际问题,用R语言实现并进行多维度的分析。在翻译本书的时候,我也感觉到读者需要颇深的统计学背景,力图用更偏统计学的语言描述算法模型,所使用的R语言也更多流行于学术科研和数据分析的领域。对于很多计算机背景的读者来说,本书是一个很好地熟悉统计学知识和R语言的机会。


本书是我与清华大学计算机系博士曹建勋一同翻译的,我们的合作非常愉快。最后,感谢本书的策划编辑张锡鹏和责任编辑缪杰在翻译过程中提供的诸多帮助。


由于译者水平有限,译文难免有错误之处,欢迎读者批评指正。


王喆


2017年10月31日于北京

前言


当今世界,数据已经成为新的“价值金矿”并以指数级的速度增长着。这种增长既包括现存数据的增长,也包括新数据的增长,这些新的数据以结构化和非结构化的形式展现,并来源于社交媒体、互联网、文档文献以及物联网等多种多样的数据源。数据流必须实时地收集、处理、分析,并最终展现出来以确保数据的使用者能够在如今快速变化的环境中做出理性且明智的决定。机器学习技术将待解决问题的上下文信息应用于这些数据上,用统计学技术确保不断快速到达的复杂数据能够以科学的方式加以分析。并利用机器学习算法从数据中进行迭代学习,发现数据中的隐藏模式和规律。机器学习的这种迭代学习的模式是非常重要的,正因如此,当机器学习模型被暴露在新的数据中时,它们才能从新的数据集中独立地适应和学习以产出可靠的结论。


我们将首先介绍本书中包含的多种不同的机器学习主题,随后,基于现实世界的问题在不同的章节中对各个主题进行一一探讨,例如分类、聚类、模型选择和正则化、非线性问题、监督学习、无监督学习、增强学习、结构化预测、神经网络、深度学习,还有最后的案例研究。本书的机器学习算法以R语言作为编程语言。本书适用于R语言的初学者,但是熟悉R语言对理解和使用本书的代码肯定是会有所帮助的。


你将学习如何合理地决定使用哪类算法以及如何应用这些算法得到最佳的效果。如果你想要对图像、文字、语音或者其他形式的数据都建立有意义的多功能的应用,本书绝对会成为你的得力助手。


本书的主要内容


第1章涵盖了机器学习的各种概念。本章使读者初步了解本书涵盖的各个主题。


第2章包括以下算法:判别函数分析、多元逻辑回归、Tobit回归、泊松回归。


第3章包括以下主题和算法:层次聚类、二进制聚类、k均值聚类。


第4章包括以下主题和算法:压缩方法、降维方法和主成分分析。


第5章包括以下主题和算法:广义加性模型、平滑样条、局部回归。


第6章包括以下主题和算法:决策树学习、朴素贝叶斯、随机森林、支持向量机、随机梯度下降。


第7章包括以下主题和算法:自组织映射和矢量量化。


第8章包括以下主题和算法:马尔可夫链、蒙特卡洛模拟。


第9章包括以下主题和算法:隐马尔可夫模型。


第10章包括以下主题和算法:神经网络。


第11章包括以下主题和算法:递归神经网络。


第12章包括世界银行数据分析。


第13章包括再保险合同定价。


第14章包括用电量预测。


本书的重点


本书的重点是用R语言构建基于机器学习的应用。我们已经使用R语言构建过各种解决方案。我们的重点是利用R语言库和函数以最佳方式来克服现实世界的挑战。我们尽量保持所有代码的友好性和可读性。我们认为这将使读者能够很容易地理解代码,并在不同的场景中随时使用它。


本书的目标读者


本书是为想构建实用的基于机器学习的应用的专业人士,以及统计、数据分析、机器学习、计算机科学或其他专业的学生和专业人士准备的。本书适用于R语言的初学者,但是熟悉R语言对理解和使用本书的代码肯定是会有所帮助的。对于那些希望在现有技术栈中探索机器学习技术的有经验的R语言程序员来说,本书也将是非常有用的。


特殊章节


在本书中,你将频繁看到如下小节:准备工作和具体实施步骤。


为了更加清晰地说明怎样完成一个机器学习方法,我们使用了如下特殊章节。


准备工作


该节告诉你机器学习方法需要哪些准备,并描述了如何设置该机器学习方法所要求的软件或其他先决条件。


具体实施步骤


该节包含了机器学习方法的各个具体步骤。


下载示例代码


本书的代码位于GitHub上,读者可从https://github.com/PacktPublishing/Practical-Machine-Learning-Cookbook下载。


下载本书的彩图


本书还为你提供了一个PDF文件,其中包含了本书的彩图。这些彩图将帮助你更好地理解输出的变化。你能够从地址https://www.packtpub.com/sites/default/files/downloads/PracticalMachineLearningCookbook_ColorImages.pdf下载该文件。

机器学习实践指南pdf/doc/txt格式电子书下载


本章将介绍机器学习及其涵盖的多个话题。你将了解以下内容:


·什么是机器学习


·分类方法概述


·聚类方法概述


·模型的选择和正则化概述


·非线性方法概述


·监督学习概述


·无监督学习概述


·增强学习概述


·结构化预测概述


·神经网络概述


·深度学习概述


1.1 什么是机器学习


人类自出生起就暴露在各种数据中。眼睛、耳朵、鼻子、皮肤、舌头不断收集着各种形式的数据,然后大脑将其转换成视觉、听觉、嗅觉、触觉和味觉。大脑处理各种形式的感觉器官收到的原始数据,并将其转换成语音,进而用语音表达对于这些原始数据的观点。


当今世界,我们用与机器相连的传感器收集数据。从各式各样的网站和社交网络收集数据。之前的手写材料也在电子化、数字化后被加入数据集中。这些形式丰富、从不同数据源中采集的数据需要经过处理才能得到更有洞察力的、更有意义的结果。


机器学习算法有助于从不同数据源收集数据,转换富数据集的形式,并基于分析结果,帮助我们采取明智的行动。机器学习算法是高效、准确的方法,并提供通用的学习方法来解决以下问题:


·处理大规模问题


·做出准确的预测


·解决各种不同的学习问题


·学习哪些结果可以得出,以及在何种条件下这些问题能够学习


机器学习算法的一些应用领域如下:


·基于销售数据的价格预测


·预测药物的分子反应


·检测汽车保险欺诈


·分析股市回报


·识别高风险贷款


·预测风力发电厂产量


·跟踪和监测医疗保健设备的利用率和位置


·计算能源有效利用率


·分析智能城市交通运输增长趋势


·估算采矿业矿产储量


1.2 分类方法概述


线性回归模型本质上进行量化的响应,但是这样的响应本质上是定性的。就像态度(强烈不同意,不同意,中立,同意和强烈同意)这样的响应,其本质上就是定性的。对于一个观察来说,预测一个定性的响应可以视作对这个观察进行分类,因为这涉及把这个观察分配给一个类别或种类。分类器对于今天的许多问题(如药物或基因组学预测、垃圾邮件检测、面部识别和财务问题)来说是非常重要的工具。


机器学习实践指南pdf/doc/txt格式电子书下载


1.3 聚类方法概述


聚类是将相似对象聚合成一簇的过程。每一个簇由彼此之间相似并且与其他类的对象不相似的对象组成。聚类的目标是确定一组未标记数据的内在分组。聚类可用于数据挖掘(DNA分析、营销研究、保险研究等),文本挖掘,信息检索,统计计算语言学,以及基于语料库的计算词典学等不同应用领域。聚类算法必须满足如下要求:


机器学习实践指南pdf/doc/txt格式电子书下载


·可扩展性


·处理各种类型的属性


·发现任意形状的簇


·处理噪音和异常值的能力


·可解释性和可用性


右图是聚类的一个示例。


1.4 监督学习概述


监督学习需要学习一组输入变量(通常为向量)和输出变量(也称为监控信号)之间的映射,并应用此映射来预测未知数据的输出。监督学习的方法尝试发现输入变量和目标变量之间的关系。发现的关系在称为“模型”的结构中表示。通常隐藏在数据集中的模型描述和现象解释,在知道输入属性的值后,这些模型可以用于预测目标属性的值。


监督学习是从监督的训练数据(训练样本集)推测函数的机器学习任务。训练数据由一组训练样本组成。在监督学习中,每个例子是一组,它由一个输入对象和一个期望的输出值组成。监督学习算法分析训练数据并学习出预测函数。


为了解决监督学习问题,必须执行以下步骤:


1)确定训练样本的类型。


2)收集训练集。


3)确定预测函数的输入变量。


4)确定预测函数的结构和相应的学习算法。


5)完成设计。


6)评估预测函数的准确性。


监督学习的方法可以应用在各个领域,如市场营销、财务和制造业。


在监督学习中要考虑的一些问题如下:


·权衡有偏变量


·函数复杂性和训练数据量


·输入空间的维度


·输出数据中的噪声


·数据的异构性


·数据的冗余性


·交互性和非线性问题的存在


1.5 无监督学习概述


无监督学习针对全体输入样本,学习出一种特定的模型来表征输入样本整体的统计结构。无监督学习是重要的,因为它在大脑的学习过程中比监督学习更常见。例如,眼睛中光感受器的活动是随着视觉世界而不断变化的。它们持续提供可用于显示世界上有什么对象、如何呈现、照明条件怎样等的所有信息。然而,基本上没有关于场景内容的信息在视觉学习期间是可用的。这就使得无监督的方法至关重要,并用作适合神经突触的计算模型。


在无监督学习中,机器接收输入,但是既没有有监督的目标输出,也没有从环境中获得奖励或者反馈。想象一下机器在没有得到环境的任何反馈时可能会学到什么,这似乎有些神秘。然而,建立一个正式的无监督学习框架是可行的,因为无监督学习是基于这样的概念:机器学习的目标是建立一种用于决策制定、预测未来输入、高效传输输入到其他机器等目的的输入的表示。某种意义上来说,可认为无监督学习是在上述数据中发现模式和规律,并且考虑噪声的影响。


无监督学习的一些目标如下:


·在不

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示