机器学习实践指南:基于R语言pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:机器学习实践指南:基于R语言pdf/doc/txt格式电子书下载
推荐语:用R语言开发机器学习和数据科学的快速入门指南
作者:(英)尼格尔·刘易斯(N.D.Lewis),高蓉,李茂等译
出版社:人民邮电出版社
出版时间:2018-04-01
书籍编号:30448547
ISBN:9787115478177
正文语种:中文
字数:80834
版次:
所属分类:互联网+-人工智能
版权信息
书名:机器学习实践指南:基于R语言
作者:(英)尼格尔·刘易斯(N.D.Lewis)
译者:高蓉 李茂
ISBN:9787115478177
版权所有 · 侵权必究
献给安吉拉,她是杰出的妻子、朋友、母亲
致谢
特别感谢:
我的妻子安吉拉,感谢她的耐心和不断鼓励。
我的女儿戴安娜,感谢她为我的书和网站拍摄了数百张照片。
感谢在我更早的书中向我提问和提出建议的读者。
前言
感谢你阅读本书。我希望书中的这些想法能够加快你的数据科学实践,正如它们帮助了我和其他成千上万的人。事实上,我希望这本书能够让你和像你一样的成千上万的人接受数据科学工具。
人生中从来就没有足够的时间可以学习所有的知识。你差不多淹没在工作和个人责任、项目、最后期限以及一系列五花八门能消耗你一整天的任务中。本书的目的在于指导动手实践,并成为学习成功的思想、一流的技术以及数据科学家可用的从数据中学习解决方案的实用指南。
本书所介绍的内容,适用于那些为小型广告公司工作的数据科学家、由决策科学家组成的小组、为了完成数据科学项目课程作业的学生或者进行预测项目的个人顾问。即使你不是天才的统计学家或编程专家,也可以很好地理解本书讨论的实用思想和直接的解决方案。
重点在于“如何做到”,正如本杰明·富兰克林所说:“告诉我,我忘了;交给我,我记得;让我参与,我学会了。”本书的实践知识将为你提供新方法和切实可行的解决方案。
本书希望能把强大实用的机器学习技术传授给日常工作者。因此,本书的材料为重点关注数据分析和建模的个人设计。重点内容仅仅是那些已证明可行、能够迅速理解并能在最短的时间内部署的技术、思想和策略。
在许多场合,各行各业的个人都提过这样的问题:“在我关心的领域中,如何能够快速理解并应用从数据中学习要求的技术?”答案曾经是阅读复杂的数学教科书,然后使用诸如C、C++和Java这样的语言对复杂的公式进行编程。
随着R的兴起,从数据中学习比过去更加轻松。本书的目的在于带你快速入门。它一步步地向你展现如何在免费和流行的R统计包中建立每一种类型的模型。本书中的案例描述得很清楚,几乎可以把印在书页上的代码直接键入到R中。
对于实践者来说,这个主题最不那么激动人心的地方在于计算机制。尽管理论家必须面对这个主题的许多“可怕”之处,但是从业者并不需要重视,甚至可以通过使用R包而几乎完全忽略。本书按照惯例保留了一些算法并进行充分的讨论。但是,因为这是一本实践导向的书,指导你亲自动手,在现实数据中实现想法,所以我没有在处理算法细节、证明定理、讨论引理上花费太多的时间。
R的新用户可以轻松使用这本书,不需要任何预备知识。键入书中的实例并阅读实例下面的注意,将是你最大的收获。R的副本和免费的入门教程指南可以从https://www.r-project.org/下载。如果你对R完全陌生,那么可以到http://cran.r-project.org/other-docs.html阅读精彩的教程。该教程向新手很好地介绍了R。
最后要注意的是,数据科学的主题并不是数学,不关注定理的证明。在根本上,它在为真实的生活、真实的人、机器学习算法应用的真实问题提供有用的解决方案。无论你是谁,无论你来自哪里,无论你的背景或教育经历如何,你将有能力理解本书概述的思想。我个人认为,结合适合的软件工具,具备一点点恒心和正确的引导,任何真正有兴趣的人都可以成功运用数据科学技术。
古希腊哲学家伊壁鸠鲁曾经说过:“我不是为大多数人而写,我为你而写;我们每个人都是另一个人的听众。”尽管本书中的思想与成千上万的人有关,但我依然努力牢记伊壁鸠鲁的原则,让读到的每一页都完全对一个人有意义,那个人就是你。
其他资源
读完本书,你将可以在自己特别关心的某个领域实践我讨论过的一个或几个内容。你会惊奇地发现,这些技术结合R可以快速且轻松地使用和部署。只需要一些不同的应用,你很快就能训练有素。
因此,你务必要把书中学到的知识付诸实践。为了帮助你,我创建了免费的指南“快速提高R语言生产效率的12种资源”,可到http://www.auscov.com下载该指南。它将和你分享12种可以提高R语言生产效率的优秀资源。
好了,现在轮到你了!
阅读本书的建议
这是一本鼓励你亲自动手操作的书。通过输入案例代码、阅读参考材料并且动手做实验,你会最大程度地获益。通过完成大量案例和阅读参考资料,你将扩展知识面,深化直观理解和强化实践技能。
另外,至少还有其他两种阅读本书的方法。你可以把它作为有效的参考工具。翻到你需要的章节,迅速查看计算如何在R中执行。如果书中的案例给出了最佳的结果类型,那么检查这些结果,并把案例调整到自己的数据上。另一种方法是观察真实世界的例子、例证、案例研究、提示以及笔记,以激发你产生自己的想法。这样既有助于学习普遍的方法,又能搞清相关例子、案例研究和文献的线索来源。
专家提示
如果你正在使用Windows操作系统,那么使用installr包可以轻松地更新到R的最新版本。输入以下代码:
> install .packages (\" installr \")
> installr ::updateR ()
如果你的计算机没有安装文中提到的某个包,可以键入install.packages(\"package_name\")进行下载并安装。例如,要下载并安装class包,你需要在R控制台键入:
install .packages (\" class \")
一旦包安装完成,你要调用它。为了实现这一点,在R控制台键入:
require (class)
class包现在可以使用了。你只需要在R会话开始时键入这些代码,一次就可以。
R函数通常有多个参数。在本书的例子中,我主要关注快速模型开发需要的关键参数。在R控制台中键入“? function_name”,可以获取函数中可用的附加参数的信息。例如,要找到naiveBayes函数的附加参数,就键入:
? naiveBayes
函数和附加参数的细节会出现在默认Web浏览器中。在拟合你关心的模型完毕之后,我强烈鼓励你对附加参数进行实验。
在本书始终展示的R代码例子中,我也引入了set.seed方法,帮助你精确重复页面上出现的结果。
目前,主要的操作系统的R包都可以获取。考虑到Windows操作系统广受欢迎,本书示例使用R的Windows版本。
专家提示
不要为记不住两个小时前输入的内容而焦虑!我也记不住!假如你在同一个R会话中登录,只需要键入:
history (Inf)
它将向你返回当前会话输入命令的完整历史。
无须等到读完整本书才在自己的分析中实践学到的方法。你几乎可以立刻体验到它们神奇的力量。你可以直接翻到有兴趣的部分,直接在自己的研究和分析中检验、创造并探索知识。
专家提示
在32位的Windows操作系统计算机上,无论你安装的内存容量有多大,R只能使用最多3GB的内存。使用下列命令可以检查内存的可用性:
memory .limit ()
使用下列命令可以从内存中移除所有的对象:
rm(list=ls())
正如标题所示,本书与数据科学模型的理解和实践有关。更确切地说,它是一种尝试,为你提供必要的R工具来轻松快捷地建立分类器。本书的目标是为读者提供完成这项工作需要的工具,并提供足够的说明,使你在自己感兴趣的领域中思考真正的应用问题。我希望这个过程不仅有益而且充满欢乐。
运用本书中的知识将改变你的数据科学实践。哪怕你在每一章只运用一个例子,在面对日益泛滥的可用数据的挑战与机遇时,你将为优胜而非仅仅生存进行了更完善的准备。
当你在自己的专业领域中成功使用了这些模型,可写信让我知道,我非常想听一听你的意见。联系我info@NigelDLewis.com或者访问www.auscov.com。
我们只能向前看到很短的路,但却可以看到还有很多事情需要做。
——艾伦·图灵
从数据中学习究竟是什么?科学家从数据中学习,企业、政府和慈善机构也一样。事实上,无论是私人、公共的,还是慈善部门的领域,几乎没有哪个领域不在部署数据驱动的模型,以发掘和利用数据中的关系。
我们置身于数据之中,亚马逊网站每天发生2.5万次销售/交付,10万个基因几乎同时测序,超过100亿张图片存储在网页上。而大约在几个月之内,英国的国家卫生局对6000万份健康记录进行了数字化处理。我们所有人每天都在使用数据,而且许多人在工作的付薪过程中都使用了数据。营销公司的分析师必须决定,他的受众/听众选择模型需要包含哪些因素。本地卫生部门的研究人员测量季节性流感的发病率。气象学家运行气候模型,计算降水的可能性、温度的变化以及云层覆盖的百分比。
公共部门和某些公司需要将海量信息转换为可操作的战略性公共/商业决策。从数据中学习提供了一系列实践性的技术和工具,来帮助开发稳健的归纳模型,用以从数据中提取可用的见解。归纳的简单含义是指观点源于经验数据,而非根据理论第一的原则来推导。
本书的首要目标是帮助你把大量数据转化为可用的知识。为此,我们将借助理论来重塑数据科学挑战的思考方式。但是,本书不是一本专门讨论引理、证明以及抽象理论细节的教科书。它为这样的读者而准备:他们希望获得一个重要的、成功的框架,用来建立有用的预测分析模型,从而为他们工作的组织以及他们服务的客户改善运营方式和提高盈利。同时务必了解,数据科学这项职业不适合那些缺乏好奇心或者技术能力的人,任何处理实证数据的职业也同样不适合。
在本章中,你会学到归纳推理与演绎推理的关键区别,确定学习问题的三大要素,以及发现使用归纳模型的一个明确框架。
1.1 归纳推理和演绎推理的基础
图1.1围绕着假设检验,展示了归纳法和演绎法之间的一个关键区别。两种方法都始于观察有趣的现象,但归纳方法更关心选择最佳的预测模型。而演绎方法更关心探索理论,主要是结合数据来检验某个理论的假设。根据经验数据的“有分量的证据”,来判断这个假设是接受还是拒绝。
图1.1 归纳和演绎
1.1.1 你曾遇到过这些事情吗?
我想起在我听过的理论经济学课上,教授曾严厉警告:“不能信任数据。”也许,这种经历并不仅仅出现在我的课堂上。一位著名的计量经济学教授曾解释道1:“经济学中有一种普遍观点,如果当前的经验证据不可信,或经济现象无法预测,那么主要是因为经济太复杂,而且产生的数据太混乱,不适合建立统计模型。”或许,你也有过类似经历。
但是,当我离开课堂,步入了经验分析的真实世界,居然很快发现,只要给我足够的数据和适合的工具,使用数据驱动的归纳法会带给我意义重大的结论。
注意
在每个可以想到的领域——商业的、工业的以及政府的,成功的数据驱动的归纳模型都已经存在,或正在建立。数据决策的模型越来越多地用来制定决策,如可以识别你的语音的智能手机,又如实施外科手术的机器人2,再如核爆炸的检测3。
1.1.2 释放归纳的力量
无论你是否在这些领域中工作,医疗诊断、手写体识别、市场、金融预测、生物信息学、经济学的领域,还是在其他任何要求经验分析的专业领域,你常常会面对这样的情况,潜在的首要原则尚未发现,或正在研究的系统过于复杂,无法通过充分详细的数学描述来提供有用的结果。我发现,数据驱动的归纳方法在以上所有情况中都有用,你也会认同这一点。
注意
在科学之外,演绎分析可能在经济学学科中占据了顶峰地位,其中大部分的焦点(甚至今天也一样)都围绕着检验和评估演绎理论的经济学有效性。事实上,经济学家对理论进行客观验证的渴望催生了新的统计学子学科——计量经济学4。
1.1.3 推断的阴阳之道
尽管归纳和演绎的区别相当大,但它们实际上也可以互补使用。对于一个研究者来说,计划一个同时包含归纳元素和演绎元素的项目是非同寻常的。
如果你曾经或长或短地从事过经验建模领域的工作,那你很可能发现这种情况:你计划执行一个归纳或演绎的项目,但没想到随着时间的推移,你又发现了其他更适合的方法来阐明你的研究问题。需要牢记的是,归纳方法或演绎方法的使用,部分地依赖于你的数据分析目标5。
注意
演绎推理优越性的相对下降,可以部分地由数据驱动模型的高度成功来解释。意大利学者马特奥·帕尔多(Matteo Pardo)和乔治·斯贝沃格里尼(Giorgio Sberveg
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询