大数据时代的R语言·数据挖掘:R语言实战pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:大数据时代的R语言·数据挖掘:R语言实战pdf/doc/txt格式电子书下载
推荐语:决胜大数据时代的利器,本书繁体版已授权到中国台湾地区
作者:黄文,王正林
出版社:电子工业出版社
出版时间:2014-06-01
书籍编号:30467821
ISBN:9787121231223
正文语种:中文
字数:102320
版次:1
所属分类:互联网+-大数据
版权信息
书名:大数据时代的R语言·数据挖掘:R语言实战
作者:黄文 王正林
ISBN:9787121231223
版权所有 · 侵权必究
前言
在大数据时代,数据挖掘无疑将是最炙手可热的技术。数据挖掘的理论和方法正日新月异地发展,数据挖掘的技术及工具,已经渗透到互联网、金融、电商、管理、生产、决策等各个领域,数据挖掘的软件也是层出不穷,其中R是最引人关注的软件。
R是一个免费的开源软件,它提供了首屈一指的统计计算和绘图功能,尤其是大量的数据挖掘方面的算法包,使得它成为一款优秀的、不可多得的数据挖掘工具软件。
本书的主要目的是向读者介绍如何用R进行数据挖掘,通过大量的精选实例,循序渐进、全面系统地讲述R在数据挖掘领域的应用。
全书分为14章,以数据预处理、基本算法及应用和高级算法及应用这三篇展开。
(1)上篇:数据预处理
由第1~5章组成,首先简要介绍数据挖掘流程、算法和工具,然后介绍R中数据分类和数据集,以及R获取数据的多种灵活的方法。最后讲述对数据进行探索性分析和预处理的方法。这些内容是使用R进行数据挖掘的最基础内容。
(2)中篇:基本算法及应用
由第6~9章组成,主要讲述数据挖掘的基本算法及应用,包括关联分析、聚类分析、判别分析和决策树,这些算法也是数据挖掘使用最多最普遍的算法。R中提供了丰富的、功能强大的算法包和实现函数,数据挖掘的初级和中级用户务必掌握。
(3)下篇:高级算法及应用
由第10~14章组成,主要讲述数据挖掘的高级算法及应用,包括集成学习、随机森林、支持向量机和神经网络,以及使用R中的工具对数据挖掘的模型进行评估与选择。对于中高级的用户,可以深入学习一下本篇的内容。
R的特点是入门非常容易,使用也非常简单,因此本书不需要读者具备R和数据挖掘的基础知识。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容,快速入门和提高。读者既可以把本书作为学习如何应用R的一本优秀的教材,也可以作为数据挖掘的工具书。
全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己的需要进行学习,根据自己在实际中遇到的问题寻找解决方案。
本书所编写的源程序,都通过了反复调试,读者可在www.broadview.com.cn网站下载,方便读者使用。
本书主要由黄文、王正林编写,其他参与编写的人员有付东旭、王思琪、钟太平、刘拥军、陈菜枚、李灿辉、钟事沅、王晓丽、王龙跃、夏路生、钟颂飞、钟杜清、王殿祜等。在此对所有参与编写的人员表示感谢!对关心、支持我们的读者表示感谢!
由于时间仓促,作者水平和经验有限,书中错漏之处在所难免,敬请读者指正,我们的电子邮箱是:wa_2003@126.com。
编 者
2014年4月18日于北京
第0章 致敬,R!
此时,你一定想知道,书的封面上停着一只什么鸟?
那我告诉你,那是Robin鸟,中文名叫知更鸟,它可大有来头,是英国的国鸟,以羽毛颜色漂亮招人喜爱著称。
我把它放在封面,首先是借用其名字首字母R,来表示R语言。最重要的是,我想到了股神巴菲特的一句关于知更鸟的名言,我想双关暗示一下——如果你还不学一些R,大数据对你来说就快结束了。
如果你想等到知更鸟报春,那春天就快结束了。——巴菲特
So if you wait for the robins,spring will be over.——Warren Edward Buffett
如果你想快速成功
你最好站在一个高的肩膀上
如果你想驾驭大数据时代
你最好懂点数据挖掘
如果你想玩转数据挖掘
你最好先玩转R!
致敬,肩膀!
可能当我们还是三好小学生的时候,我们就知道,牛顿是站在巨人的肩膀上的,现如今,我们都知道,中国所有的“二代”,不是站在老爹的肩膀上,就是踩在老丈人的肩膀上的。不得不承认,脚下的肩膀有时候是很牛的。
当你走进数据挖掘,当你走进R的世界,你会发现,R的脚下也有一个肩膀,有肩膀的R也是很牛的!
R的肩膀,是谷歌首席经济学家范里安先生发现的,先生说了好几句活,我只记住了这句“使用R,你已经站在了巨人的肩膀上”。
在此,我只想致敬一下肩膀,与“二代”无关!
我之所以能取得现在的成就,是因为我站在巨人的肩膀上。——牛顿
If I have seen further it is by standing on the shoulders of giants.——Isaac Newton
艾萨克·牛顿爵士(Isaac Newton,1643.12.25—1727.3.20),英国数学家、物理学家、天文学家和经典力学体系奠基人。
R的最美之处在于,你能够通过修改很多牛人预先编写好的包的代码,解决你想解决的各种问题,因此,事实上,使用R,你已经站在了巨人的肩膀上。——哈尔·罗纳德·范里安
The great beauty of R is that you can modify it to do all sorts of things.And you have a lot of prepackaged stuff that\'s already available,so you\'re standing on the shoulders of giants.
——Hal Ronald Varian
哈尔·罗纳德·范里安(Hal Ronald Varian),谷歌首席经济学家,美国著名研究微观经济学和信息经济学学者。
致敬,时代!
“大数据”一词,最早是全球知名咨询公司麦肯锡提出来的,“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
我们,已经身处大数据时代了,对于做数据挖掘、用R的我们来说,好时代来了!
“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉。
——摘自《纽约时报》,2012年2月的一篇专栏
摘自《纽约时报》,How Big Data Became So Big 一文
“在美国具备高度分析技能的人才(大学及研究生院中学习统计和机器学习专业的学生)供给量,2008年为15万人,预计到2018年将翻一番,达到30万人。然而,预计届时对这类人才的需求将超过供给,达到44万~49万人的规模,这意味着将产生14万~19万的人才缺口。仅仅四五年前,对数据科学家的需求还仅限于Google、Amazon等互联网企业中。然而在最近,重视数据分析的企业,无论是哪个行业,都在积极招募数据科学家,这也令人手不足的状况雪上加霜。”
——摘自麦肯锡全球研究院的报告Big data:The next frontier for innovation,competition and productivity(大数据:未来创新、竞争、生产力的指向标),2011.5
……2017年大数据技术和服务市场将增至324亿美元,实现27%的年复合增长率。……大数据不仅是新兴行业,也是市场的主要驱动力,它正在酿成一个主要的市场。
——摘自国际数据公司IDC的预测报告Worldwide Big Data Technology and Services 2013-2017 Forecast,2013.12
致敬,人才!
Google首席经济学家范里安先生,在2008年10月与麦肯锡总监James Manyika先生的对话中,曾经讲过下面一段话:“我总是说,在未来10年里,从事最有意思的工作的人将是统计学家。人们都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为20世纪90年代从事最有趣的工作的人?在未来10年里,获取数据——以便能理解它、处理它、从中提取价值、使其形象化、传送它——的能力将成为一种极其重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。”
范里安教授在当初的对话中使用的是statisticians(统计学家)一词,虽然当时他没有使用数据科学家这个词,但这里所指的,正是现在我们普遍所指的数据科学家。
对数据科学家的关注,源于大家逐步认识到,Google、Amazon、Facebook等公司成功的背后,存在着这样一批专业人才。这些互联网公司对于大量数据不是仅进行存储而已,而是将其变为有价值的金矿——例如,搜索结果、定向广告、准确的商品推荐、可能认识的好友列表等。
仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后10年IT行业最重要的人才”了。
摘自The Emerging Role of the Analyst一文
在国外,据统计,目前世界500强企业中,有90%以上都建立了数据分析部门。IBM、微软、Intel等公司也积极投资数据业务,建立大数据部门,培养数据分析团队。
美国的小伙伴们,在数据挖掘、数据科学等方面比我们下手早。2011年,美国的加州大学伯克利分校开始开设《数据科学导论》课程;伊利诺伊大学香槟分校从2011年起举办“数据科学暑期研究班”;哥伦比亚大学从2013年起开设《应用数据科学》课程,并从2013年起开设相关培训项目,还计划从2014年起设立硕士学位,2015年设立博士学位;纽约大学从2013年秋季起设立“数据科学”硕士学位;在英国,邓迪大学从2013年起设立“数据科学”硕士学位……
怎么办,那就自学吧,从R开始,站上那个肩膀,做今后10年最重要的人才吧!
致敬,R瑟!
1976年,John Chambers在贝尔实验室开发的S语言是为了替代昂贵的SPSS和SAS工具。如果说S是VAX和UNIX小型机时代的产物,那么R则是PC和Linux时代的产物,R语言大量借用了S语言的方法。
1992年,新西兰奥克兰大学的两位统计学教授,两位“R姓”先生(R Sir,“R瑟”)Ross Ihaka和Robert Gentleman成为了同事,为了方便教授初等统计课程,这哥儿俩开发了一种语言,而恰巧他们名字的首字母都是R,于是R便成为这门语言的名称。
这两位R教授也是R开发团队的核心成员,值得注意的是,S语言的发明者John Cambers也是R开发团队的成员,因此不难理解R语言的一些数据处理路径与S语言相同。
R可以看作S的一种实现,Insightful公司开发的S-PLUS也是S的实现版本,2004年Insightful把S-PLUS授权给了朗讯科技,后来又被Tibco软件于2008年收购。
R语言的发明者Ross Ihaka 和Robert Gentleman
与S和S-PLUS不同的是,R并不是象牙塔里炮制出的代码,而是一个由分析师和程序员构成的社区的产物,这个社区为处理各种数据集创建了超过5000个函数包和2500个插件。
今天,根据Revolution Analytics的统计,R被全球超过200万个量化分析师采用。Revolution Analytics成立于2007年,并开发出了R的并行实现,该公司采用了开放内核的方式开发R,为开源软件包推广商业支持,同时扩展R环境,提升其在计算机集群上的表现,并将其与Hadoop集群对接。
在2013年中,数据挖掘专业网站KDnuggets做了一个关于“什么样的程序或者统计语言是你在做分析、挖掘、科学计算的时候所需要的?”的调查。
调查结果是:最受欢迎的是R语言(61%的调研会员在用),然后是Python(39%)、SQL(37%)等,每个调研对象平均使用2~3种语言。
2013年KDnuggets的调查结果
R位列最受欢迎的数据挖掘软件,其实不足为奇,因为它已经三连冠了!
2012年KDnuggets的调查结果
2011年KDnuggets的调查结果
上篇 数据预处理
第1章 数据挖掘导引
数据挖掘这一学科已成为统计学、机器学习等诸多领域的研究热点,数据挖掘技术已成为大数据时代最热门的技术。
数据挖掘近年来发展异常迅猛,不仅产生了大量不同类型、功能强大的挖掘算法
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询