当前位置:
首页 > 互联网+ > 大数据 > 大数据时代小数据分析pdf/doc/txt格式电子书下载

大数据时代小数据分析pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

大数据时代小数据分析pdf/doc/txt格式电子书下载

书名:大数据时代小数据分析pdf/doc/txt格式电子书下载

推荐语:

作者:屈泽中著

出版社:电子工业出版社

出版时间:2015-07-01

书籍编号:30457822

ISBN:9787121264696

正文语种:中文

字数:161604

版次:

所属分类:互联网+-大数据

全书内容:

大数据时代小数据分析pdf/doc/txt格式电子书下载








内容简介


本书是一本大数据时代下进行小数据分析的入门级教材,通过梳理数据分析的知识点,将各类分析工具进行串联和对比,例如:在进行线性规划的时候可以选择使用Excel或LINGO或Crystal Ball。工具的应用难易结合,让读者循序渐进地学习相关工具。JMP和Mintab用来分析数据,分析的结果使用Excel、LINGO、Crystal Ball来建立数据模型,最后使用Xcelsius来动态展示数据分析的结果。书中以两个人的对话为叙述方式,场景描写多,容易进入学习状态,完全是用生动的故事和实用的案例尽可能地贴近生活和工作,让数据分析生动有趣,基本上有高中数学知识就可以理解线性规划等数据分析内容。


本书不仅介绍Excel而且介绍使用其他工具软件进行数据分析,可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知,也适合初中级数据分析师或者想进入数据分析行业的有志之士参考阅读。

序  言


笔者自2008年的一个偶然机会第1次接触“数据挖掘”(Data Mining)这个新名词以来,在数据挖掘应用相关领域度过了6年。笔者的专业是化工,整天应该与塔、釜、换热器、化学反应和物料守恒等打交道。开始接触这个专业的目的是为了利用数据分析的一些功能来优化生产运营,让企业以更高的效率、更低的成本和更好的质量运营,为此需要数据积累、数据分析和数据模型。


2008年,国内企业在数据挖掘应用中摸索起步,远不如现在大数据火热。如今大数据最火的商业应用主要集中在互联网、银行和电信等领域。基于行业应用限制,笔者无法接触到真正的大数据挖掘,但是幸运的是还是碰到了职业和兴趣的重合点。


这几年的摸索是笔者职业生涯中很重要的一段时光,因此有必要将自己一路走来的心得与体会、感悟和挫折整理出来,一则是对自己的这段职业生涯做一个交代,特别是对一路引导、鼓励和支持笔者的师友和家人;二则是合理地引导类似笔者半道出家的学习者,对数据分析有兴趣却没有深厚的统计学知识和IT功底人士,笔者相信本书的内容对于广大对数据分析应用感兴趣的初学者来说都是一种宝贵经验。在学习数据分析的道路上笔者深刻认识到一个道理,即一个成功的数据分析实践的核心因素不是数据分析技术,而是对业务理解和分析思路。这也是当初学习数据分析的初衷,初学者切不可为数据分析而分析数据。


大数据挖掘需要精通数据库、计算机编程和深厚的统计学基础,有的甚至涉及运筹学范畴,是一门复合型的应用科学。大数据的案例现在是一抓一大把,如国外典型的“啤酒与尿布”的案例,在了解数据分析之前不妨来看看几个有趣的应用案例。


(1)数据新闻让英国撤军


2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”,即将伊拉克战争中所有的人员伤亡情况均标注于地图之上,地图上一个红点代表一次死伤事件。用鼠标单击红点后弹出的窗口则有详细的说明,包括伤亡人数、时间和造成伤亡的具体原因。密布的红点多达39万个,显得格外触目惊心,如图0-1所示。此新闻一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。

大数据时代小数据分析pdf/doc/txt格式电子书下载

图0-1 伊拉克战争中所有的人员伤亡情况


(2)大数据与乔布斯癌症治疗


乔布斯是世界上第1个对自身所有DNA和肿瘤DNA进行排序的人,为此他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了几年的生命。


(3)Google成功预测冬季流感


2009年,Google通过分析5 000万条美国人最频繁检索的词汇将其和美国疾病中心在2003—2008年间季节性流感传播时期的数据进行比较。并建立了一个特定的数学模型,最终成功预测了2009冬季流感的传播,甚至可以具体到特定的地区和州。


(4)奢侈品销售


PRADA在纽约的旗舰店中每件衣服上都有RFID码,每当一个顾客拿起一件PRADA进入试衣间,RFID会被自动识别;同时数据会传至PRADA总部。每一件衣服在哪个城市、哪个旗舰店、什么时间被拿进试衣间和停留多长时间,数据都被存储起来加以分析。如果一件衣服销量很低,以往的做法是直接收回;如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多,则说明这件衣服的下场会截然不同,或者在某个细节的微小改变就会重新制造出一件非常流行的产品。


除了国外这些经常用于商业培训课程的案例外,数据分析其实并不遥远,在国内也不乏应用。例如,共和国的开国元帅林彪就曾经依靠敏锐的数据嗅觉和军事天赋成功捣毁敌营总部。


目前国内的大部分高校还没有开设数据挖掘这门专业课程,大数据分析需要依靠庞大的数据库,即需要各专业的人士通力合作,是一个团队作业。类似笔者这种半道出家的个人学习者在不具备团队协作的条件下,可以在样本数据的分析下工夫,样本数据也可以称为“小数据”,因此本书的名称定为《大数据时代的小数据分析》。


本书主要介绍应用数据分析的一系列工具,如:Excel、LINGO、Crystal Ball、JMP、Minitab和Xcelsius等,涉及的分析有预测、风险分析、优化求解、假设检验、相关分析、回归分析和聚类分析等。但所有这些软件都不是最新版本,如Excel使用2010版;Minitab使用的V15版。在使用软件时最重要的不是版本的最新,而是理解其功能和特点,灵活地运用。即使是Excel 2003版本,只要运用得当,同样能发挥强大的功能。很多不同功能的软件都可以完成,本书主要结合不同软件的不同特点介绍其应用。


书中涉及一些专业名词和原理,如标准差和假设检验等,本书没有给出生涩难懂的定义,而只是通俗地解释这些名词。这样做原因有二:一则作为半道出家的笔者不愿,也不会定义这些理论;二则定义这些名词或原理只会让本来就让人头疼的数据分析显得更加枯燥。如果读者需要准确理解这些专业名词,可以参考其他资料。


本书中列举的一些应用都是尽可能地贴近生活和工作,让数据分析看起来尽可能有趣一些,在排列各章节的顺序时也尽量遵循软件的功能之间的逻辑关系。


本书在每一章均会应用一些有趣的案例引出讨论的重点,其中两人按照师徒问答的形式模拟实际工作中的场景循序渐进地学习分析工具,让枯燥的数据分析显得生动一些。


本书适合的读者如下。


(1)对数据分析应用有兴趣的人士。


(2)对统计、数学和码农等深奥理论不感兴趣者。


(3)想尝试自身专业的数据分析,提高技能者。


(4)想尝试数据分析工作并寻找切入点者。


本书不适合的读者如下。


(1)喜欢拍脑袋和胸脯者。


(2)见了数据就想呕吐者。


(3)爱好SAS/R/Python等豪门软件的狂热者。


(4)统计、数学和IT专业的大牛。


(5)对数据有深刻理解的科学家。


笔者是从化工这个与数据分析无关的专业开始学习数据分析的,相信只要读者能静心地读完本书也会有所收获。但是不能指望数据分析能解决所有的问题,它不是万能的。一个成功的数据分析实践的核心因素不是数据分析技术,而是对业务的理解和分析思路。


全书的原理讲解和工具操作同步,即在操作软件的同时理解其原理;列举的案例涵盖多个行业,根据案例引出所需要讨论的知识点;然后根据知识点举一反三,串联尽可能多的数据分析入门知识;同时将介绍其适合的分析工具。


在编写本书之前笔者与人大经济论坛(http://bbs.pinggu.org/)合作开发过相关的视频培训课件,其中部分工具与本书中介绍的工具相同,有需要视频课件的读者可以试听(前3节免费)。


(1)Crystal Ball初中级课程:http://www.peixun.net/view/208.html。


(2)Crystal Ball高级课程:http://www.peixun.net/view/216.html。


(3)LINGO初级课程:http://www.peixun.net/view/251.html。


(4)Minitab初级课程:http://www.peixun.net/view/281.html。


由于笔者的水平有限,对数据分析的理解不够透彻,加之编写时间仓促,因此书中难免会出现一些错误或不准确之处,恳请读者批评指正。

第1章
知己知彼,百战不殆
风险与预测分析


1.1 预测从世界杯开始


1.2 手机绑定消费的秘密


1.3 笔记本电脑出国冒险记


1.4 慧眼识分布


1.5 分布72变


1.6 做最优秀的面包店长

1.1 预测从世界杯开始
预测一般根据以往发生的事情来推断即将发生事情的风险概率,它与风险如影随形,即根据已知的风险来推测未知的风险。

【场景再现】
Mr Shu和Miss Ju是一家公司运营分析部的职业数据分析师,前者是一名入职多年精通业务的资深数据分析师;后者则是职场新人,对数据分析有强烈的爱好。但由于在学校期间未接受过专业数据分析培训,因此Mr Shu负责对Miss Ju进行入职培训。
Mr Shu和Miss Ju也都是资深球迷,自然不会错过2014年世界杯夺冠预测这样的练习机会。
Mr Shu:“2014年世界杯即将开战,你觉得谁的夺冠概率比较大?”
Miss Ju:“我个人超级喜欢德国队的硬朗风格,但2014年的举办地在五星上将巴西的主场,可能南美国家的机会会更大一些吧。我们球迷完全是在这里拍脑袋,没有数据支撑,完全是靠猜测啦,你觉得呢?”
Mr Shu:“直观感觉也很重要吧?不仅是我们球迷在这里拍脑袋凑热闹,专门的投资公司也是不会放过世界杯这样的捞金机会,著名的投资公司高盛公司就对2014年的世界杯进行其模型分析。”
Miss Ju:“真的吗?这种巨无霸分析出来的应该算有理有据吧?分析的结果怎么样?”
Mr Shu:“高盛在推出世界杯报告预测之余,围绕历届赛事对经济和股市的影响大做文章,发表了一份长达60页的分析报告。根据该行的统计模型,4强将为巴西、德国、阿根廷和西班牙,决赛则是巴西和阿根廷之争,主办国胜。”
Miss Ju:“哇,如此TIPS,实在大路货!这个预测就好比一年一度的香港国际赛马日,评分最高的4匹马顺序归来。既无惊喜,更乏惊吓。从投机角度出发毫无刺激性可言,有什么数据支撑吗?”
Mr Shu:“高盛的经济学家通过建立数据模型分析了自1960年以来超过14 000场国际比赛,最终得出了本届世界杯的预测结果。世界杯五冠王巴西在家门口捧得第6座金杯的可能性高达48.5%,而名列第2的则是桑巴军团的宿敌阿根廷。不过,潘帕斯雄鹰夺冠的几率为14.1%,几乎只是巴西夺冠几率的1/3而已。”
Miss Ju:“那按照高盛的分析,巴西应该胜券在握了吧?不过好像也没什么惊喜,巴西本来就是夺冠大热门。”
Mr Shu:“是的,这份报告的撰写人,即高盛首席经济学家也表示:‘当然,这个结论一点也不令人惊讶。作为两支足球史上最成功的球队,巴西和阿根廷杀入世界杯决赛实至名归。但巴西在模型预测中具有如此巨大的优势还是多少让我们感到惊讶。’巴西几乎是阿根廷的3倍呢。”
Miss Ju:“其他强队的夺冠概率怎么样?”
Mr Shu:“南美双雄之外,德国队成为最大热门。其捧杯几率为11.4%,成为欧洲球队中最具冠军相的球队;西班牙(9.8%)和荷兰(5.6%)位居这份榜单的第4名与第5名;喀麦隆、阿尔及利亚和洪都拉斯则被高盛认为夺冠完全不可能。”
Miss Ju:“作为德国的铁杆球迷,我认为德国自然是大热门。但同为欧洲强队的英国和意大利呢?要知道意大利也是四星上将啊。”
Mr Shu:“贵为欧洲传统豪门的英格兰队被高盛认为只有1.4%的几率最终捧杯,高盛分析英格兰最终将会成为小组第3无法出线。并将一场不胜灰溜溜地离开巴西,而同组中晋级下一轮的将是意大利和乌拉圭。不过英格兰小组赛同组

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示