当前位置:
首页 > 互联网+ > 大数据 > 实用预测分析pdf/doc/txt格式电子书下载

实用预测分析pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

实用预测分析pdf/doc/txt格式电子书下载

书名:实用预测分析pdf/doc/txt格式电子书下载

推荐语:

作者:(美)拉尔夫·温特斯(RalphWinters),刘江一,陈瑶,刘旭斌等译

出版社:机械工业出版社

出版时间:2018-07-01

书籍编号:30421150

ISBN:9787111603351

正文语种:中文

字数:183583

版次:1

所属分类:互联网+-大数据

全书内容:

实用预测分析pdf/doc/txt格式电子书下载







译者序


接触本书之前,我们刚刚完成了另外一本书《Thoughtful Machine Learning with Python》的翻译工作—那是一本非常适合机器学习入门的图书,也是该领域中的经典之一。而讯速决定开展对本书的翻译,自然也是因为对其喜爱有加:


第一,预测分析是机器学习中非常有应用价值的一个子领域;


第二,本书相当适合作为一本进阶的教材,能帮助读者对机器学习在真实世界的应用有直观的、详细的认识;


第三,可以借此机会熟悉一门在机器学习和统计学领域广受欢迎的编程语言:R语言。


可能很多读者被本书吸引,也是出于类似的原因吧。


这里谈谈R语言。国内很多读者对R语言还不是很熟悉,但R语言在国外高校的统计系是一门必修的课程。R语言在部分运行环境中是开源的,这使它具有很强的生命力,其功能也日益丰富、强大、稳定。安装R语言本身所使用的资源很少,而且对不同操作系统的兼容性令人满意。可以用它方便地对数据进行必要的处理,并绘制出漂亮的图形以供深入观察分析。在项目初期选用R语言作为建模语言,数据接口的兼容性较高,能够快速搭建模型,并且和传统的统计型语言相比,可移植性较高,对机器学习模型的可扩展支持Package的资源也非常丰富。值得注意的是,从语言开发产品的能力来看,C语言和Java语言的商业可扩展性较高。例如商业化集成使用R语言进行大数据建模分析,主流服务器端的R语言环境多是基于Microsoft R Server,其他基于Linux服务器的R语言环境多由R语言IDE开发商来定制化支持。总结而言,R语言能够快速探索、搭建初期的模型、原型,可以称其为学术派语言,值得期待的是,R语言正在向商业化语言渐渐迈进。


有人说:“R固然好用,但学起来却头疼无比!”放心,已经有人用R编写好了丰富的示例代码,并详加解释,让你知道为何要这么做、为何不选另一种方法,而你还有哪些其他选择等。没错,这些示例在本书中随处可见。而且作者还会贴心地反复提醒读者注意避免某些错误,其重视程度,让人禁不住猜测,作者本人是否也是在各种错误中摸爬滚打,才练成了今天的段位……


还有人说:“数据量一大,R就慢得像爬行一样。”经验丰富的作者当然不会忘记为你提供趁手的解决方案,比如SparkR、抽样等。在本书的多个示例中,数据量较小的示例用于演示算法的基本原理,使用基本R足够。数据量大的示例中会展示何时需要从基本R转换到SparkR,高效地完成处理和抽样,再转换回基本R,开始绘制图形等R擅长的任务。


本书对算法的解释简练而形象,但它本质上仍是一本偏重动手操作类的书籍。本书的目的是通过真实的数据绘制出各种对比图形,让你真真切切地感受到预测分析项目是如何实现的,并会指导人们做出判断和行动——有时会令人莫名激动,恨不得马上找到真实数据集来动手试一试,看自己能否利用强大的预测分析能力去解释世界、影响世界。


以上只是我们觉得本书对读者帮助较大的地方,本书当然不止这一两项优点,它还有很多精彩等待你去发现。


在本书的翻译过程中,陈瑶翻译了第1章(部分)、第4章、第7章和第12章,刘旭斌翻译了第2章、第5章、第8章和第11章,刘江一翻译了前言、第1章(部分)、第3章、第6章、第9章和第10章。


感谢诸位译者在百忙之中挤出时间完成了这项有趣的工程!


感谢机械工业出版社华章公司的编辑在翻译过程中给予的悉心帮助和指导!


刘江一


参与本书翻译的初衷,是因为当时负责的有关性别预测分析(Gender Analysis)和情感倾向分析(Sentiment Analysis)的项目,在初期选用了R语言作为建模语言,数据接口的兼容性较高,能够快速搭建模型,并且和传统的统计型语言相比,可移植性较高,对机器学习模型的可扩展支持Package的资源也非常丰富。值得注意的是,从语言开发产品的能力来看,C语言和Java语言的商业可扩展性较高。例如商业化集成使用R语言进行大数据建模分析,主流服务器端的R语言环境,多是基于Microsoft R Server,其他基于Linux服务器的R语言环境多由R语言IDE开发商来定制化支持。


伴随着项目的进行,翻译完本书,总结而言,R语言能够快速探索、搭建初期的模型、原型,可以称其为学术派语言,值得期待的是,R语言正在向商业化语言渐渐迈进。


陈瑶

关于作者


Ralph Winters的职业生涯始于在一个音乐表演权利组织担任数据库研究人员(他甚至会作曲),继而延伸到医疗调查研究,最后落脚于分析和信息技术领域。他已经给很多名列世界500强的大企业提供过自己在统计和分析方面的经验,包括金融、直销、保险、医疗和制药领域的企业。他的工作涉及很多不同类型的预测分析项目,包括客户保留、反洗钱、客户之声文本挖掘分析,以及医疗风险和客户选择模型。


他如今在一家医疗服务公司担任数据架构师,在数据和高级分析组工作。他很喜欢与一个拥有业务分析师、技术专家、保险精算师及其他数据科学家的智囊团协同合作。


Ralph认为自己是个务实的人。除了为Packt出版社写作了《Practical Predictive Analytics》之外,他还参与写作了另外两本著作,即2014年9月Elsevier出版的《Practical Predictive Analytics and Decisioning Systems for Medicine》(Miner等人著),以及2013年在马萨诸塞州剑桥第11届年度文本和社会分析峰会上发表的《Practical Text Mining with SQL using Relational Databases》。


Ralph和他挚爱的妻子Katherine、迷人的女儿Clair与Anna居住在新泽西州,Ralph的个人网站是ralphwinters.com。

关于审校者


Armando Fandango在REAL公司担任首席技术官,开发基于AI的产品和平台,用于在品牌、代理、出版商和读者之间生成智能的连接。Armando创立了NeuraSights,目标是使用神经网络和机器学习从大数据和小数据中发掘洞见。在此之前,他还担任过Epic工程咨询集团有限公司的首席数据科学家和首席技术官,曾经与政府部门和大型个人组织合作开发智能产品,涉及机器学习、大数据工程、企业数据仓库和企业仪表板。Armando曾经在Sonobi公司担任数据主管,领导若干个数据科学与工程团队,为Sonobi的AdTech平台JetStream推动大数据和预测分析技术及策略。Armando曾经在中佛罗里达大学的高级计算研究中心管理高性能计算(HPC)的咨询和基础建设。Armando还曾经为高科技初创公司QuantFarm、Cortxia Foundation和Studyrite做过顾问团成员及AI专家。Armando的著作包括一本名为《Python Data Analysis》(第2版)的书,以及在国际期刊和会议上发表的研究论文。


Alberto Boschetti是一位数据科学家,在信号处理和统计学方面有丰富的经验。他拥有电信工程博士学位,现在居住于伦敦。在他工作的项目中,日常面对的挑战涉及自然语言处理(NLP)、机器学习以及分布式处理。他对工作极具热忱,持续跟进数据科学技术的最新进展,参加小组讨论、会议以及其他活动。他的著作有《Python Data Science Essentials》《Regression Analysis with Python》和《Large Scale Machine Learning with Python》,全部由Packt出版。

前言


这是另一类关于预测分析的书。我写这本书的初衷是为传统分析人员介绍一些使用开放源码工具的预测分析技术。


不过,我很快意识到,传统分析工具的某些特性可以使新一代数据科学家受益。我曾经在企业数据解决方案方面做了大量工作,我很有兴趣撰写一些不同类型的主题,如分析方法、敏捷、元数据、SQL分析和可重复的研究,这些研究在一些数据科学/预测分析书中经常被忽略,但对分析项目的成功是至关重要的。


我还想写一些很少被提及的分析技术,这些技术超出了标准回归和分类任务的范围,例如使用生存分析来预测客户流失,使用购物篮分析作为推荐引擎。


由于基于云计算的解决方案已经有了很大的进展,我认为增加一些关于云分析(大数据)的内容很重要,所以我加入了一些在Spark环境中开发预测分析解决方案的章节。


本书的重点之一是触类旁通,我希望无论你的技术方向是什么,也无论你如何理解数据科学、预测分析、大数据,甚至是诸如预测这样的术语,都可以在这里找到适合自己需求的内容。


此外,作为数据科学团队的一部分,我要向领域专家们致敬。通常情况下,这些精通领域业务知识的分析师没有耀眼的头衔,但他们对于分析项目的成功至关重要。希望我讨论的一些话题能打动他们的心弦,让他们对预测分析的一些技术概念更感兴趣。


当Packt邀请我写一本关于预测分析的书时,我首先想到的是寻找一种优秀的开源语言,来弥合传统分析与当今数据科学家之间的鸿沟。我认真地考虑过这个问题,是因为每种语言在如何表达问题的解决方案方面都有细微的差别。然而,我决定最终不在意那些细节,因为预测分析这个概念不是依赖于任何一种编程语言的,而且编程语言的选择通常由个人偏好以及你所在的公司决定。


我最终选择了R语言,因为我的专业背景是统计学,我觉得R语言具有良好的统计学严谨性,现在它不但已经和SAS等适合的软件做了合理的整合,而且还与关系数据库系统以及Web协议有很好的整合。它还具有出色的绘图和可视化系统,以及用户贡献的许多好用的软件包,涵盖了大部分的统计和预测分析功能。


关于统计数据,我建议你尽可能多地学习相关知识。了解统计数据可以帮助你区分优良的模型与糟糕的模型,并通过了解基本概念——如中心倾向度量(平均值、中位数、众数)、假设检验、p值和效应大小——来帮助你识别不良数据中的许多问题。如果你了解数据统计,将不再仅仅以自动的方式运行封装好的软件,而是可以多少了解一些底层的运行机制。


R语言的一个缺点是它在内存中处理数据,因此在单个PC上使用时,软件会限制数据集的大小,使之处理不了更大的数据集。对于本书中使用的数据集,在单个PC上运行R程序来处理应该没有问题。如果你有兴趣分析大数据,本书将用几章的篇幅讨论在云环境中的R和Spark,你可以在这些章中看到如何处理分布在许多不同计算机上的大型数据集。


谈到本书中使用的数据集,我不想使用那些你经常看到的、被人们反复分析的数据集。其中一些数据集的确非常适合用来演示技术,但我想要一些新的东西。然而,我没有看到多少我认为对本书有用的数据。有些数据来源不明,有些需要正式的使用许可,有些缺少好的数据字典。所以,在许多章节中,我最终使用R中的模拟技术生成自己的数据。我觉得这是一个不错的选择,因为借此机会我能够介绍一些可以在工作中使用的数据生成技术。


我使用的数据涵盖了广泛的范围,包括市场营销、零售和医疗保健应用。我本来希望能增加一些财务方面的预测分析用例,但时间不够用了。也许我会把这方面的内容留到另一本书中去讲!


本书主要内容


第1章从介绍预测分析的发展历史开始,然后讨论预测分析从业人员的一些不同角色,并描述他们从事的行业。接下来讨论在PC上组织预测分析项目的方法,介绍R语言,并以简短的预测模型为例结束该章。


第2章讨论如何将预测模型的开发过程组织成几个阶段,每个阶段都有不同的目标,如探索和问题定义,最后是预测模型的实际开发。该章讨论两种重要的分析方法:CRISP-DM和SEMMA。在该章中贯穿了一些示例代码,以展示一些方法的核心思想,希望你不会感到枯燥。


第3章介绍可以将自己的输入数据引入到R程序中的各种方法。该章还讨论使用标准SQL函数和R dplyr包的各种数据预处理方法。没有输入数据?没问题。该章将展示如何使用R语言的wakefield包生成你自己的模拟数据。


第4章从对有监督算法和无监督算法的讨

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示