白话机器学习算法pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:白话机器学习算法pdf/doc/txt格式电子书下载
推荐语:机器学习算法工程师入门教程,算法及数据科学入门图书,涵盖回归分析、神经网络、决策树、A/B测试等,列为斯坦福大学大数据基础课程教材
作者:(新加坡)黄莉婷,苏川集,武传海译
出版社:人民邮电出版社
出版时间:2019-02-01
书籍编号:30471588
ISBN:9787115506641
正文语种:中文
字数:74068
版次:
所属分类:互联网+-人工智能
版权信息
书名:白话机器学习算法
作者:(新加坡)黄莉婷 苏川集
译者:武传海
ISBN:9787115506641
版权所有 · 侵权必究
序
如今,大数据已经成为一大产业。随着数据逐渐主导我们的生活,“炼数成金”几乎成为每个机构都关注的焦点,各种模式识别和预测技术也成为提升业务能力的新手段。比如,商品推荐系统对消费者和商家都有好处,它会提醒消费者关注自己可能感兴趣的商品,同时也会帮助商家赚取更多的利润。
然而,大数据并非数据科学的全貌。数据科学是分析和利用数据的一门综合性学科,其范围涵盖机器学习、统计学和相关的数学分支。其中,机器学习占据首要位置,它是驱动模式识别和预测技术的主动力。机器学习算法是数据科学的力量之源,它和数据一起产生极其宝贵的知识,并且帮助我们以新的方式利用已有信息。
对于外行而言,要想理解数据科学如何推动当前的数据革命,就需要对这个领域有更好的认识。尽管现在对数据素养的需求很大,但是由于担心缺乏相关技能,一些人对数据科学领域敬而远之。
这正是莉婷和川集写作本书的缘由所在。我对两位作者的写作风格较为熟悉;在拜读本书之后,我发现这的确是专为外行写的数据科学书,两位作者特意省略了复杂的数学内容,从较高的层次讲解相关概念。但请不要误会,这并不意味着本书没有实质内容;相反,“干货”还不少,并且简洁精练。
你可能会问:本书采用的讲解方法有什么好处呢?实际上好处多多,并且对于外行来说,这种方法比普通的方法更可取。假设你对汽车的工作原理颇感兴趣,但是一窍不通,那么相比阅读深奥的燃烧学内容,你可能更容易接受对汽车零部件的概括性介绍。了解数据科学也是如此:如果你对这个领域颇感兴趣,那么在深入研究数学公式之前,先从宽泛的概念入手比较容易。
第 1 章通过短小的篇幅讲了数据科学的一些基本概念,让每一位想入门数据科学的读者都拥有相同的知识基础;接着阐述算法选择等常被入门类读物所忽略的重要概念,以此促使读者进一步了解数据科学领域,并为读者提供一个完整的学习框架。
两位作者本来可以在书中讲解各种数据科学概念,而且讲解方法也有很多。但是,他们特意把讲解重点放在了对数据科学极其重要的机器学习算法上,并辅以相应的任务场景,这真是明智之举。 均值聚类、决策树、最近邻等算法得到了应有的重视。此外,两位作者还对高级的分类和集成算法(比如支持向量机,它常常因为复杂的数学问题而令人生畏)以及随机森林做了讲解。当然,书中还讲了神经网络,它是当前的深度学习热潮背后的驱动力。
本书的另一个优点是,每个算法的讲解都配有直观的示例,比如通过预测犯罪行为介绍随机森林,以及在分析影迷性格特征时讲聚类。这些示例都是作者精心挑选的,有助于理解相关算法。与此同时,讲解并没有涉及高等数学知识,这样做有利于保持你对数据科学的兴趣和学习动力。
如果你正打算学习数据科学或相关算法,并且正在寻求一个切入点,那么我强烈建议你阅读本书。在我看来,本书是无与伦比的数据科学入门读物。有了它,数学不再是数据科学之路上的拦路虎。
Matthew Mayo
数据科学家、KDnuggets 编辑
前言
本书由分别毕业于英国剑桥大学和美国斯坦福大学的数据科学爱好者黄莉婷和苏川集为你呈现。
我们发现,虽然数据科学被越来越多地用来改善决策,但是很多人对它知之甚少。鉴于此,我们把一些教程汇编成书,以便更多人学习。不管你是心怀抱负的学生,还是商业精英或其他什么人,只要你对数据科学充满好奇,都可以通过本书学习。
每篇教程介绍一种数据科学技术,并讲解其重要功能和基本思想,但内容不会涉及数学。此外,我们还将结合现实世界中的数据和实例对这些技术做具体阐释。
本书得到了不少朋友的帮助,没有他们,本书就无法面世。
首先,我们要感谢 Sonya Chan,她是本书英文版的文字编辑,也是我们的好朋友。她巧妙地把我们两人的写作风格融合在一起,确保将我们各自讲解的内容衔接得天衣无缝。
其次,感谢 Dora Tan,她是一位才华横溢的平面设计师,本书英文版的排版设计和封面设计都出自她之手。
感谢我们的朋友 Michelle Poh、Dennis Chew 和 Mark Ho,他们提出了许多宝贵的建议,使本书读起来更容易理解。
还要感谢密歇根大学安娜堡分校的 Long Nguyen 教授,以及斯坦福大学的 Percy Liang 教授和 Michal Kosinski 博士。他们耐心地培养我们,并且无私地分享自己的专业建议。
最后,我们还要感谢彼此。尽管有时会争吵,但我们仍然是好朋友。我们一起并肩作战,直至实现最初目标。
电子书
扫描如下二维码,即可购买本书电子版。
为何需要数据科学
假设你是年轻的医生。有位患者来到你的诊所,跟你抱怨说自己呼吸困难、胸部疼痛,并偶尔伴有胃灼热。于是,你给他检查血压和心率,发现一切正常,并且他没有其他病史。
然后,你发现他偏胖。由于他说的症状在体重超标的人群中普遍存在,因此你安慰他说,“不用担心,没什么大问题”,并且建议他抽空多锻炼身体。
上述诊断常常是误诊。心脏病患者与肥胖症患者表现出的症状相似,医生经常忽视这一点,而没有为患者做进一步检查。如果进一步检查,就可能查出更严重的疾病。
人类的判断力有一定的局限性,有限、主观的经验和不完备的知识都会影响它。这会破坏决策过程,那些缺乏经验的医生很可能就此放弃对患者做进一步检查,从而无法得到更准确的诊断结论。
在这种情况下,数据科学就能派上大用场。
数据科学技术不依赖于个人的判断力,它使得我们可以利用来自多个数据源的信息做出更好的决策。例如,可以查看记录着类似症状的病历,从中发现先前那些被忽视的诊断结果。
借助现代计算机和高级算法,我们能够做到以下几点。
- 从大型数据集中发现隐藏的趋势。
- 充分利用发现的趋势做预测。
- 计算每种结果出现的概率。
- 快速获取准确结果。
本书是数据科学及其算法的入门书,在讲解时采用了通俗易懂的语言。(不谈数学!)为了帮助你理解主要概念,本书采用了直观的解释方式,并且配有大量的插图。
每种算法各自成章,并且配有应用实例来解释其原理。书中用到的数据都可以从互联网上获得 1。
1关于如何获得数据集,请访问图灵社区并点击页面右侧的“随书下载”:http://www.ituring.com.cn/book/2618。——编者注
每一章的最后都有小结,便于你复习这一章学过的内容。本书最后附有各种算法优缺点的比较,以及常用术语表,供你参考学习。
我们希望本书能够让你真正了解数据科学,并且帮助你正确地运用数据科学做出更好的决策。
让我们一道踏上数据科学之旅吧!
第 1 章 基础知识
要想完全搞明白数据科学算法,必须先从基础知识学起。本章主要介绍数据科学的基础知识,它是本书最长的一章,篇幅大概是后续各章(讲解各种具体算法)的两倍。通过学习本章,你将对绝大多数数据科学研究涉及的基本步骤有大致的了解。这些基本步骤会帮助你评估上下文以及约束条件,并选出适合在研究中使用的算法。
数据科学研究有 4 个主要步骤。首先,必须处理和准备待分析的数据。其次,根据研究需求挑选合适的算法。再次,对算法的参数进行调优,以便优化结果。最后,创建模型,并比较各个模型,从中选出最好的一个。
1.1 准备数据
数据科学就是关于数据的科学。如果数据的质量差,那么分析得再精确也只能得到平淡无奇的结果。本节将介绍数据分析中常用的数据格式,还会涉及一些用来改进结果的数据处理方法。
1.1.1 数据格式
在数据分析中,表格是最常用的数据表示形式,如表 1-1 所示。表格中的每一行就是一个数据点,代表一个观测结果;每一列是一个变量,用来描述数据点。变量也叫属性、特征或维度。
表 1-1 假设一些动物顾客去超市购物,以下是交易数据集。每一行代表一笔交易,每一列则描述交易的某一方面信息
根据需求,可以更改每行观测的类型。例如,通过表 1-1 这种表示形式,我们可以借助大量交易来研究交易模式。但是,如果想根据日期研究交易模式,则需要以行为单位汇总每一日的数据。为了分析得更全面,可以另外再添加几个变量,比如天气等,如表 1-2 所示。
表 1-2 根据日期汇总后的交易数据集,并且另外添加了几个变量
1.1.2 变量类型
变量主要有 4 类,正确区分它们对于为算法选择合适的变量至关重要。
- 二值变量:这是最简单的变量类型,它只有两种可能的值。在表 1-1 中,“是否买鱼”就是二值变量。
- 分类变量:当某信息可以取两个以上的值时,便可以使用分类变量来表示它。在表 1-1 中,“顾客类别”就是分类变量。
- 整型变量:这种变量用来描述可以使用整数表示的信息。在表 1-1 中,“水果购买量”就是整型变量,它表示每位顾客所购水果的数量。
- 连续变量:这是最精细的变量,用来表示小数。在表 1-1 中,“支出”就是连续变量,它表示每位顾客花费的金额。
1.1.3 变量选择
原始数据集可能包含许多变量。往一个算法中放入过多变量,可能导致计算速度变慢,或者因干扰过多而产生错误的预测结果。因此,需要从众多变量中筛选出那些与研究目标密切相关的变量,这个过程就是变量选择。
通常,变量选择是一个试错的过程,需要根据反馈结果不断更换变量。一开始,可以借助简单的图来研究变量之间的相关性(详见 6.5 节),选取那些最有希望的变量,以待进一步分析。
1.1.4 特征工程
有时候,需要做一些处理才能获得最佳变量。例如,如果要预测表 1-1 中的哪些动物顾客不会买鱼,可以通过查看“顾客类别”获知,兔子、马和长颈鹿不会买鱼。不过,如果以食草动物、杂食动物和食肉动物这 3 大类划分表中的动物顾客,将得到更广义的结论:食草动物不吃鱼。
除了对单个变量进行重新编码之外,还可以合并多个变量,这个技巧叫作降维,第 3 章将进行讲解。降维可以提取最有用的信息,从而获得更精简的变量集,以供进一步分析。
1.1.5 缺失数据
我们收集的数据并非总是完整的。比如,在表 1-1 的最后一笔交易中,水果购买量就没有被记录下来。数据缺失会妨碍分析,因此要尽可能地使用如下一些方法来解决数据缺失问题。
- 近似:如果缺失值所属的类型为二值变量或分类变量,那么可以使用该变量的众数(即出现次数最多的那个值)来替换它。若缺失值属于整型变量或连续变量,则可以使用中位数来替换它。利用这个方法,可以将表 1-1 中的缺失值替换为 5,即猫购买了 5 个水果,因为其他 7 笔交易中水果购买量的中位数为 5。
- 计算:对于缺失值,还可以使用更高级的监督学习算法(详见 1.2 节)将它计算出来。虽然计算更耗时,但是所得到的数值更准确,这是因为算法基于类似交易来估算缺失值,这一点与近似方法(考虑每一笔交易)有所不同。从表 1-1 可知,买鱼的顾客购买的水果往往比较少,因此推断猫购买的水果大约只有 2 个或 3 个。
- 移除:万不得已时,可以把包含缺失值的整行数据移除。但是,尽量不要这样做,因为这会减少分析时可用的数据量。而且,移除数据点可能会导致数据样本倾向或偏离特定的群体。例如,猫可能不太愿意公开自己所购水果的数量,如果把未记录水果购买量的顾客移除,那么最终的样本就会丢失有关猫的数据。
处理完数据集之后,就该对数据集进行分析了。
1.2 选择算法
本书将讨论 10 多种用于分析数据的算法。如何选择算法,取决于任务类型。任务大致可以分为 3 大类,每一类对应一些算法,如表 1-3 所示。
表 1-3 各种算法及其对应的任务类型
1.2.1 无监督学习
任务目标:指出数据中隐藏的模式。
当希望找出数据集中隐藏的模式时,可以使用 均值聚类、主成分分析、关联规则、社会网络分析等无监督学习算法。之所以称之为无监督学习算法,是因为我们不知道要找的模式是什么,而是要依靠算法从数据集中发现模式。
以表 1-1 中的数据为例,可以应用无监督学习模型找出哪些商品是顾客经常搭配购买的(其中会用到第 4 章讲解的关联规则算法),或者根据购买的商品对顾客进行分类(第 2 章将进行讲解)。
通过间接手段,可以对无监督学习模型输出的结果进行验证,比如检查得到的顾客分类是否与我们熟悉的分类(如食草动物和食肉动物)相符合。
1.2.2 监督学习
任务目标:使用数据中的模式做预测。
当需要做预测时,就
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询