当前位置:
首页 > 互联网+ > 人工智能 > 机器学习在线:解析阿里云机器学习平台pdf/doc/txt格式电子书下载

机器学习在线:解析阿里云机器学习平台pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

机器学习在线:解析阿里云机器学习平台pdf/doc/txt格式电子书下载

书名:机器学习在线:解析阿里云机器学习平台pdf/doc/txt格式电子书下载

推荐语:

作者:杨旭著

出版社:电子工业出版社

出版时间:2017-08-01

书籍编号:30457612

ISBN:9787121318696

正文语种:中文

字数:86832

版次:1

所属分类:互联网+-人工智能

全书内容:

机器学习在线:解析阿里云机器学习平台pdf/doc/txt格式电子书下载






前言


飞速发展的互联网、物联网每时每刻都在产生大量的数据,数据的价值也因此被提升到前所未有的高度:越来越多的人投身数据分析的领域,希望通过机器学习及深度学习,从数据中获取更大的价值。另一方面,云计算的蓬勃发展极大地扩展了数据的存储能力,它使计算可以同时使用成百上千台机器,快速解决问题,而在计算完成后,又能及时释放掉资源,控制成本。


在这样的大背景下,机器学习算法平台也获得了飞速发展,积累了大量高效的机器学习算法组件,基于这些组件我们可以快速实现业务流程,解决具体问题。在为本书定书名时,受到王坚博士《在线》一书的影响,觉得用“在线”一词来说明目前机器学习平台的状态非常恰当:丰富的算法功能可以在线使用、不需要购买硬件、不需要安装配置各种环境;数据和计算资源一直处在“在线”状态,不必担心数据太大或计算资源不足的问题。


阿里云机器学习算法平台不仅在阿里集团内部使用,也已对阿里集团外部开放,读者可以通过阿里云官网试用或使用本书中介绍的功能。


机器学习平台提供了一个舞台,主角是其上面的近百种算法。本书的重点放在这些算法的使用上——通过实际的数据和具体的场景,帮助读者理解各算法所擅长处理的问题;另外,本书是根据机器学习的知识点由浅入深来逐步组织的,以降低阅读本书的门槛,使读者对所学的内容能产生清晰的印象。


在具体章节的组织上,阿里云机器学习平台的介绍占两个章节,即第1章和附录A。第1章为平台简介,在内容组织上尽量减少文字说明,将最基本的内容用图例来表示;附录A介绍了些琐碎但重要的事情,像如何试用、如何上传数据以及预处理函数的详细说明。第2章至第12章是按照机器学习的知识点逐步深入的思路来编排的。分类模型是机器学习理论和应用方面的重头,首先是数值类型特征的二分类模型、扩展特征的类型、多分类模型;之后介绍聚类模型;然后是回归模型;再后面介绍文本分析领域的应用(主题模型、向量化、关键词等),根据文本描述进行预测、情感分析,并以电影数据为例,搭建推荐系统。深度学习的内容放在第12章,围绕TensorFlow框架组件,介绍了一个能体现TensorFlow特点的Softmax模型的例子,然后介绍了使用深度学习DNN分类器的例子。


机器学习平台降低了我们使用机器学习知识的门槛,将各个算法作为组件,即使不了解其背后的理论知识,读者仍然可以仿照书中实例,将组件连接起来解决一些实际问题。希望本书能帮助读者在机器学习的实践中学习。


最后,感谢一起研发阿里云机器学习平台的各位同事!感谢家人的理解和支持!


杨旭


2017年7月

第1章 阿里云机器学习


阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习算法平台。用户通过拖曳可视化的操作组件来进行试验,使得没有机器学习背景的工程师也可以轻易上手玩转数据挖掘。平台提供了丰富的组件,包括数据预处理、特征工程、算法组件、预测与评估。平台目前整合了阿里集团内最先进的算法,为集团内、外不同用户提供算法服务。


欢迎访问阿里云机器学习的网址:https://data.aliyun.com/product/learn。用户可在阿里云网站申请公测,进行免费试用,相关内容详见本书附录。


1.1 产品特点


· 简单、易用


将各个复杂的机器学习算法抽象为算法组件,通过拖曳组件的方式即可完成机器学习流程的搭建,大大降低了机器学习算法学习和使用的门槛。


· 算法丰富、完整


不但包括了机器学习核心的分类、聚类、回归模型,还包括了数据探索、预处理、特征工程、深度学习、文本分析等方面的组件,可以一站式地完成不同场景的解决方案。


· 支持处理大数据


提供高性能的机器学习算法实现,并根据数据量的大小及计算的复杂程度自动获取适合的计算资源,再多的数据也能及时处理。

img

图1-1 阿里云机器学习

1.2 名词解释


为便于读者阅读,将阿里云机器学习平台中涉及的一些名词进行了解释,详见表1-1。

表1-1 名词解释

img

续表

img

1.3 构建机器学习实验


1.3.1 新建实验


如图1-2所示,点击左侧“实验”按钮,右击“我的实验”选项,选择“新建空白实验”或“从模板新建实验”选项,然后系统会自动进入新建的实验操作空间。

img

图1-2 新建实验

1.3.2 使用组件搭建工作流


如图1-3所示,拉入数据表和算法组件,进行实验流搭建。具体操作是:点击左侧“数据源”按钮搜索选择需要的数据表,拖曳到右侧空白处;点击左侧“组件”按钮,选择需要的组件,并拖曳到右侧空白处;并根据实验流程,连接组件的输入、输出桩。

img

图1-3 搭建工作流

1.3.3 运行实验、查看结果


如图1-4所示,点击工作区下方的“运行”按钮,依次运行实验的各个组件,组件运行完成后,其右端会显示绿色的对号标记,然后,单击鼠标右键,就可选择查看结果数据及图表。

img

图1-4 运行实验、查看结果

1.3.4 模型部署、在线预测


1)模型部署。


如图1-5所示,点击左侧“模型”按钮,找到当前实验名称,选择模型,然后在右键菜单选择“在线模型部署”选项。注意,第一次使用此功能,需要按提示申请相应的权限。部署完成后,会显示预测服务的访问路径、所在project的名称、在线模型名称。

img

图1-5 在线模型部署

2)在线预测。


预测API请求地址:$访问路径/projects/$project名称/onlinemodels/$模型名称。


请求Body内容需要填上对应算法所输入的json格式文件,包括字段名、字段的type和具体数值。

第2章 商家作弊行为检测


电子商务领域,就像一块巨大的蛋糕,商家们各显神通,希望占据更多的市场份额,获得更大的利润。个别商家通过作弊手段希望获得更多利益,譬如:虚假交易就是一种重要的作弊方式,借此提升商家的等级,骗取用户的信任。不打击这些作弊的行为,就会极大地损害整个市场的信用体系,让诚信的商家蒙受损失,进而会有更多的商家尝试通过作弊来获取利益。作弊与反作弊的斗争一直在进行中,不断有新的方法出现,也不断有新的对策出台。


这里我们介绍一个例子,通过对交易行为的分析,预测商家作弊情况。注意:所使用的建模数据经过特殊处理,分析结论不能反映真实的交易情况。从机器学习方法的角度来看,这是典型的分类问题,而且分类目标为两个,使用的数据特征已经被很好地数字化,可以直接套用一些常用的分类模型进行训练、预测。


使用的数据表名为business_fraud,有1个ID列,6个属性列和1个标签列,各列的介绍如表2-1所示,各属性列如何变换到0~1区间,不是本节的重点,不展开讨论。

表2-1 交易信息字段

img

数据如图2-1所示,很明显,字段 b_score、r_score和p_score中0值的个数较多。

img

图2-1 交易信息数据表

2.1 数据探索


首先使用最常用的组件,“全表统计”和“直方图(多字段)”,关注最基本的统计信息。各组件的连接方式如图2-2所示。

img

图2-2 数据探索流程图

其中,“全表统计”组件可以使用默认参数,即对所有数据列进行统计;“直方图(多字段)”组件需要选择字段,如图2-3所示,在弹出的“选择字段”窗口选择所有特征属性列。

img

图2-3 直方图组件设置

“全表统计”的计算结果如图2-4所示,每个字段的统计值占一行,第一列是字段名称,随后是各种统计指标。

img

图2-4 全表统计结果

由图2-4 的统计结果截图可以看出:


· 数据集的样本数量为34727,各列没有缺失值。


· 6个属性列的取值都在0~1之间。


· a_score列、ri_score列和v_score列的最大值没有达到1;ri_score列的最小值为0.021,略大于0。


· 有两列(p_score与v_score)的方差非常小,则这两列的数据会比较集中;特别地,p_score列的均值为0.0504861,则该列的数据绝大部分在0点附近。


· 标签列label的取值只能为0或1,该列的均值为0.4240792,说明label=0的标签占总体的42.4%,而label=1的标签占总体的57.6%。


进一步,我们通过直方图查看分布情况,各字段直方图及相应的分析如表2-2所示。

表2-2 各字段直方图

img

续表

img

接下来,我们考察各属性列间,以及特征属性列与分类标签列之间的关系。使用“相关系数矩阵”组件,连接数据集组件,如图2-5所示。

img

图2-5 计算相关系数矩阵

设置“相关系数矩阵”组件的参数,在“字段设置”中选择所有属性列,它们都是双精度DOUBLE数据类型的,并选择label列(BIGINT数据类型),如图2-6所示。

img

图2-6 选择计算相关系数的字段

计算结果如表2-3所示。

表2-3 相关系数计算结果

img

由表2-3中相关系数的值可知:


· 相关度最高的是列a_score(账户价值)与v_score(消费总额),相关系数为0.813013,为正相关


· 可以看到与label列相关度较高的是b_score,r_score与ri_score,且相关系数都为正数,说明是正相关。即,label=0的样本中属性b_score,r_score与ri_score会偏小;而label=1的样本中属性b_score,r_score与ri_score会偏大。


有了上面的分析,我们对数据有了一定的了解,但是对于我们关心的分类问题还是不够的。下面我们将根据标签列label取值的不同,对比观察各属性列分布的差异。选择“经验概率密度图”组件,组件连接如图2-7所示。


该组件的参数设置如图2-8所示,输入列选择全部6个特征列,标签列选择“label”,这样可以对分属于不同标签的数据分别做概率密度图,并用不同颜色标识,展现在同一个图中,便于我们发现不同标签下数据分布的差异。差异越明显,越方便我们构造模型,对不同的标签进行区分。

img

图2-7 计算经验概率密度图

img

图2-8 经验概率密度图组件的参数设置

查看分析报告,可以看到属性列b_score,r_score与ri_score对应不同的标签值时,经验概率密度图差异较大,如图2-9、图2-10和图2-11所示。

img

图2-9 字段b_score(购物类别)

img

图2-10 字段r_score(消费频率)

img

图2-11 字段ri_score(购物时间)

容易看出,字段b_score的直方图(图2-9)和r_score的直方图(图2-10)比较相似,label=0的样本都集中在0点右侧,label=1的样本特点是“中间少,两端多”。


我们再看ri_score列(购物时间)的经验概率密度图,如图2-11所示,可以看到在0.5附近有一条明显的分割线,此线左边没有 label=1的样本,而此线右边包含label=0的样本较少,且概率密度迅速下降。这三个图也形象地解释了为什么b_score,r_score以及ri_score与label列的相关系数值较大。


其他3个属性的经验概率密度图如图2-12 、图2-13和图2-14所示,两条曲线间的差异没那么明显。

img

图2-12 字段a_score(账户价值)

img

图2-13 字段p_score(注册时间)

img

图2-14 字段v_score(消费总额)

2.2 建模、预测和评估


我们以朴素贝叶斯分类模型为例,介绍一般的建模、预测和评估流程。整体流程如图2-15所示。

img

图2-15 朴素贝叶斯分类模型

整个流程是自上而下的,最上面的是“读数据表”组件,并设置读取的数据表名称为business_fraud。随后是“拆分”组件,将原数据集拆分为左右两部分,左边输出的数据集会被用作模型训练,将其连接到“朴素贝叶斯”组件,训练出分类模型;右边输出的数据集用来检验模型的效果。“预测”组件有两个输入桩,左边的要输入分类模型,右边的要输入测试数据,根据测试数据的特征,得到其预测的结果。最底层的两个组件(“二分类评估”和“混淆矩阵”),会由预测结果及原始的标签值,计算出模型评估的结果。


下面逐个介绍组件详细的参数配置,如表2-4所示,第一列为所用的组件,第二列为相应的参数配置截图,第三列为详细的说明。

表2-4 各组件参数配置

img

续表

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示