机器学习与优化pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:机器学习与优化pdf/doc/txt格式电子书下载
推荐语:机器学习实战教程摒弃复杂的公式推导从实践上手机器学习人工智能领域先驱、IEEE会士巴蒂蒂教授领导的LION实验室多年机器学习经验总结
作者:(意)罗伯托·巴蒂蒂,毛罗·布鲁纳托,王彧弋译
出版社:人民邮电出版社
出版时间:2018-05-01
书籍编号:30443754
ISBN:9787115480293
正文语种:中文
字数:367114
版次:1
所属分类:互联网+-人工智能
版权信息
书名:机器学习与优化
作者:【意】罗伯托·巴蒂蒂 毛罗·布鲁纳托
ISBN:9787115480293
免责声明:本站所有资源收集整理于网络,版权归原作者所有。
本站所有内容不得用于商业用途。本站发布的内容若侵犯到您的权益,请联系站长删除,我们将及时处理!
人不应该过着野兽般的生活,而是要追寻美德与知识。
——但丁
http://www.ituring.com.cn/book/1413第1章 引言
1.1 学习与智能优化:燎原之火
优化是指为了找到更好的解决方案而进行的自动化搜寻过程。可以说,流程、方案、产品和服务之所以能持续改进,正是缘于优化为之提供的强大动力。优化不仅关乎方案的确定(从一些给定的可行方案中,选出最好的一个),它还能主动创造出新的解决方案。
优化催生了自动化的创造和革新。这看起来非常矛盾,因为自动化通常不会和创造与革新联系起来。因此,那些相信机器只能用来处理单调的重复性工作的人们在阅读本书时,会觉得书中的观点简直是胡言乱语,甚至会感受到如同被挑衅一般的愤怒。
自伽利略(1564---1642)之后,人们希望用科学改变世界,而这不仅需要哲学上的阐释,还需要测量和实验的支持。“测量那些可测量的,并使那些不可测量的变得可测量。”测量一开始看起来并不起眼,但它允许人们用务实的方式逐渐改变世界,只要人们还关心生产方式和生活质量。
几乎所有的商业问题都可以归结为寻找一个最优决策值x, 这要通过使某个收益函数 goodness(x)最大化来实现。为了能形象地理解,我们假设有一个集合变量,它描述的可以是一个或多个待调节的旋钮,也可以是将要做出的选择,还可以是待确定的参数。在市场营销中,x 可以是一个向量,其数值表示为各类宣传活动(电视、报纸、各种网站、社交媒体)分配的预算,goodness(x)则可以是由这些宣传活动而产生的新客户数量。在网站优化中,x 可以涉及图片、链接、话题和不同大小文本的使用,goodness(x)则可以是该网站的普通访客成为客户的转化率。在工程学中,x 可以是一个汽车发动机的设计参数集,goodness(x)则可以是该发动机每加仑汽油所能行驶的英里数。
将问题归结为“优化一个收益函数”也激励着决策者,使用量化的目标,就可以用可衡量的方式来领会宗旨,也就可以专注于方针的制定而非执行的细枝末节。当人们深陷于执行的泥潭中,以至于遗忘了目标时,企业就染上了“疫病”,此时如果外界环境发生了变化,这种“疫病”将会使企业无法做出及时的应对。
自动化是解决这个问题的关键:将一个问题形式化地表述后,我们把得到的收益模型输入计算机,计算机将自动创造出并找到一个或多个最佳的选项。另外,当条件和重点发生改变时,只需要修改一下收益函数的量化目标,再重启优化过程就可以了。当然,CPU时间会是个问题,也并非每次都能保证找到全局最优解决方案。但可以肯定的是,使用计算机来搜寻,无论是速度还是范围,都远远领先于人力搜寻,并且这一领先优势会越来越明显。
然而,在大多数现实场景中,优化的惊人力量仍遭到很大程度的压制。优化在现实中没有被广泛采纳的主要原因是,标准的数学优化理论假设存在一个需要最大化的收益函数,也就是说,有一个明确定义的模型goodness(x)为每个输入配置x 匹配一个结果。而目前,在现实的商业情境里,这个函数通常是不存在的。即使存在,靠人力找到这个函数也是极其困难、极其昂贵的。试想,问一个CEO“请您告诉我,优化您业务的数学公式是什么”,显然不是咨询工作中开始对话的最佳方式。当然,一个经理对于目标应该会有一些想法和权衡,但是这些目标并没有以数学模型的方式给定,它们是动态的、模糊的,会随着时间改变,并且受限于估计误差和人们的学习进程。直觉被用来替代那些明确给定的、量化的和数据驱动的决策过程。
如果优化是燃料,那么点燃这些燃料的火柴就是机器学习。机器学习通过摒弃那种明确定义的目标goodness(x)来拯救优化:我们可以通过丰富的数据来建立模型。
机器学习与智能优化(learning and intelligent optimization,LION)结合了学习和优化,它从数据中学习,又将优化用于解决复杂的、动态的问题。LION方法提高了自动化水平,并将数据与决策、行动直接联系起来。描述性分析和预测性分析之后,LION的第三阶段(也是最终阶段)是规范性分析 (prescriptive analysis)。 在自助服务的方式中,决策者手中直接握有更多的权力,而不必求助于中间层的数据科学家。就像汽车的发动机一样,LION包含一系列复杂的机制,但是用户(司机)并不需要知道发动机的内部工作原理,就可以享用它带来的巨大好处。在未来的几十年内,LION方法带来的创新,将会像野火那样,以燎原之势延伸到大多数行业。那么企业就像野火频发的生态系统中的植物一样,只有适应并拥抱LION技术才能生存下来,并繁荣昌盛;否则,无论之前如何兴盛,在竞争逐渐加剧的挑战面前,都可能土崩瓦解。
LION范式关注的并不是数学上的收益模型,而是海量数据,以及如何针对多种具体选择(包括实际的成功案例)进行专家决策,或者如何交互地定义成功的标准。当然,这些都是建立在让人们感觉轻松愉快的基础之上的。例如,在市场营销中,相关数据可以描述之前的资金分配和宣传活动的成效;在工程学中,数据可以描述发动机设计的实验(真实的或模拟的)和相应的油耗测量方式。
1.2 寻找黄金和寻找伴侣
用于优化的机器学习需要数据。数据来源可以是以往的优化过程,也可以是决策者的反馈。
要了解这两种情境,先来看两个具体的例子。丹尼尔·克里金(Danie G.Krige,见图1-1)是一名南非的采矿工程师,他曾遇到一个问题:如何在一张地图上找到挖掘金矿的最佳坐标[74]。大约在1951年,他开创性地将统计学的思想应用于新金矿的估值,而这一方法仅需用到有限的几个矿坑。需要优化的函数是Gold(x),即坐标x 处的金矿的金量。当然,在一个新的地方x 评估Gold(x)是非常昂贵的。你可以想象,挖一个新矿没那么快,也没那么简单。但是在一些试探性的挖掘之后,工程师们会积累一些把坐标和金量
关联起来的实例知识。克里金的直觉告诉他, 用这些实例(来自以往优化过程的数据)可以建立起函数Gold(x)的模型。这个称为GoldModel(x)的模型归纳以往的实验结果,为地图上的每个位置x 给出金量的估计值。通过优化,这个模型找到使预计黄金产量GoldModel(x)最大化的地点
,于是这个
成为下一个挖掘的地点。
图1-1 丹尼尔·克里金,克里金法的发明者
可以用如图1-2所示的模型来形象地说明这个过程。先在地图上为每个矿坑插一根针,每根针的高度取决于在该处发现的金量。克里金的模型可以看作基于这些针的“训练”信息在整个地图上方生成的一个曲面,使得给定位置的高度对应当地的预计黄金产量。因此,优化意味着在这个模型曲面上找到最高的那个点,并在对应的地点进行下一次挖掘。
图1-2 从样本中使用克里金法构造模型。一些样本在图中用点标示出来。表面的高度和颜色依赖于产金量
这种技术现在被称为克里金法({Kriging}),它背后的理念是未知点对应的值应该是其邻近已知点所对应的值的加权平均,权重与这些已知点到该未知点的距离相关。高斯过程、贝叶斯推断和样条函数(spline)都涉及了相关的建模方法。
第二个例子关于决策者的反馈。想象有这样一个约会服务:人们付费在数以百万计的候选人中匹配一个最佳的约会对象。在克里金法中,需要优化的函数是存在的,只是评估起来极为困难。对于这个案例,我们很难假设存在一个类似的函数,它将个人特征x,例如美貌、智力等,与你的个人喜好联系起来。如果你不这么认为,且坚信存在这样一个函数,那么给你留一个作业,尝试用准确的数学术语来定义你心目中理想伴侣的IdealMate函数。即使你能准确地指出某些组成部分,例如Beauty(x)和Intelligence(x),但是在开始寻找最佳候选人之前,把这两个目标合并起来仍然是困难的。像“降低多少IQ值对应减少一点美貌”或者“美貌是否比智力重要,重要多少”这类问题是非常难回答的。假使你很痛苦地给出了一个初步答案,也肯定不会相信这个优化,在真正见到这个候选人之前,你不会为这个匹配服务付费,当然也不会对服务感到满意。你会想了解这个人的特征,而不仅仅是得到系统优化的肤浅的IdealMate(x)函数值。只有在考虑过不同的候选人并且对这个匹配服务进行反馈后,你才能希望找到最满意的另一半。
换句话说,在一开始,待优化函数中的某些信息是不全面的,只有决策者才能够调整优化的过程。许多现实问题,即使不是大多数,都需要借助有学习参与的迭代过程来解决。在了解了越来越多的案例后,用户会认识并调节自己的喜好,系统会从用户的反馈中建立起他的喜好模型。这一过程将持续下去,直到用户满意或者直到耗尽为这一决策分配的时间。
1.3 需要的只是数据
下面继续谈论商业用户的动机。如果你不关心这方面的内容,可以放心地跳过这部分,直接阅读1.6节。
商业领域里充斥着各种数字形式的数据。大数据指的是大量的半结构数据。顺便提一句,在20世纪七八十年代,数据对于当时的存储设备来说是庞大的,而如今的“大数据”更多是商业上的宣传概念:即便是最大的公司产生的所有数据,只需一台PC就足以处理了。
随着社交网络的爆发、电子商务的迅速扩张和物联网的兴起,网络正在掀起一场由结构化和非结构化数据引起的海啸。这场海啸驱使人们在信息技术领域花费多达数十亿美元。也有新的证据表明,标准的商业智能平台使用率正在下降,这是因为企业界已经不得不开始考虑一些非结构化的数据,而这些数据拥有无法估量的现实价值。例如,社交网络产生大量的数据,其中的大多数无法分类,也无法用传统数据的刚性层次结构来表示。试想,你该如何评估Facebook上一个“赞”的价值?况且非结构化数据需要用自适应方法来分析。再想想,随着时间的流逝,一个“赞”的价值会发生怎样的变化?由于这类问题的存在,我们需要在数据建模、自适应学习和优化等领域运用更加先进的技术。
为了让软件能够自我改进,并能快速适应新数据和调整后的业务目标,需要使用LION方法。这种方法的优势在于能够从过往的经验中学习、在工作中学习、应对不完全的信息,并快速适应新的情况,而这些能力通常只与人类的大脑联系起来。
LION技术这种内在的灵活性是至关重要的,因为在求解过程开始之前,我们很可能无法确定哪些是对决策有影响的因素和重点。例如,我们要给一个市场营销的前景评分来估计其价值,应该考虑哪些因素?这些因素又对结果分别有多大程度的影响?如果使用LION方法的话,这些问题的答案就是:“这些都不是问题。”系统会开始自我训练,源源不断的数据加上终端用户的反馈将快速提升系统的性能。专家——这里指营销经理——可以通过表达他们自己的观点来改善系统的输出。
1.4 超越传统的商业智能
每一家企业都需要数据来满足3项基本需求:
(1) 了解目前的业务流程,并评估以往的表现;
(2) 预测商业决策的影响;
(3) 对业务的关键因素制定并执行明智且合理的决定,从而提升赢利能力。
传统的描述型商业智能(business intelligence,BI)擅于记录和可视化过往的表现。构建这样的记录意味着需要聘请顶级顾问,或雇用那些有统计、分析和数据库等领域知识的专业人员。专家必须要设计数据提取和操作的流程,然后交给程序员来实际执行。这是一个缓慢而繁琐的过程,毕竟大多数商业的境况都是瞬息万变的。
因此,那些严重依赖于BI的企业正在利用性能快照,尝试理解当前情况和未来趋势,并对此做出反应。这就如同开车的时候只盯着后视镜,很有可能会撞上什么东西。现在对于企业来说,就像是已经撞到了一堵僵化的墙,并且缺乏快速适应变化的能力。
预测分析确实在预见方案效果方面做得更出色,然而,将数据驱动模型和优化进行整合,自动创建完善的解决方案,才是LION真正的强大之处。规范性分析做到了引领我们直接从数据到最佳改进方案,以及从数据到可执行的洞察力,再到行动本身!
1.5 LION方法的实施
对于处在不同业务状态的企业而言,全面采用LION方法作为商业实践的步骤会有所不同。更重要的是,相关数据的情况也会影响这一进程。显然,在数据收集完成的时候
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询