增强型分析:AI驱动的数据分析及案例实践pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:增强型分析:AI驱动的数据分析及案例实践pdf/doc/txt格式电子书下载
推荐语:
作者:彭鸿涛,张宗耀,聂磊
出版社:机械工业出版社
出版时间:2019-08-08
书籍编号:30499168
ISBN:
正文语种:中文
字数:44544
版次:1
所属分类:互联网+-人工智能
版权信息
书名:增强型分析:AI驱动的数据分析及案例实践
作者:彭鸿涛 张宗耀 聂磊
出版社:机械工业出版社
出版日期:2019-08-08
版权所有 · 侵权必究
自序
人工智能技术由于数据、算法、硬件支撑的计算能力等核心要素的共同发展,进入了广泛的、实质性的应用阶段。在不远的将来,我们肯定能看到人工智能及相关的技术在不同行业发挥巨大的价值。
增强型分析将会长足发展
多年以来,人们在构建模型时总是要花费大量的时间和精力在准备数据、数据预处理、多次尝试构建模型、模型验证等等过程上。工业发展的历程中纯手工打造的时代势要被标准化流水线的工厂取代,因为工序分解后可以按照统一的模式来处理。构造模型的过程从纯手工打造也可以发展到一个更加智能化的时代。笔者十年前在SPSS任职时,就深度参与了自动化建模相关组件的开发,即同一个模型可以按照不同的算法来实现并通过同一个评价指标筛选出最优模型。这样的功能在现在的开源算法库(如sklearn)已经非常常见。最近AutoML、H2O等知名开源平台使得自动化建模又有了长足的发展。然而建模自动化并不是终点。
增强型分析(Augmented Analytics)是Gartner在2017年7月发表“增强型分析是数据及分析的未来”[1]报告中首次进入到人们的视野。其核心的概念包括[2]:
·智慧数据洞察(Smart Data Discovery):应用相关的工具能够比较智能和自动化地实现数据收集、准备、集成、分析、建模,能够输出各种洞察,可以帮助人们在战略方向、对应具体范围的战术活动(如针对某市场机会发起营销)、执行(具体执行营销策略)等不同层面的活动作出指导,包括相关关系的发现、模式识别、趋势判断与预测、决策建议等等。
·增强型数据准备(Augmented Data Preparation):提供智能化的工具使得业务人员能够快速、容易地访问数据,并链接各种数据源通过统一的、标准化的、可交互的视图展现内容、数据间的关系等等内容。同时提供丰富的工具进行自动地数据规约、清洗、智能化分箱、降噪等等功能。增强型数据准备要能够在原数据和经过数据治理后的数据间灵活处理,尽量避免因为数据治理而丢失信息,同时也避免大量原数据间无序的探索。
从上述的定义中可以看出,增强型分析的特点是智能和自动地完成数据准备和数据分析的工作。对于增强型分析的一个美好的预期就是“交给机器大量的原数据,机器直接针对特定场景给出决策建议”。要实现这个愿景需要人们至少完成以下的几个要点:
·大数据存储与访问
基于大数据平台的存储、计算的相关技术发展很快,目前已经比较成熟,能够高效地处理大量数据。
·数据分析流程的组件化、标准化改造
数据分析过程中关键步骤如数据收集、准备、集成、分析、建模等等过程,需要细分为不同的子任务,并通过子任务间的灵活搭配构成数据分析的流程。流程的自动化运行以及对应的有价值的结果输出已经有了较好的组件,如H2O等。
·提供大量的算法支持数据处理、模型构建
算法既可以用来构建业务模型,也可以分析数据间的关系、变量聚类等等工作。
·将“模型洞见到业务决策”纳入到分析范围
模型输出洞见,如模型输出每一个客户的购买可能性,还需要配套如“当购买可能性大于90%时再根据时机因素进行推荐”的业务决策,才能在实际营销活动实施。这是一个“洞见—决策—行动”的过程。
实现增强型分析所需的技术势必是庞杂的,本书的重点涵盖的范围是数据处理、算法及模型、“模型洞见到业务决策”的分析等内容。这些部分的内容既是我们日常建模时要用到技术,也是增强型分析中必不可少的内容。虽然增强型分析的表现形式是追求智能化、自动化等功能,但是增强型分析的终极目标还是通过数据分析发挥数据价值。目前增强型分析还处于概念在逐步清晰但需要不断发展的阶段,所以本书的重点是聚焦在其本质内容,即数据处理、算法及模型、“模型洞见到业务决策”的分析等。
这本书的特点
应用机器学习、人工智能技术不仅需要理解算法原理,还需要对算法参数调优、算法使用时的数据要求、算法输出结果、以及如何在具体业务场景使用数据挖掘模型等方面都有所了解,才能真正发挥数据价值、产生实际的业务效果。
本书作者结合多年来给不同的大型结构“构建数据挖掘模型解决实际业务问题”的实践,总结归纳技术、应用等方面的经验,以“介绍较新机器学习及人工智能技术”和“如何应用这些技术解决实际问题”两个方面作为本书的整体选题思路。总的来讲,本书具有以下的两个主要特点:
·介绍较新的技术
有监督学习的建模技术的早已不是只懂得算法,目前基于集成学习、grid search、交叉验证等自动化建模技术正方兴未艾,这些技术我们在专门的章节做了重点介绍;基于序列模式挖掘、序列规则、序列预测等进入公众视野还较新的技术在实际业务中有巨大的价值,这些也是我们介绍的重点;对于目前比较火热的深度学习、对抗学习等内容,本书用了专门的章节在介绍。从这些技术的特点来看,已经具备了增强型分析的部分特点,如集成学习的技术就是旨在将多个模型结合起来,达到相对于单独采用一个模型而明显改善的效果。
·兼顾原理与大量实例
按照深入浅出的方式介绍算法原理、参数调整、及使用方法等信息,并结合实际例子展示如何使用、以及使用时的思路。“深入浅出的原理介绍+实际使用的案例”的内容安排,期望能够让读者真正了解如何使用机器学习及人工智能的技术原理和特点,并能直接在实践中起到参考的作用。
除此之外,在本书中涉及一些汉语直译不能达意的词汇,都是采用英语原词,方便读者能够与科技类的英文材料能够对应,也是尽量避免生硬翻译带来的疑惑。在本书的大量实例中,代码注释基本上都是英文的,这与笔者多年的编码习惯有关。
读者范围
本书的目标读者是实际解决业务问题的数据分析建模人员。目前各个企业在应用机器学习及人工智能方面,不断在人才、技术、平台方面进行投入,特别是不断招聘了大量的数理统计、机器学习方面的人才。但是能够实际解决业务问题的数据分析建模人员,除了对算法原理要了解外,还需要对业务有一定了解,同时需要打开眼界快速了解不同的建模方法能够解决什么问题;除此之外要具备较高的实践能力,能够灵活应用不同的技术工具来快速完成任务。
本书“深入浅出的原理介绍+实际使用的案例”的内容安排能够使得数据分析建模人员从算法原理、数据挖掘知识结构、业务应用方法等方面得到提升,帮助数据分析建模人员开阔眼界、优化知识结构、提升实践技能。
从整体来说,本书适应于中、高级的数据分析建模人员,但是初学者也能从实例中得到重要的参考。
章节概要说明
在本书的内容安排中,保持业务和技术两个主线:业务主线是数字化转型背景下的智慧营销、智慧风险管控如何通过数据分析完成具体工作,实现由初级的“主动营销”到“被动营销”,再到“全渠道协同营销”等营销手段的升级应用;技术主线是从常见算法的较新发展到深度学习及对抗学习的“复杂度由低向高”、“分析技术由预测性分析到Prescriptive分析”的介绍。具体对应于大纲的内容如下:
总体来讲,写作团队试图写一本既能扩展视野、也能具有实际参考价值,能够紧贴实际业务的大数据与人工智能的书籍。
在上述章节中,笔者完成了大部分工作,另外两个作者协助我做了一些内容补充,这些内容包括:张宗耀完成第三章第六小节、第五章第四小节、第七章第三小节;聂磊完成第二章的大幅修改、第五章第五小节、第五章第七小节、第六章第二小节。在整个写作过程中,我们三个经常讨论、相互学习,这个过程很愉悦!
为什么写这本书
笔者自2008年加入IBM SPSS,从一个单纯的软件开发者变身为数据分析行业的参与者至今已经快11年光景。在这段时间数据分析行业发生了巨大的变化与发展,若沧海一粟,作为行业的参与者笔者自身从业经历也在不停地发生变化。总结下来,笔者遵从“数据分析驱动业务”的主线,按照“软件开发人员——数据挖掘工具开发者和团队管理者——资深数据科学家——深入理解业务的资深数据科学家——深刻理解数字化变革的高级咨询顾问和管理者”的职业路径,在数据分析行业浩瀚波澜中前行。这些年的从业经历,笔者的感触包括:
·从事数据分析行业的人是需要不断充电的
日新月异用来形容数据分析的发展是最为确切的词汇了,新技术、新论文不断涌现。大量书籍上描述的是一些基本的算法,对于新技术、新算法我们应该永远保持不断学习的态度,才能在日常数据分析实践中不断发挥作用。书中并没有讲大家在很多书籍上能看到的传统算法,而是重点讲一些大多数书籍还未涉及的内容。
·真正发挥数据价值需要融会贯通数据与业务。
在很多情况下,数据科学家花费大量时间和精力构建出模型后,兴高采烈地试图交给业务人员进行使用时,往往会遇到一个有趣的情况:业务人员听不懂你对高深算法的解释、甚至不在乎你对数据的各种费心处理,他们只关心实际的问题,如模型到底效果如何。所以在本书中穿插了大量与业务有关的例子。
·在数字化变革的浪潮与数据分析的广泛应用密不可分
数字化变革是目前几乎所有企业无法回避的任务。企业由于所处行业、自身特点等原因,需要量身定制数字化转型的战略。大型企业需要选择发展重点作为突破方向,在转型过程中既要做好技术基础,也需要大力推行敏捷的方法,同时要对人们的观念、组织内的流程等方面都需要做出更新。数据分析的广泛应用在数字化变革中势必要发挥巨大作用。笔者认为数据分析者要抬头看,深刻地参与到数字化变革的浪潮中。
这本书历时近一年时间,笔者在做好本职工作的同时花费了巨大的精力在总结归纳过往项目经验、学习研究新技术。这个过程既是一个自我充电的过程,也是不断总结归纳的过程。若将数据分析技术比作一座不断长高的大山,对于读者而言笔者试图尽力做到将自己走过的路按照深入浅出的方式讲出来,期望对大家有参考的价值。这就是写这本书的目的。
笔者相信书中难免有一些纰漏,非常欢迎大家能够给我一些反馈。读者可以通过pemed@163.com联系到笔者。
感谢
接近不惑之年,但是能够把大量时间花在写书上,是因为我父母、我爱人、我的孩子给我铸就了一个坚强的后方。“风暖春日雪,化作涓涓流”,这是爱人、孩子和我在一次春游时看到终南山中的雪即兴而作的。其实这也能对应到现实中,家人的爱和关心让我在前行时如沐春风,遇到困难时他们就是我的动力!同时也感谢三个姐姐对我的关心和鼓励。
感谢另外两个作者张宗耀和聂磊,一个是我的师弟,一个与我完成过第一本书《发现数据之美---数据分析原理与实践》。兄弟之情已经在聚会、讨论、相互学习、写作中镌刻在我们各自的人生轨迹中!
感谢**;感谢;(两位序言的作者)
感谢我的老板吴颖兰(德勤全球主管合伙人)能够协调德勤***在百忙之中写序言推荐;感谢上海依图网络科技有限公司COO张小平在我写作过程中的鼓励,以及帮忙协调**对这本书推荐;感谢美丽聪慧同事崔璨、罗瑞丽能够在我写作过程中不断鼓励,并提出非常有价值的意见;感谢同事李敬军、曹文俊、刘田林、刘婷婷、仇敏讷、李宸豪、马克、母丹、张宇姮,在一起做项目的过程中,我们能够相互学习、相互成长。
第一章 数据科学家的成长之路
一次偶然的机会,有一个正在深造机器学习方面学位的朋友问我了一个问题:如何成为一个合格的数据科学家?这个问题其实比较容易回答,也不容易回答。说容易回答,是因为可以拿出市面上常见的说法,坐而论道地说需要编程能力、数据操作的能力、数学的基础、算法库的应用能力、算法的调优能力、与业务对接的能力等等。这样的回答我其实是不满意的,因为有太多的技术味道。做数据分析、将数据的价值发挥出来,是一个“工程+科学”的过程,在这个过程中任何一点能找到自己的位置,其实无所谓一定要个数据科学家这个称谓了。
大数据时代方兴未艾,人工智能时代又呼啸而至。人们在很多场合下能看到很多新应用,加之整个社会都在热切地拥抱人工智能技术,使得大家都相信人工智能时代的势必又会改变一次社会的方方面面。笔者对此也深信不疑。在人工智能时代,将数据的价值发挥出来的要素有资金、数据、平台、技术、人员等等要素。数据科学家是人员要素中最为重要的部分,是需要企业非常重视的。从数据科学家自身发展的方向、组织结构、以及如何体现出价值等方面,相信大家肯定会有很多想法。笔者从十几年前加入IBM
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询