大数据处理平台pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:大数据处理平台pdf/doc/txt格式电子书下载
推荐语:
作者:宋杰著
出版社:人民邮电出版社
出版时间:2017-12-01
书籍编号:30428299
ISBN:9787115466891
正文语种:中文
字数:189860
版次:1
所属分类:互联网+-大数据
版权信息
书名:大数据处理平台
作者:宋杰
ISBN:9787115466891
版权所有 · 侵权必究
《国之重器出版工程》编辑委员会
编辑委员会 主任:苗圩
编辑委员会副主任:刘利华 辛国斌
编辑委员会 委员:
冯长辉 梁志峰 高东升 姜子琨 许科敏
陈 因 郑立新 马向晖 高云虎 金 鑫
李 巍 李 东 高延敏 何 琼 刁石京
谢少锋 闻 库 韩 夏 赵志国 谢远生
赵永红 韩占武 刘 多 尹丽波 赵 波
卢 山 徐惠彬 赵长禄 周 玉 姚 郁
张 炜 聂 宏 付梦印 季仲华
专家委员会委员(按姓氏笔画排列):
于 全 中国工程院院士
王少萍 “长江学者奖励计划”特聘教授
王建民 清华大学软件学院院长
王哲荣 中国工程院院士
王 越 中国科学院院士、中国工程院院士
尤肖虎 “长江学者奖励计划”特聘教授
邓宗全 中国工程院院士
甘晓华 中国工程院院士
叶培建 中国科学院院士
朱英富 中国工程院院士
朵英贤 中国工程院院士
邬贺栓 中国工程院院士
刘大响 中国工程院院士
刘怡昕 中国工程院院士
刘韵洁 中国工程院院士
孙逢春 中国工程院院士
苏彦庆 “长江学者奖励计划”特聘教授
苏哲子 中国工程院院士
李伯虎 中国工程院院士
李应红 中国科学院院士
李新亚 国家制造强国建设战略咨询委员会委员、中国机械工业联合会副会长
杨德森 中国工程院院士
张宏科 北京交通大学下一代互联网互联设备国家工程实验室主任
陆建勋 中国工程院院士
陆燕荪 国家制造强国建设战略咨询委员会委员、原机械工业部副部长
陈一坚 中国工程院院士
陈懋章 中国工程院院士
金东寒 中国工程院院士
周立伟 中国工程院院士
郑纬民 中国计算机学会原理事长
郑建华 中国科学院院士
屈贤明 国家制造强国建设战略咨询委员会委员、工业和信息化部智能制造专家咨询委员会副主任
项昌乐 “长江学者奖励计划”特聘教授,中国科协书记处书记,北京理工大学党委副书记、副校长
柳百成 中国工程院院士
闻雪友 中国工程院院士
徐德民 中国工程院院士
唐长红 中国工程院院士
黄卫东 “长江学者奖励计划”特聘教授
黄先祥 中国工程院院士
黄 维 中国科学院院士、西北工业大学常务副校长
董景辰 工业和信息化部智能制造专家咨询委员会委员
焦宗夏 “长江学者奖励计划”特聘教授
《学术中国·大数据》丛书 编辑委员会
编辑委员会顾问:
邬贺铨 李国杰 李德毅 方滨兴
编辑委员会主任:郑纬民
编辑委员会委员(按姓氏笔画排列):
王建民 杜跃进 李国庆 李 涛 宋 杰
张广艳 陈 卫 陈世敏 魏哲巍
策 划:《大数据》杂志
丛书总序
大数据、人工智能、云计算、物联网、移动互联网和产业互联网等成为新一代信息技术的特征,其中大数据与上述技术和应用都有密切关系。大数据来自于移动互联网、产业互联网和物联网等,其存储需要云计算,其挖掘依靠人工智能,而人工智能也有赖于大数据的支撑,大数据是产业互联网的重要基础。大数据不仅可以用于社会的精细化管理,更好地服务民生,大数据产业也将形成信息产业新的分支,其间接的产业影响将更大。可以说,大数据是数字经济的重要支柱。
很多国家都将大数据作为新时期的国家发展战略。2015年,国务院印发大数据发展的首个权威性、系统性文件《促进大数据发展行动纲要》,2016年国家发展和改革委员会批复了13个大数据领域的国家工程实验室,我国一些省市也纷纷制定大数据发展战略与规划。当前,我国在大数据共享开放、大数据资源开发、大数据技术研发、大数据挖掘应用、大数据产业培育、大数据安全管理、大数据人才培养和大数据法规研究等方面全面部署,为我国实现供给侧结构性改革,促进产业升级和转型,提升国家竞争力,争取在国际领域的话语权和实现跨越式发展起到了不可或缺的作用。
然而,我国的大数据发展也面临一些亟待解决的问题,例如基础研究薄弱、创新能力不强、产业链条缺口、数据资源封闭、法律法规滞后、数据安全不力、数据人才短缺和数据设施布局不合理及利用率不高等。为了使我国的大数据应用与产业可持续健康发展,需要多管齐下,其中普及大数据科学是重要的一环。为此,《学术中国·大数据》丛书编委会组织多个大数据领域优秀的研究团队的专家,基于国家“973”计划、“863”计划、国家自然科学基金、国家重点研究计划等科研项目的创新研究成果和国内外大数据应用的成功实践,编写了这套丛书,内容涵盖大数据存储、数据管理、数据挖掘、分析平台、优化算法等核心技术领域。
本丛书的出版对传播大数据科学知识、推动大数据的学术探讨、鼓励大数据领域的产学研用协同创新、促进大数据标准化研究、加快大数据核心技术研发、培训大数据技术人才、引导大数据应用与产业化发展以及完善大数据有关的制度建设,都将起到积极作用。
2017年12月
前言
如何从海量数据中有效获取信息,以进行分析和决策是大数据的核心问题,也是21世纪各行各业均面临的重要问题。解决这一核心问题需要大数据处理平台的支持。大数据处理平台是一种“计算平台”,计算平台泛指支持算法执行的硬件系统、操作系统和运行库,那么大数据处理平台则泛指可以支持大数据处理算法执行的平台。大数据处理平台采用集群作为硬件系统,分布式计算框架作为中间件系统。以Hadoop HDFS为代表的分布式文件系统和以MapReduce为代表的分布式并行编程模型在学术界和产业界最为流行,并以此引出完善的Hadoop生态圈;另一个则是围绕并行框架Spark的生态系统,如Spark Streaming和Shark。以这些开源技术为支撑的大数据处理平台广泛地应用于社交网络、科学数据分析、传感数据处理、医疗和电子商务平台中。
典型的大数据应用可以分为OLTP、OLAP和图计算3类,因此,从数据处理平台角度,需要提供数据查询、统计分析和迭代计算支持。本书围绕这3个典型数据处理方式,首先介绍大数据处理平台的体系结构,并简述体系结构每部分的主流技术;随后重点介绍大数据处理平台实现数据查询、统计分析和迭代计算的基本原理、研究进展;每部分还包括项目组近年来的研究成果。此外,本书还展望了大数据实时处理平台的架构和核心技术。本书介绍的理论和技术均集中于中间件层,以“学术研究”和“系统实现”相结合的角度论述,使得读者能够更加深入地理解大数据处理平台的核心技术和学术前沿,帮助读者更加有效地构建处理平台,或对已有的大数据处理平台进行改进,开展大数据存储和管理领域的相关研究。
本书是“学术中国·大数据”系列丛书之一。书中研究成果为国家自然科学基金重点项目“大数据高效能存储与管理方法研究(No.61433008)”的部分建设成果。笔者在数据管理领域已有十多年的研究经验,结合自身的研究经验,从“学术研究”和“系统实现”相结合的角度,对平台进行全面的介绍。书中既有原理,又有学术前沿综述,但不包含使用方法、编程技术、构建步骤等类似工具书的内容。对于大数据相关领域高校师生、研究人员以及大数据处理平台的设计师和架构师有一定的借鉴性。
笔者
2017年4月于沈阳南湖
大数据处理平台是一种“计算平台”,计算平台泛指支持算法执行的硬件系统、操作系统和运行库,大数据处理平台泛指可以支持大数据处理算法执行的平台。大数据处理平台采用集群作为硬件系统,分布式计算框架作为中间件系统。本章主要介绍大数据处理平台的体系结构,并简述体系结构每部分的主流技术。
1.1 集群系统
集群系统通常是指构建在计算机集群之上的系统,其将一定数量的计算机连接起来构成分布式系统,作为单独的、统一的计算资源,为上层应用提供计算服务。集群系统对同构或异构的计算资源进行统一管理与调度以及实现分布式协调(Distributed Coordination)。本节主要介绍当前主流的任务管理与调度机制Hadoop YARN、Apache Mesos以及分布式协调机制Apache Zoo Keeper。
1.1.1 Hadoop YARN
由于MapReduce的Job Tracker/Task Tracker机制在可扩展性、内存消耗、线程模型、可靠性等方面存在缺陷,且其维护成本很高,因此,Apache提出了Hadoop YARN这种新型的Hadoop MapReduce框架。YARN架构如图1-1所示。YARN[1]提供强大的资源管理功能,将Job Tracker分解为两个独立的服务:全局的资源管理器(Resource Manager,RM)和应用程序特有的应用程序管理器(Application Master,AM)。YARN采用Master-Slave(主——从)架构,主节点部署RM,负责整个系统的资源管理和分配。每个从节点上均部署节点资源管理器(Node Manager,NM),RM对各个NM上的资源进行统一管理和调度。
图1-1 YARN架构
AM负责单个应用程序的管理,这些应用程序对应的为MapReduce作业或单一作业,或以有向无环图(DAG)表示的复杂作业。每个应用程序的AM负责协调来自RM的资源,并与NM一起监视和协调资源。当用户提交一个应用程序时,需要提供一个用以跟踪和管理该程序的AM,它负责向RM申请资源,并通知NM启动任务和占用资源。由于不同的AM被分布到不同的节点上,因此它们之间不会相互影响。YARN将全局资源管理、应用资源管理和应用程序之间解耦,所以YARN扩展性更好、更加高效,大量不同组件能够有效共享同一个框架。
1.1.2 Apache Mesos
Apache Mesos是一种细粒度的资源共享平台[2],通过通用接口访问集群资源,允许跨多个集群计算框架实现细粒度的资源共享。Mesos将CPU、内存、存储和其他计算资源从机器(物理或虚拟)中抽象出来,以轻松构建容错的、弹性的、高效的分布式系统。Mesos引入了分布式两级“资源调度——资源供给”机制,Mesos决定提供给每个框架的资源数量,框架自主决定哪种资源可接受,哪种计算可在该框架上执行。
图1-2展示了Mesos的主要组件。它包括一个主节点进程,即在每个集群节点上运行从节点守护进程,同时计算框架在这些从节点上运行任务。主节点通过资源供给范式跨计算框架实现了细粒度的资源共享,分配策略包括公平共享或者具有优先级的共享。为支持多样化的跨框架分配政策,Mesos通过一个可插入的分配模块实现定义分配策略。
图1-2 Mesos的主要组件
在Mesos中运行的计算框架主要包括两个组件:调度器向主节点注册以提供资源;执行进程从节点上启动以运行计算任务。虽然主节点决定为每个框架提供的资源数量,但框架的调度器可自主选择使用主节点所提供的资源,当框架接受主节点提供的资源后,就向Mesos传递信息以描述在这些资源上执行的计算任务。整体而言,Mesos具有高利用率、快速响应工作负载变化、支持多种计算框架、高可扩展性和可靠性等优点。
1.1.3 Apache Zoo Keeper
Apache Zoo Keeper[3]是一个分布式的、开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务、配置维护和命名服务等。Zoo Keeper是Hadoop的一个子项目。分布式系统需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zoo Keeper则可以帮助用户实现这一状态。Zoo Keeper提供以下承诺。
●最终一致性:客户端不论连接到哪个服务器,展示给它的都是同一个视图。
●可靠性:如果某条消息被一台服务器接收,那么它将被所有的服务器接收。
●实时性:客户端将在一个时间间隔内获得服务器的更新信息,或者服务器的失效信息。
●等待无关:慢速或者失效客户端不会影响快速客户端的请求,每个客户端的等待都独立并有效。
●原子性:更新或者成功,或者失败。
●顺序性:提供多种逻辑时钟对消息进行排序。
Zoo Keeper中的角色主要有以下3类:Client是请求的发起方;Leader负责投票的发起和决议以及更新系统状态;Learner分为Follower和Observer,其中前者用于接收Client请求,并向Client返回结果,在选举中参与投票,而后者不参与投票。
Zoo Keeper的核心是原子广播,这个机制保证了各个服务器之间的同步,如图1-3所示。实现这个机制的协议叫作Zab协议。Z
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询