当前位置:
首页 > 互联网+ > 大数据 > 典型Hadoop云计算pdf/doc/txt格式电子书下载

典型Hadoop云计算pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

典型Hadoop云计算pdf/doc/txt格式电子书下载

书名:典型Hadoop云计算pdf/doc/txt格式电子书下载

推荐语:

作者:赵书兰著

出版社:电子工业出版社

出版时间:2013-01-01

书籍编号:30460108

ISBN:9787121188077

正文语种:中文

字数:132073

版次:1

所属分类:互联网+-大数据

全书内容:

典型Hadoop云计算pdf/doc/txt格式电子书下载






前 言


什么是云计算?云计算是一种基于互联网的超级计算模式,在远程数据中心,几万台甚至几千万台计算机和服务器连接成一片。云计算甚至可以让人们体验每秒超过10万亿次的运算能力,如此强大的运算能力几乎无所不能。用户通过计算机、笔记本电脑、手机等方式接入数据中心,按各自的需求进行存储和运算。


云计算是传统计算机技术和网络技术发展融合的产物,也是引领未来信息产业创新的关键战略性技术和手段。云计算的广泛普及与应用,也将催生信息技术的第三次生产变革浪潮,引发未来新一代信息技术变革、IT应用方式的核心变革,同时也将带来工作方式和商业模式的根本性变革。作为21世纪IT业界乃至全社会关注的焦点和热点,未来云计算应用可以作为一种IT基础设施服务模式、一种信息服务的交付模式、一种基于互联网的新型商业模式,一种像供水、输电一样的创建性资源服务模式,将为人类社会提供更加方便、快捷、廉价的信息服务,为人们的工作、生活提供更多便利。


云计算作为新一代的技术变革,其发展受到了各行各业的关注,无论是政府部门,还是企事业单位,他们所签的如雪片一般的订单昭示了云计算的巨大市场。中国把云计算提高到了战略发展项目的高度,2010年10月,发改委、工信部联合发文通知,加强中国云计算创新发展的总体布局,并开展了云计算服务创新发展的一系列试点示范工作。“十二五”规划纲要中云计算也占据了引人注目的位置。有了广阔的前景和市场,加之政策的扶持,云计算项目在中国大有遍地开花之势。


与以往的高新技术不同,云计算不光给大型的企业和单位带来了实惠,对于中小型企业来说,更是一种莫大的机遇。过去,中小型公司人力资源不足,IT预算吃紧,动辄数百万元的IT设备和设备所带来的生产力提升离他们相距甚远,而现在,云计算为它们提供了大企业级的技术,前期成本低,升级方便。


这一新兴技术的重要性毋庸置疑,不过,它尚处于起步阶段,接下来会有一系列的变革。云计算甚至可以抹平企业规模所导致的优劣差距,而且极有可能让小企业占据优势。简言之,目前世界上功能最强、最具创新能力的技术已不再为大型企业所独享。事实上,每个人都已经开始不同程度地享受到这一技术了。


人们前期已经热衷于对云计算技术概念的专注研讨,而这个术语被广泛地定义为一个“计算”的本身。关于这个主题的文献已经被很多权威专家想象、分析描述如下。


一个毁灭性结构的架构。


一个21世纪的巨大潮流。


大的经济平均主义者。


一个全球社会和经济网络。


一个国家工业的毁灭。


媒体的民主时代。


一个国家终结的开始。


一个地球村的崛起。


全球恐怖组织扩展的加速器。


权力从西方向东方转移的加速器。


计算历史上的下一次革命。


数字和物理世界的融合。


有专业人士预测,到2020年,全球云计算市场规模将比现在增长5倍多,从406亿美元增长到2410亿美元以上,中小企业对于云计算的需求会逐年上升。可以预见的是,随着云计算日趋走向成熟,小型企业出于越来越多的技术需求会更加依赖于云计算,而其成本和复杂性也会逐渐降低。


Hadoop云是一个实现了MapReduce计算模型的开源分布式并行编程框架。MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理。


随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算。近两年,尤其是2012年,国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类公司采用该模型分析用户信息,优化网络配置;美国供电局采用该模型来分析电网现状;包括VISA和JP摩根在内的金融公司采用该模型来分析股票数据;包括Amazon和ebay在内的零售商和电子商务公司也开始采用该模型;甚至部分生物公司也采用该模型来进行DNA测序和分析。


经过几年的发展,在所有的开源云计算系统里,Hadoop一直稳居第一。而本书也因此诞生。


本书共分为9章,各章主要介绍内容如下。


第1章:介绍云计算背景与Hadoop,主要包括云的基本概念、云计算的优缺点、云计算存在的问题及Hadoop的概述及使用等内容。


第2章:介绍Hadoop的安装与配置,主要包括Hadoop的安装、Hadoop的组件、Hadoop常用命令及Hadoop的I/O操作等内容。


第3章:介绍Hadoop云计算的MapReduce详解,主要介绍MapReduce的总体结构、MapReduce工作原理、MapReduce基础模板及MapReduce应用实例等内容。


第4章:介绍Hadoop云计算的ZooKeeper详解,主要介绍ZooKeeper的基本概念、ZooKeeper的安装、ZooKeeper的配置及ZooKeeper的典型应用等内容。


第5章:介绍Hadoop云计算的Mahout详解,主要介绍Mahout的安装与配置、Mahout的相关算法、Naive Bayes分类器及Mahout的应用等内容。


第6章:介绍Hadoop云计算的Avro详解,主要介绍Avro模式、Avro数据、Avro协议等内容。


第7章:介绍Hadoop云计算的Chukwa详解,主要介绍Chukwa的架构、Chukwa的安装与配置、Chukwa源代码分析及Chukwa的应用实践等内容。


第8章:介绍Hadoop云计算的其他相关项目,主要介绍Hadoop的HBase详解、Hadoop 的Hive详解、Hadoop的Pig详解及Hadoop的Cassandra详解等内容。


第9章:介绍Hadoop云计算的综合实例,主要介绍Hadoop云计算在移动通信信令监控与查询方面的综合实例及Hadoop在Last.fm的应用这两个应用实例。


本书由赵新芬编著,此外参加编写的还有李晓东、丁伟雄、雷晓平、李娅、杨文茵、何正风、赵书梅、栾颖、刘志为、周灵、周品、张德丰、余智豪和赵书兰。


由于作者水平有限,加之时间仓促,书中难免存在不足之处,敬请广大读者批评指正。


编著者


2012.8

第1章 云计算背景与Hadoop


很少有一种技术能够像云计算(Cloud Computing)这样,在短短的两三年间就能产生巨大的影响。Google、Amazon、IBM和微软等IT巨头们以前所未有的速度和规模推动云计算技术和产品的普及,一些学术活动迅速将云计算提上议事日程。


1.1 云计算概述


“云计算”被称为继个人计算机、互联网之后的第三次信息化革命,通过与相关技术创新要素、商业模式创新要素形成新革命,通过与相关技术创建要素、商业模式创建要素形成有机互动,“云计算”将成为推动电信业乃至广义ICT产业下一轮突破发展的重要驱动力。


1.1.1 云计算的定义


云计算是在2007年第3季度才诞生的新名词,但仅仅过了半年多,其受关注的程度就超过了网格计算(Grid Computing),如图1-1所示。

典型Hadoop云计算pdf/doc/txt格式电子书下载

图1-1 云计算和网络计算在Google中的搜索趋势图

云计算迄今为止还没有统一的定义,不同的组织从不同的角度给出了不同的定义。据不完全统计,至少有25种以上的定义。例如,Gartner认为,云计算是一种使用网络技术并由IT使能而具有可扩展性和弹性能力作为服务提供给多个外部用户的计算方式;美国国家标准与技术实验室对云计算的定义为,云计算是便捷地通过互联网访问一个可定制的IT资源共享池能力按使用量付费的一种模式(IT资源包括网络、服务器、存储、应用和服务),这些资源能够快速部署,并只需要很少的管理工作,与服务供应商进行很少的交互”等。随着应用场景的变化和使能技术的发展,关于云计算的定义还在不断产生新的观点。


云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来,基于资源虚拟化的方式,为用户提供方便快捷的服务,其可以实现计算与存储的分布式与并行处理。如果把“云”视为一个虚拟化的存储与计算资源池,那么云计算则是这个资源池基于网络平台为用户提供的数据存储和网络计算服务。互联网是最大的一片“云”,其上的各种计算机资源共同组成了若干个庞大的数据中心及计算中心。


但是,云计算并不是一个简单的技术名词,并不仅仅意味着一项技术或一系列技术的组合。其所指向的是IT基础设施的交付和使用模式,即通过网络以按需、易扩展的方式获得所需的资源(硬件、平台和软件)。提供资源的网络被称为“云”。从更广泛的意义上来看,云计算是指服务的交付和使用模式,即通过网络以按需、易扩展的方式获得所需的服务,这种服务可以是IT基础设施(硬件、平台和软件),也可以是任意其他的服务。无论是狭义还是广义,云计算所秉承的核心理念是“按需服务”,就像人们使用水、电、天然气等资源的方式一样。这也是云计算对于ICT 领域乃至于人类社会发展最重要的意义所在。


1.1.2 云计算的特点


之所以称为“云”,是因为它在某些方面具有现实中“云”的特点。


(1)云一般都较大。


(2)云的规模可以动态伸缩,它的边界是模糊的。


(3)云在空中飘忽不定,无法也无须确定它的具体位置,但它确实存在于某处。同时还因为云计算的鼻祖之一——亚马逊公司将大家曾经称为网格计算的东西,取了一个新名字“弹性计算云”(Elastic Computing Cloud),并取得了商业上的成功。


有人将这种模式比喻为从单台发电机供电模式转向了电厂集中供电的模式。其意味着计算能力也可以作为一种商品进行流通,就像煤气、水及电一样,使用方便,费用低廉。最大的不同在于,它是通过互联网进行传递的。


云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)及网格计算(Grid Computing)的发展,或者说是这些计算科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、将基础设施作为服务IaaS(Infrastructure as a Service)、将平台作为服务PaaS(Platform as a Service)和将软件作为服务SaaS(Software as a Service)等概念混合演进并跃升的结果。从研究现状上看,云计算具有以下特点。


(1)超大规模。“云”具有相当的规模,Google云计算已经拥有100多万台服务器,亚马逊、IBM、微软和Yahoo等公司的“云”均拥有几十万台服务器等。“云”能赋予用户前所未有的计算能力。


(2)虚拟化。云计算支持用户随时随地使用各种终端获取服务。所请求的资源来自“云”而不是固定的有形实体。应用在“云”中某处运行,但实际上用户无须了解应用运行的具体位置,只需要一台笔记本电脑或一部PDA,就可以通过网络服务来获取各种能力超强的服务


(3)提高设备计算能力。云计算把大量计算资源集中到一个公共资源池中,通过多主租用的方式共享计算资源。虽然单个用户在云计算平台上获得的服务水平受到网络带宽等各因素的影响,未必能获得优于本地主机所提供的服务,但从整个社会资源的角度而言,整体的资源调控降低了部分地区峰值荷载,提高了部分荒废的主机的运行率,从而提高了资源利用率。


(4)高可靠性。“云”使用了数据多容错性、计算节点可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。


(5)减少设备依赖性。虚拟化层将云平台上方的应用软件和下方的基础设备隔离开来。技术设备的维护者无法看到设备中运行的具体应用。同时对软件层的用户而言,基础设备层是透明的,用户只能看到虚拟化层中虚拟出来的各类设备。这种架构减小了设备依赖性,也使动态的资源配置成为可能。


(6)通用性。云计算不针对特定的应用,在“云”的技术支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的运行程序。


(7)高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。


(8)弹性服务。云平台管理软件将整合的计算资源根据应用访问的具体情况进行动态调整,包括增大或减小资源的要求。因此云计算对于在非恒定需求的应用,如对需求波动很大、阶段性需求等

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示