当前位置:
首页 > 互联网+ > 大数据 > 云时代的大数据pdf/doc/txt格式电子书下载

云时代的大数据pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

云时代的大数据pdf/doc/txt格式电子书下载

书名:云时代的大数据pdf/doc/txt格式电子书下载

推荐语:系统性强,表述清晰,能将概念阐释和技术应用很好地融合。

作者:周品著

出版社:电子工业出版社

出版时间:2013-10-01

书籍编号:30467582

ISBN:9787121216442

正文语种:中文

字数:224955

版次:1

所属分类:互联网+-大数据

全书内容:

云时代的大数据pdf/doc/txt格式电子书下载






前 言


几年之内,云计算已从新兴技术发展成为当今的热点技术。从2003年谷歌公开发布的核心文件到2006年Amazon EC2(亚马逊弹性计算云)的商业化应用,再到美国电信巨头AT&T(美国电话电报公司)推出的Synaptic Hosting(动态托管)服务,云计算从节约成本的工具到盈利的推动器,从ISP(网络服务提供商)到电信企业,已经成功地从内置的IT 系统演变成公共的服务。


随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。 《著云台》[1] 的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系数据库中用于分析时会花费过多的时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百甚至数千台计算机分配工作。


“大数据”这个术语最早期的引用可追溯到Apache的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce 和Google File System(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。


在当今的IT行业中都需要对数据进行分析,而数据分析都需要数据源,大数据尤甚。互联网公司通过搜索引擎、访问记录、App追踪等技术手段可以获得大量的用户浏览信息,但这些信息的收集、存储、提取、访问等环节都不可能向大众公开,相关数据的使用规则目前还缺乏法律规范。对普通人而言,获得公开、免费、准确的数据来源似乎成为一种奢望,但企业和政府的数据公开的步伐已经迈出。各行各业都需要大数据,如医疗上的各种疾病数据,农业上的作物、天气、病虫害、土壤资料等数据,工业制造上的原材料、加工流程、设备信息、产品规格等数据,金融行业的客户资料、金融产品等数据,教育领域的学生、学校、教师、教材等数据,国防领域的卫星、海域等数据,环境保护中的空气污染物、水源质量分析等实时数据……不论政府、企业还是个人,对大数据的需求也涉及经济社会的各个方面。


互联网和移动互联网已经给电信、零售、媒体等行业带来了深刻变革,如果进入大数据时代,那么还有更多行业会迎接洗礼。目前智能制造、互联网金融、数字化诊疗已经崭露头角。个人用户对大数据的需求可能带来数据接收方式的变化,各类智能终端将再次迎来发展机遇。除了功能越来越强大的智能手机之外,眼镜、汽车、手表,甚至自行车都有可能成为接收数据的新型智能终端。


根据云时代的大数据发展趋势,笔者编著了本教材,让读者认识到什么是云,什么是大数据,以及云与大数据的关系,在各企业领域中怎样应用云时代的大数据。本书主要内容有:


第1章:介绍了云时代概述,主要包括“云”基本介绍、云产生的背景、云计算特点及云计算的关键性技术等内容。


第2章:介绍了大数据概述,主要包括大数据基本概念、大数据的发展趋势、大数据的挑战、现状与展望及大数据行业应用和未来热点等内容。


第3章:介绍了数据挖掘,主要包括数据挖掘的定义、起源、功能、实现方法、应用及哈希函数等内容。


第4章:介绍了数据量化,主要包括量化分析元素、量化质量分析规划及高级量化分析等内容。


第5章:介绍了大规模文件系统MapReduce,主要包括分布式文件系统、 MapReduce模型、MapReduce使用算法及MapReduce实现机制等内容。


第6章:介绍了相似项挖掘,主要包括近邻搜索的应用、最小哈希及距离测试等内容。


第7章:介绍了HDFS存储海量数据,主要包括HDFS简介、HDFS存取机制及HDFS管理操作等内容。


第8章:介绍了HBase存储百科数据,主要包括HBase基本特征、系统框架、HBase的基本接口及HBase数据模型等内容。


第9章:介绍了大数据链接分析,主要包括链接分析中的数据采集研究、PageRank及搜索引擎研究等内容。


第10章:介绍了聚类,主要包括聚类概述、聚类技术、层次聚类用CURE算法等内容。


第11章:介绍了项集与系统,主要包括项集规则、单调性、二元组计数及推荐模型系统等内容。


本书适用于云计算及大数据初、中、高级读者使用,也可作为研究大数据相关专业研究人员的参考资料。


由于时间仓促,加之作者水平有限,所以错误和疏漏之处在所难免。在此,诚恳地期望得到各领域的专家和广大读者的批评指正。


编著者



[1]《中国云》平台与受众营销联盟云生态系统,云时代云计算概念领军品牌商标之一。

第1章 云时代概述


什么是云时代?云时代是指云计算时代,云计算(Cloud C omputing)是分布式处理(Distributed Computing) 、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现,这将是一个时代的来临。


1.1 “云”概述


“云”即是计算机群,每一群包括了几十万台,甚至上百万台计算机。 “云”的好处在于,计算机可以随时更新,保证“云”长生不老。谷歌就有好几个这样的“云” ,如微软、雅虎、亚马逊(Amazon)也有或正在建设这样的“云” 。届时,只需要一台能上网的计算机,无须关心存储或计算发生在哪朵“云”上,一旦有需要,可以在任何地点用任何设备,如计算机、手机等,快速地计算和找到所需的资料,再也不用担心资料丢失。


这是一种革命性的举措,打个比方,这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。其意味着计算能力也可以作为一种商品进行流通,就像天然气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。云计算的蓝图已经呼之欲出:在未来,只需要一台笔记本电脑或者一部手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。从这个角度而言,最终用户才是云计算的真正拥有者。云计算的应用包含这样的一种思想,把力量联合起来,给其中的每一个成员使用。从最根本的意义来说,云计算就是利用互联网上的软件和数据的能力。


图1-1所示为云时代效果图。

云时代的大数据pdf/doc/txt格式电子书下载

图1-1 云时代效果图

1.1.1 什么是云计算


云计算是多种技术混合演进的结果,包括网格计算、效用计算、虚拟化技术、Web Services、SOA等,上述热点技术的融合发展将为我国的IT产业,特别是软件服务业带来影响广泛的变革。


自2007年以来云计算逐渐成为业界的认可和推崇的技术热点。众多国内外厂商围绕云计算开发出大量的产品,同时,越来越多的互联网应用开始尝试使用云服务构建基于云计算的解决方案,以及各大企业的关注热点。官方的国际标准化组织以及多个国际协会组织近两年来纷纷启动了云计算相关标准化工作,我国相关标准化组织也启动了云计算的标准研究及制定。


云计算目前在不同的组织、机构、企业都有定义,不同组织的定义往往关注于技术的特定方面。


1.维基百科


云计算将IT相关的能力以服务的方式提供给用户,允许用户在不了解提供服务的技术、没有相关知识以及设备操作能力的情况下,通过Interent获取需要的服务。


2.国际标准化组织ISO/IEC JTC1的云计算相关报告(2009年)


(1)云计算是提取的、高级的可升级的池,是能够为终端用户提供主机应用和通过消费买单的管理计算基础设施。


(2)动态可升级的计算风格和通常虚拟化的资源在因特网上作为一个服务提供。用户不需要精通或者控制支撑他们的“云”中的技术基础设施。


(3)云计算是新出现的共享基础设施,将大型池系统连接在一起以提供IT服务。


(4)暂时存储在因特网服务器上的信息的范围和关于客户的暂时高速缓冲存储器,包括台式计算机、娱乐中心、笔记本、掌上笔记本等(组织可升级的、坚固的、包含隐私的客户机云计算,IEEE(Institute of Electrical and Electronics Engineers,电气和电子工程师协会)因特网计算) 。


从业务的角度看,云计算提供了IT基础设施和环境以开发/提供主机/运行服务和应用,在需要应用时,即时购买作为一个服务。而且,从用户的角度,云计算提供资源和服务以存储数据和运行应用,在任何设备、任何时间、任何地点,作为一个服务。现在云计算的用法正扩展到众多明确的领域,包括网络服务、移动服务、媒体服务等。


3.美国加州大学伯克利分校


美国加州大学伯克利分校(University of California at Berkeley)——可靠适应性分布式系统实验室(Reliable Adaptive Distributed Systems Laboratory)对云计算在技术、商业应用中的现状和将来做了比较详细和科学的研究与分析。


他们认为云计算是:在互联网上以“服务”形式交付的应用程序,以及提供和支持这些服务的数据中心(Data Center,包括硬件和软件系统) 。


这些服务叫SaaS(Software as a Service,软件即服务) ,是数据中心里的软件总称,可称为(一个)云。


当某个云通过支付购买(Pay-as-you-go)的方式被使用时,就叫做公共云(Public Cloud) 。这样,服务就被“销售” ,这种方式叫做效用计算(Utility Computing) 。


相对公共云,我们把公司、组织机构之间内部使用的数据中心叫做私有云(Private Cloud) 。通常私有云不对公众开放。


1.1.2 给云计算一个说法


云计算是当前信息行业比较流行的话题,有关它的定义虽不是众说纷纭,但并非完全一致。总体上讲,云计算是一种计算行为或技术风格,特点是在互联网上提供一种动态可扩展的虚拟资源服务。为了满足这种动态可扩展性的要求,云计算服务商必须建立和依靠大型数据中心,它们通常分布在一个国家的各个地区,甚至世界其他国家和地区。可以想象,这样的计算网络有多大、多复杂和多昂贵。云计算中的“云”字是相对互联网而言的,用以比喻互联网的复杂结构。


过去的蒸汽机、信息工业化和互联网的普及给人类社会带来了巨大的变化。从信息技术的角度看,云计算是工业化的进一步发展,它将有望改变信息技术行业的整体结构。通过使用云计算的服务,软件服务商或开发者不需要自己拥有大量的计算资源(包括计算机服务器硬件和软件)和信息管理人员,就能开发和运行支持多用户的网上软件,或为客户提供托管和使用网上软件的服务。


那么,如何使用云计算服务呢?举例来说,如果想在互联网上建立一个网上售票业务,让人们登录到你的网站后,利用信用卡购票,那么你会首先开发这一网上软件,然后在其他公司的托管服务器和设定空间上运行,或在自己的服务器运行,为顾客服务。这种方式的潜在问题是服务的资源是恒定的,但互联网上的顾客流量是变化的。顾客少时资源可能浪费,顾客多时资源可能不够,顾客用不了软件,影响生意。利用云计算,给顾客提供服务的计算资源可随时根据顾客流量减少或增加,大大提高了服务质量。


1.1.3 云计算的使用范围


除了微软以外,目前提供云计算服务的美国公司还有亚马逊(Amazon) 、谷歌(Google) 、国际商用机器(IBM) 、Saleforce.com和EMC,等等。例如,亚马逊提供虚拟的服务器和托管环境及储存空间,但用户必须自己提供或购买服务器和数据库软件;谷歌提供的是编辑语言Python 和Java的托管环境,用户可以将自己的软件送到谷歌云计算环境中运行;IBM则是为客户提供开发和测试环境; Saleforce.com为用户提供网上管理客户的软件服务; EMC提供存储技术服务。


云计算为用户提供的是动态、可扩展的计算资源,也就是说,用户享用的计算资源可以根据客户流量需求随时增减。云计算的特点对现有的企业,特别是对计算资源要求随时间变化的企业具有相当大的吸引力。利用云计算的弹性资源,企业解决了因需求量突然增加而出现计算资源不足的问题,同时避免了因闲置过剩计算资源而造成的浪费。


云计算也特别适合刚刚起步的IT企业。新生的企业如果要提供网络服务,通常需要购买一定的服务器等硬件设备和软件,甚至还会招聘管理和支持这些服务器和设备

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示