大数据挑战与NoSQL数据库技术pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:大数据挑战与NoSQL数据库技术pdf/doc/txt格式电子书下载
推荐语:大数据技术的学习指南。突破迷局,厘清思路,拥抱变化。
作者:陆嘉恒著
出版社:电子工业出版社
出版时间:2013-04-01
书籍编号:30460145
ISBN:9787121196607
正文语种:中文
字数:187182
版次:1
所属分类:互联网+-大数据
版权信息
书名:大数据挑战与NoSQL数据库技术
作者:陆嘉恒
ISBN:9787121196607
版权所有 · 侵权必究
前 言
为什么写本书
计算机技术已经深刻地影响了我们的工作、学习和生活。大数据及NoSQL技术是现今IT领域最炙手可热的话题,其发展非常迅速,潜力巨大,悄然改变着整个行业的面貌。随着Web 2.0技术的发展,微博、社交网络、电子商务、生物工程等的不断发展,各领域数据呈现爆炸式的增长,传统关系型数据库显得越来越力不从心。NoSQL数据库技术的出现为当前面临的问题提供了新的解决方案,它摒弃了传统关系型数据库ACID的特性,采用分布式多节点的方式,更加适合大数据的存储和管理。
政府和高校都十分重视对大数据及NoSQL技术的研究和投入;在产业界,各大IT公司也在投入大量的资源研究和开发相关的NoSQL产品,与之相应的新兴技术和产品正在不断涌现。这一切都极大地推动了NoSQL技术的发展。
大数据处理和NoSQL技术涉及的内容繁多,目前不同公司也有不同的NoSQL数据库产品,而且某一产品往往是为特定的应用而设计的,并不一定能够适用于所有的场景。很多人在学习的初始阶段需要进行大量的摸索和实践,然而目前这方面系统的参考资料却非常少。为了便于所有想了解和掌握NoSQL技术的朋友学习,并在学习的过程中少走弯路,笔者将自己在该领域的经验和知识的积累凝聚在本书,希望能够推动大数据处理及NoSQL相关技术在国内的发展。
本书面向的读者
在编写本书时,我们力图使不同背景和职业的读者都能从其中获益。
如果你是专业技术人员,本书将带领你快速地进入大数据处理及NoSQL的世界,全面掌握NoSQL及其相关技术,帮助你使用NoSQL技术解决面临的问题或提供必要的参考。
如果你是高等院校计算机及相关专业的学生,本书为你在课堂之外了解最新的IT打开一扇窗,帮助你拓宽视野,完善知识结构,为迎接未来的挑战做好知识储备。
在学习本书之前,应具有如下的基础:
有一定的Linux操作系统的基础知识。
有较好的编程基础和阅读代码的能力。
对数据库知识有一定的了解。
如何阅读本书
本书一共包括16章,分为三个部分。其中第一部分为理论篇,包括:大数据产生的背景、数据一致性理论、数据存储模型、数据分区与防治策略、海量数据处理方法、数据复制与容错技术、数据压缩技术和数据缓存技术。此部分重点从理论上介绍、分析大数据管理过程中遇到的各方面问题。第二部分为系统篇,包括:键值数据库、列存数据库、文档数据库、图存数据库、基于Hadoop的数据库管理系统、NoSQL数据库以及分布式缓存系统。该部分以理论篇为基础,根据数据存储模型对数据库类型进行划分,每一部分以具体开源数据库为实例进行介绍,涉及系统的架构、安装以及使用等方面知识,力图使读者对NoSQL数据库有具体的认识。第三部分为应用篇,包括企业应用以及经验总结和对未来的展望。该部分介绍企业如何使用NoSQL数据库解决自身遇到的问题。
在阅读本书时,读者可以先系统地学习理论篇的知识,对海量数据处理方法有一个很好的理解,在此基础之上,读者可以对后面的章节进行选择性的学习。本书涉及内容较多,从开源数据库方面讲,包括了Dynamo、 Redis、 Voldemort、 Cassandra、 Hypertable、 CouchDB、 MongoDB、Neo4j、 GraphDB、 OrientDB、 HBase、 Hive、 Pig、 MySQL Cluster、 VolteDB、 MS-Velocity、 Memcached等将近20个数据库。因此,建议读者可以重点学习感兴趣或有一定需求的数据库系统。当然,如果时间允许,还是建议读者系统地学习本书的内容。
另外,在系统篇的学习过程中,建议读者能够一边阅读,一边根据书中的指导进行实践,亲自实践本书中所给出的编程范例。
致谢
在本书的编写过程中,还有很多NoSQL领域的实践者和研究者为本书做了大量的工作,他们是张林林、许翔、程明、王海涌、顾向楠、吴少辉、杨宁、杨华、吴梦迪、任乔意、於洋、张轩等,在此特别感谢。
在线资源及勘误
本书官方网站为:http://datasearch.ruc.edu.cn/NoSQL/。本书的勘误、讨论以及相关资料等都会在该网站上发布和更新。
在本书的撰写和相关技术的研究中,尽管笔者投入了大量的精力,付出了艰辛的努力,然而受知识水平所限,错误和疏漏之处在所难免,恳请大家批评指正。如果有任何问题和建议,可发送邮件至jiahenglu@gmail.com或jiahenglu@ruc.edu.cn。
陆嘉恒
2012年6月于北京
第1章 概 论
“这是最好的时代,这是最坏的时代;这是智慧的时代,这是愚蠢的时代;这是信仰的时期,这是怀疑的时期;这是光明的季节,这是黑暗的季节;这是希望之春,这是绝望之冬;人们面前什么都有,人们面前一无所有;人们正在直登天堂,人们正在直下地狱。 ”
——狄更斯《双城记》
对于数据管理界来说,这是一个充满挑战的时代。急速增长的数据让人们焦头烂额,传统关系型数据库在扩展性方面的瓶颈让人们无所适从:如何存储大数据,如何处理大数据,如何挖掘大数据,大数据已经成为数据管理界的新挑战。这又是一个充满机遇的时代,新的系统孕育而出,百花齐放,它们“标新立异” ,它们“独树一帜” ,它们在数据模型、事务处理等方面采取不同的策略解决海量数据带来的问题。这注定是一段不平凡的岁月。
1.1 引子
MySpace是全球知名的在线交友平台,自从2004年创建以来用户数迅速增长,直到Facebook崛起其用户数量才不断下降。虽然如今MySpace黯然衰落,但是其信息系统的发展值得大家借鉴,这里我们通过MySpace的例子[3]来说明互联网公司是如何应对数据海量增长的,见表1-1。
表1-1 MySpace信息系统的发展阶段

MySpace最初的用户数量很小,两台Web服务器和一台数据库服务器就可以满足用户的访问。后来随着用户的增加,MySpace公司通过增加Web服务器来应对访问量的增长。而当用户数量继续增长时,数据库服务器开始出现瓶颈,但是增加数据库服务器并不像增加Web服务器那样简单,分布式事务的代价也很高。MySpace将用户数据垂直分割,如将用户的资料和博客存放于不同的数据库服务器上,随后又使用了存储区域网络(SAN) ,这种高带宽的网络可以将大量磁盘存储设备连接在一起。
即使采用了以上措施,在用户数增加到三四百万的时候,数据库服务器还是出现了瓶颈。于是MySpace采用分布式架构。为了使服务器负载均衡,MySpace对用户数据水平划分,每台服务器存放二百万用户的数据。由于现有系统的水平扩展能力较差,MySpace开始使用微软的解决方案,包括将系统采用.NET框架、数据库采用SQL Server。之后,MySpace在Web服务层和数据库层增加了缓存层,并将其硬件和软件全面升级到64位。尽管求助于微软,但是MySpace的服务器经常超负荷运行,用户等待的时间较长。
整个过程发生在2004—2006年,仅仅两年时间MySpace的数据量增加了几十倍,这是互联网公司普遍遇到的问题,虽然后来MySpace受到Facebook崛起的影响其用户群迅速下降,但是海量数据的存储与管理仍然是互联网公司绕不开的问题。 IDC[1]数据显示, 2006年全世界的电子数据存储量为18万PB,但是到了2011年这个数字已经到达180万PB。
通过上面的案例我们可以看出,为了解决大数据及其高访问量带来的问题,MySpace尝试了提高软硬件配置、增加服务器数目、采用分布式架构等方法,这些方法虽然提高了系统的性能,但并未完全解决大数据的问题,随着数据量的增加问题还会再次出现,大数据对现有IT架构的冲击是不可避免的。为了应对大数据的挑战,人们尝试转变思路,提出多种不同的解决方案,并构建各种各样的管理系统,这些系统可以水平扩展,可以很好地管理与分析大数据。
1.2 大数据挑战
什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案[2]。20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储、单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上。大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理。
随着社会计算的兴起,人们习惯于在网上分享和交流信息。比如,社交网站Facebook拥有庞大的用户群,而且在不断增长。这些用户每天发出的日志以及分享的资料更是不计其数,其数据量已经达到PB级别,传统的解决方案已经不能很好地处理这些数据。Facebook自己开发了Cassandra系统,现在又采用HBase,这些针对海量数据的管理系统能够较好地为用户提供服务,而且具有可扩展性和容错性,这是解决大数据问题所需要的性能。微博服务商Twitter也面临大数据的挑战,消息的发送量达到每天数亿条,而查询量则达到每天数十亿次,这要求存储管理系统不仅能够存储大规模数据,而且能够提供高吞吐的读/写服务。 Twitter原先使用MySQL数据库,之后由于用户暴增便将数据迁移到NoSQL系统上,尽管NoSQL系统还未成熟,但却是解决海量数据的较为有效的方案。其他的互联网公司同样面临着大数据带来的问题,如Goolge搜索引擎需要处理大规模的网页信息,YouTube则需要存储和提供用户分享的视频数据,维基百科提交用户分享的知识等,这些都涉及大规模数据信息存储与管理。
随着电子商务的发展,越来越多的人在网上选购商品,商务网站需要存储大量的商品信息和用户的交易信息,涉及大规模的数据。同时网站需要提供迅速的请求响应,以提高用户体验来吸引客户。而且网站还要对这些海量数据进行处理和分析,以便更有针对性地向用户推荐商品,海量数据成为系统构建和业务成败的关键因素。中国商业网站淘宝使用HBase来存储数据,同时不断探索自己的解决之路,开发了支持大数据的数据库系统OceanBase来实现部分在线应用。全球最大的线上拍卖和购物网站eBay也积极寻求海量数据的解决方案,其基于Hadoop建立了自己的集群系统Athena来处理大规模数据,同时开发了自己的开源云平台项目Turmeric来更好地开发和管理各种服务。同时,各大零售公司无论是在线销售还是实体销售,都会注意收集客户的消费信息以便有针对性地提供服务或推荐商品,这些都涉及大规模数据的应用。
各个领域的科学研究同样面临海量数据的挑战,从生物基因到天文气象,从物理实验到临床医学,得益于测量技术和设备的发展,这些领域在实验或实践中产生了大量的数据,而人们需要对这些数据进行处理分析从而挖掘出有价值的信息,但这不是容易的事情。随着下一代基因测序技术的发展,基因中所蕴含的信息逐渐被人们所发掘,人们获得更多更准确的基因数据,但是如何匹配基因数据,如何从这些数据中挖掘出所需要的信息,这是生物信息学遇到的新挑战。在环境气象研究中,科学家已经收集了数十年甚至上百年的气象环境数据,在这些数据中分析气候的变化需要海量数据处理技术的支持。在医学药物研究中搜集的大量的病人生理数据和药物测试数据,这些数据的规模很大,需要从中分析出有用的信息。在人文社会科学中,社会学家开始注意互联网社交网络上的人际交往和社会关系,其涉及的数据量也是非常巨大的,从海量数据中找出社会学家感兴趣的内容是富有挑战性的。人工智能研究方面,人们希望计算机拥有人类的学习能力和逻辑推理能力,这就需要机器存储大量的经验数据和知识数据,还需要从这些大量数据中迅速获得所需要的内容,并对其进行分析处理,从而做出正确有效的判断。
如今传感器的广泛使用,数据采集更加方便,这些传感器会连续地产生数据,如实时监控系统、网络流量监测等。除了传感器源源不断地产生数据外,许多领域都会涉及流数据,如经济金融领域中股票价格和交易数据、零售业中的交易数据、通信领域中的数据等都是流数据,这些数据最大
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询