纵横大数据:云计算数据基础设施pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:纵横大数据:云计算数据基础设施pdf/doc/txt格式电子书下载
推荐语:从策略、技术、应用、数据架构等多个维度指点企业大数据规划
作者:何小朝著
出版社:电子工业出版社
出版时间:2014-05-01
书籍编号:30467836
ISBN:9787121232138
正文语种:中文
字数:179406
版次:1
所属分类:互联网+-大数据
版权信息
书名:纵横大数据:云计算数据基础设施
作者:何小朝
ISBN:9787121232138
版权所有 · 侵权必究
推荐序一
花五个小时,你获得什么?
这两年市面上大数据的书也很多了,大体分为两类,一类是讲趋势,重点是大数据对商业、社会、政府的影响;另一类是讲工具,比如,专门讲Hadoop指南,但对于企业CIO,CTO和企业架构师们来说,缺少一本承上启下的“中坚论著”,尤其是对于数据管理类各种技术流派做出一致性评价的书籍,可能是因为从业人员里面能够拥有如此宽的架构视野,具备具体技术实践,同时具备思辨能力的人本来就很少,何博士的经历刚好满足这几个要求。
本书有这么几个特质,导致了它的可读性和实用价值。
解惑:具备清晰的分析逻辑和对多种技术的内在理解
从关系型数据库到MapReduce,从NoSQL到分布式文件系统,笔者讨论了今天IT环境里的多种技术,并围绕着CAP,BASE,Codd原则等基本原则对多个技术流派的特点进行了精辟的分析,使得多种技术体系的利弊在一个整体分析框架里来讨论,并结合具体应用案例,笔者对相关技术(包括硬件技术潮流),对主要技术演进的“所以然”给出了清晰的分析与解释。能够把纷繁复杂的多种技术讲得环环相扣,体现了笔者的技术功底和思辨精神,尤其可贵的是,笔者对主要技术优缺点的分析是相对中立和客观的。何种情况采用何种技术策略,读者如果“吃透”了本书的见解,会有一个基本的判断方向。
书中对有些问题的讲解,甚至有侦探小说的味道,这个是非常难得的,带着问题来读会使读者收获更大。同时本书敢于表达自己的“定义”能力,对很多技术的本质阐述用词精准。
授业:具备实践性的架构经验,有实战指导价值
笔者本人是直接动手做过一个已在应用中的大数据系统的,在本书的后半段也直接分享了这个实践,这使得整个书中的见解和建议都具备实战价值,这点对于今天“雷声大,雨点小”的中国大数据市场是非常可贵了。尽管做过Hadoop工程师、关系型数据库架构师的人不少,但能够根据一个特定的企业架构需求,给出恰当的技术建议,包括一套整体思考方法的人,却非常稀有,何博士此书有些实践性的“干货”也是本书的特色之一。
传道:帮助从业人员提升对数据管理的整体视野
对于更多的IT业者,希望对云计算与大数据的体系有一个整体的理解,尤其能够历史地理解数据管理的前世今生,包括互联网大潮下的架构变迁,这本书尤为可贵。此书对于技术的理解,既包括了技术的深入理解力,又超过了技术本身,能够站在取舍之道的角度来看技术趋势,所以这本书,等于对云计算的数据基础设施与架构选择等方面,给出了一个方法论与原则方面的参考。对于从事数据中心规划、大数据架构设计、云计算数据基础设施的从业人员都有很大帮助。
一本非常有可读性的书!
甲骨文大中华区技术战略部总经理
刘松
推荐序二
大数据,从麦肯锡完整给出定义到现在还不到三年的时间。也就是说,这个概念本身依然很新,时间不长。但是,在当今互联网时代,三年已经是一个不短的时间,尤其对于知识传播来讲。这是一个数据爆炸的时代,是一个信息飞速传递的时代,是一个随时创造奇迹的时代。只有到了今天我才真正有了科技水平日新月异的感觉,新科技、新应用层出不穷。一个“余额宝”几个月就可以到几千万,超越基金公司老大十多年积累的规模;微信一个发红包的简单应用,短短几天时间就有几千万人乐在其中;一个求关爱买保险方式,几天就有几十万人参与。
仅仅几年的时间,大数据的理念已经深入人心。这个概念已经突破了行业界限,突破了地域界限,突破了国家界限,成为全世界都在关心的理念。对于大数据技术和应用的研究已经成为很多国家的科技战略,甚至已经成为国家战略。从各国的投入和重视程度,我们不难看到它的重要性和未来前景的广阔。不论是美国总统奥巴马计划投入几亿美元、英国准备用近2亿英镑投入大数据的研究,还是新加坡的大数据人才发展战略都充分凸显了各国把大数据作为研究的重点方向和战略高地。在我们中国,这个概念的普及和重视程度丝毫不亚于任何一个国家。从国务院、工信部到各个地方政府,我们都能够听到和看到领导们对大数据的重视程度。短短几个月的时间,各地政府的想法和做法相继出台。 山西太原首先宣布建立中国金融业大数据中心,贵州公布了雄心勃勃的大数据发展战略与规划(800亿的投入和2020年4500亿的产值),广东省准备设立专门的大数据部门,中关村建立大数据交易中心,可以说是政策和策略层出不穷。各个企业更是不甘落后,不论是互联网企业,还是技术应用前沿的金融和电信,以及众多的IT服务公司,大数据无疑都已经成为大家关注的焦点。
对于任何一个事物,不论热到什么程度,在我们参与和推广之前,我们一定要理解其本质是什么,它能够干什么,我们可以如何用,应用这些技术和理念能够给我们的生活和工作带来什么好处。要回答这些问题,我们就需要了解什么是大数据,大数据如何定义才比较全面,大数据有哪些特点和特征,大数据在各个行业的潜在应用有哪些,大数据的关键技术有哪些,推广大数据需要什么样的人才,凡此等等。要用好大数据,有太多的问题需要我们回答,有太多的知识需要我们去学习。 何博士的这本书可以很好地帮助我们去理解和回答这些问题,尤其是他多年的实战经验,可以弥补目前这一领域实战应用的相对匮乏。
我非常同意本书对大数据的定义:大数据就是指企业以“数据驱动业务与运营”的相关战略与战术。也就是说,在大数据时代,企业在进行一门决策、开展一项活动、设计一个产品时,需要养成一种习惯(甚至可以说是一种制度或规范):让数据说话!以数据分析的结果来指导这些决策与设计活动。这样看来,很显然,大数据就不是单指某一种数据类型,也不是单指某一种技术了。
那么,要实现“数据驱动业务与运营”,过去企业所拥有的以交易行为为核心的数据显然是远远不够的。例如,根据一个银行以前所拥有的交易数据,无法知道这个人的爱好、行为习惯、社会关系等信息,也就无法全面地了解该客户,那么对该客户做出的营销,就无法达到满足客户要求的个性化,自然也就很难说是精准营销了。我们必须将新的数据源补充到现有的数据体系中来,而这些数据正好就是那些被大多数人称作是大数据的社交媒体、线上行为数据等。也就是说,在这样的定义下,新数据源成为了企业实现大数据策略所需要补充的数据,是大数据体系中必不可少的重要成员。传统的结构化数据、内部数据和众多的非结构化数据、外包数据的结合,才可以让我们更加准确地理解我们的客户和服务对象。
再看看在该定义之下的Hadoop技术。同样,企业要实现“数据驱动业务与运营”,过去所掌握的关系数据库技术也已经不够了,同样必须引入新的技术手段,而以Hadoop为代表的新技术手段也成为了企业大数据体系中需要补充的成员。
在我看来,至今为止,本书这样的定义,既有相当的高度与长期的可适用性,并且还合理地囊括与兼容了我们过去对大数据的普遍理解,是目前见到的最为恰当的解释了。
再有就是纯技术层面的问题了:Hadoop、NoSQL等技术在企业内到底应该如何使用?这确实是令很多企业头痛的实际问题。我很赞同本书作者的看法:没有一种观点是完全可以拿来照办的!要做出正确的决策,就必须先对各种技术的本质特点有一个全面正确的了解,然后结合企业自身的实际,做出自己的判断。于是,该书将很大一部分内容都放在了对各种技术手段的深入分析上了,并且还给出了各种技术在企业数据管理实际中具体的定位参考的相关实例,同时还对实现大数据的技术策略,以及未来数据管理技术的发展趋势等进行了分析与判断,内容十分翔实丰富。而到目前为止,在涉及大数据话题的资料与书籍中,能像本书这样全面分析与介绍大数据技术的还非常少!我认为,对企业与技术人员来讲,本书的这些内容远远比介绍Hadoop到底如何使用要重要、要有意义得多!
另外,从本书的内容中,我们还了解到一个非常重要的前沿趋势:即使是纯从技术上看大数据,目前以互联网数据源及Hadoop技术为主导的固有思路已经需要调整与提高了。在不久的将来,除了数据库技术之外,大数据技术的重点可能会逐渐以更加实时高效的、面向海量数据对象或海量计算任务的大规模并行处理技术为主,而Hadoop应该只是其中的一员而已。
基于上述原因,我认为该书是目前大数据领域内不可多得的一本好书,无论是对企业来讲,还是对技术人员来讲,都有相当的参考意义,我乐于将该书推荐给各位读者。
刘世平
中科院大学教授,博导
金融科技研究中心主任
吉贝克信息技术(北京)有限公司董事长
前言
“云计算”与“大数据”应该说是目前IT界最为热门的两个概念了。云计算以各种软硬件资源新的消费与交付模式为核心理念,被普遍认为将会成为未来社会最为深远的革新。而现实却是:在多“云”的天空,成功的实践却少得可怜,致使其很多情况下只是充当了一个时髦的噱头。
令人遗憾的是,如今风头已远远盖过“云计算”的“大数据”,其现实情况与此类似。大数据概念最初是伴随着Hadoop等开源技术的推广而出现的,在国内外众多互联网公司依靠它们取得巨大成功的强力推动下,传统数据管理技术的地位受到了严重的挑战,似乎不知Hadoop、不用Hadoop就会落后!但如何才能在本企业或者某个具体需求中正确有效地使用这些新技术呢?这至今依然是众多企业技术决策者的困惑。
大多数企业目前对大数据潮流的热烈响应其实是“雷声大,雨点小”,其中相当一部分是不分青红皂白,纯粹为了Hadoop而Hadoop,很少有产生实际成效的案例。本书认为,要正确回答这些问题,给出合适的决策,必须对这些技术本身进行较为深入的了解与分析,然后结合自己企业的实际,做出自己的判断。任何其他企业的经验都不可以照搬照抄;任何资料中关于各种技术的适用场景描述,即使是正确的,也都有其特殊的上下文环境,不可以当成普遍真理去盲目遵从。这里所说的对技术的了解,并不是指具体如何去使用它,而是指其内在本质、特点与相互联系,这些往往比使用方法更重要,也是本书区别于其他大数据资料的主要特点之一。
首先,让我们看看云计算与大数据的关系,目前人们对此的理解更是混乱不堪,有人认为两者完全不同,有人则认为大数据技术其实就是云计算。对“云”,最开始,人们普遍认为那是一种采用一堆闲散资源完成一件重大任务的技术。后来,人们又意识到现代社会对“云”的诠释,其实更多的是指一种以服务为主的商业模式,而不是一种技术。现在,绝大多数人对“云”的理解停留于此,认为“云计算”与技术无关的人大都是这种思路。但在对“云”业务模式的实践中却发现,要搞“云”服务,必须从技术手段与商业模式两个维度同时入手才有意义,只拥有其中任何一个方面都是不行的,甚至可以说前者要比后者重要得多。大多数情况下,在“云”能适用的领域内,如果没有前者,后者所能提供的服务水平自然也就很有限,从而也就自然失去了“云”的含义。所以说,云计算的本质是商业模式,但其核心却仍然是技术问题。
而云在技术层面的核心问题又是什么呢?有人认为是“小变大”的分布式计算,有人认为是“大变小”的虚拟化,而本书认为,云计算最核心的问题是数据,具体地讲,是现代业务环境下的数据管理问题,也就是能实现海量、多类型、高负载、高性能、低成本需求的数据管理技术,这实际上就是传统数据管理技术在现代的最大挑战。这其中最耀眼的,就是各种新兴的大数据家族成员的出现,包括开源体系的Hadoop、各种NoSQL数据库、NewSQL数据库(关系数据库联邦)、分布式文件系统等,甚至还包括非开源体系的新一代关系数据库。这样看来,“大数据”应该是“云计算”业务模式得以实现在数据管理层面的核心技术支撑,两者密不可分。
而从纯技术的角度看,“云计算”概念最初出现时就是指采用网络互联起来的设备共同完成一项庞大任务的技术策略,而Hadoop等流行大数据技术的核心思路大多如此。因此,我们又可以说:“云计算”是大数据的技术实现方法。这便是云计算与大数据的联系,两者无论是在业务上,还是技术上,都是相互依存的。一句话,无论叫什么名称,其实都是代表现代IT发展的最新进展而已。
再来看看各种流行的大数据技术本身,包括Hadoop,NoSQL,NewSQL,甚至一些新一代的关系数据库等。对它们,在现代数据管理领域内,目前的状态却
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询