当前位置:
首页 > 互联网+ > 大数据 > 大数据技术入门pdf/doc/txt格式电子书下载

大数据技术入门pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

大数据技术入门pdf/doc/txt格式电子书下载

书名:大数据技术入门pdf/doc/txt格式电子书下载

推荐语:大数据专家亲自操刀,Hadoop、Spark两大框架,大数据快迅入门

作者:杨正洪著

出版社:清华大学出版社

出版时间:2016-08-01

书籍编号:30305621

ISBN:9787302442837

正文语种:中文

字数:486012

版次:1

所属分类:互联网+-大数据

全书内容:

大数据技术入门pdf/doc/txt格式电子书下载








前言


我们生活在大数据时代,正以前所未有的速度和规模产生数据。数据资产正成为和土地、资本、人力并驾齐驱的关键生产要素,并在社会、经济、科学研究等方面颠覆人们探索世界的方法、驱动产业间的融合与分立。


大数据是用来描述数据规模巨大、数据类型复杂的数据集,它本身蕴含着丰富的价值。比如:在金融行业,企业和个人的一些信用记录、消费记录、客户点击数据集、客户刷卡、存取款、电子银行转账、微信评论等行为数据组合为金融大数据,他们利用大数据技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品,利用金融行业全局数据了解业务运营薄弱点并加快内部数据处理速度,利用决策树技术进入抵押贷款管理,利用数据分析报告实施产业信贷风险控制,利用客户社交行为记录实施信用卡反欺诈,依据客户消费习惯、地理位置、销售时间进行推荐(精准营销)。不仅仅金融行业,政府部门会根据大数据分析结果来做预算,企业也会根据大数据来进行市场策略调整。


Gartner指出,64%的受访企业表示他们正在或是即将进行大数据工作,然而其中一些企业却并不知道他们能够使用大数据做些什么。这正好印证了大数据领域的最主要的两个挑战:如何从大数据中获取价值以及如何定义大数据战略。这是本书首先需要解释的内容。


谷歌、Amazon、Facebook等全球知名互联网企业作为大数据领域的先驱者,凭借自身力量进行大数据探索,甚至在必要时创造出相关工具。这些工具目前已经被视为大数据技术的基础,其中最知名的当数MapReduce与Hadoop。Hadoop是目前处理大规模结构化与非结构数据的首选平台,它提供了分布式处理框架与开发环境。MapReduce是一种计算框架,它实现了将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,这些任务的计算结果可以合并在一起来计算最终的结果。在Hadoop问世以来的十年间,新的组件(如:Spark)层出不穷,极大地扩张了整个Hadoop生态圈。


大数据技术有别于传统数据处理工具和技术,而且大数据技术很难掌握,一般需要1-2年的反复尝试,在实际使用中解决了大量问题之后才能正确理解它。我们编写这本书的目的是,以硅谷大数据实战为基础,让读者略过那些不重要的大数据的细枝末节,通过实际的案例,帮助读者快速掌握大数据技术领域最能商用的大数据工具和软件平台,从而帮助读者轻松实施大数据方案。在本书中,我们将阐述如下最为硅谷所熟知的大数据相关技术:


·框架:Hadoop、Spark。


·集群管理:MapReduce、Yarn、Mesos。


·开发语言:Java、Python、Scala、Pig、Hive、Spark SQL。


·数据库:NoSQL、HBase、Cassandra、Impala。


·文件系统:HDFS、Ceph。


·搜索系统:Elastic Search。


·采集系统:Flume、Sqoop、Kafka。


·流式处理:Spark Streaming、Storm。


·发行版:HortonWorks、Cloudera、MapR。


·管理系统:Ambari、大数据管理平台。


·机器学习:Spark MLlib、Mahout。


上面的列表也说明了,Hadoop生态圈有几十个软件组成。这些软件提供了什么功能?到底在什么情况下使用什么软件?软件之间怎么组合使用?这些问题正是本书想要回答的。本书与市场上其他大数据书籍的区别是,我们不是专注某一个软件(比如:Spark),而是阐述整个生态圈中的主流软件,通过实例让你理解这些软件是什么,在什么场合使用,相互的区别是什么。如果我们把这几十个软件比喻成几十种厨房工具,那就是让你避免拿着菜刀去削苹果,或者拿着水果刀去剁肉。


除了阐述大数据的定义、前景和各类Hadoop发行版之外,本书主要是按照大数据处理的几个大步骤来组织内容的。


(1)大数据存储:探究HDFS和HBase作为大数据存储方式的优劣。


(2)大数据访问:探究SQL引擎层中Hive、Phoenix、Spark SQL等组件的功能,并阐述了全文搜索的ElasticSearch,也探究了Spark的高速访问能力。


(3)大数据采集:大数据的采集是指接收各类数据源(比如:Web、行业应用系统或者传感器等)的数据。大数据采集的主要特点和挑战是导入的数据量大(每秒钟的导入量经常会达到百兆,甚至千兆级别)、并发数高和数据源的异构。采集端可能会有很多数据库(或文件),有时需要在导入基础上做一些简单的清洗和预处理工作。在这个部分,我们探究了Flume、Kafka、Sqoop等技术,也探究了如何使用Storm和Spark Streaming来对数据进行流式计算,来满足部分业务的实时和准实时计算需求。


(4)大数据管理:探究数据模型、安全控制、数据生命周期等数据管理内容。


(5)大数据的统计和分析:探究了如何利用分布式计算集群来对存储于其内的海量数据进行统计分析,重点探究了机器学习和Spark MLlib,也阐述了多种分析算法。


参加本书编写的同志还有:余飞、邵敏华、欧阳涛、杨正礼、王娜、李祥、刘毕操、彭勃、李招、张剑、杨磊等人。由于我们水平有限,书中难免存在纰漏之处,敬请读者批评指正。杨正洪的邮件地址为yangzhenghong@yahoo.com。


杨正洪


2016年5月 于 San Jose

第1章 大数据时代


从20世纪开始,政府和各行各业(如:医疗、网络、金融、电信)的信息化得到了迅速发展,积累了海量数据。在这些数据当中,87%以上都是非结构化数据。虽然国内的各类数据中心已经有足够的硬件设施来存储这些数据,但是,如何让这些海量数据产生最大的商业价值,是目前面临的挑战之一。还有,由于数据的增长速度越来越快,数据量越来越大,传统的数据库或数据仓库很难存储、管理、查询和分析这些数据,如何在软件层面实现PB级乃至ZB级的海量数据存储和分析是目前面临的挑战之二。大数据(Big Data)技术就因此而生,并成功地解决了这两个挑战。以大数据的采集、整理、存储、管理、挖掘、共享、分析、反馈、应用为核心,最终实现智慧城市。根据IDC预测,2016年的全球大数据市场规模将达到230亿美元。

1.1 什么是大数据


大数据不是一项单一的技术,而是一个概念,是一套技术,是一个生态圈。大数据技术和专业术语多达几十个,记录了大数据从炒作到成熟并进入主流应用的过程。数据科学家、预测分析、开放政府数据,都属于大数据范畴。大数据技术也逐渐变得越来越复杂。政府和企业希望从自己的数据中获得更多的信息,软件厂商希望将“大数据解决方案”融入公司的产品之中。在大数据软件公司的助推下,政府和企业已经有能力利用廉价的服务器、开源技术和云计算来进行开销不大的大数据部署。


对于什么是“大数据”,不同的研究机构从不同的角度给出了不同的定义。Gartner认为:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。麦肯锡认为:“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据”。根据维基百科的定义,“大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合”。IDG认为:“大数据一般会涉及2种或2种以上数据形式,它要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年会增长60%以上”。


从客户的角度来看,大数据技术的战略意义不在于拥有多么庞大的数据信息,而在于对这些含有意义的大数据进行专业化处理,从中获得商业价值。比如,以色列已经把所有政府部门的视频整合到一个大数据管理平台上,并在这个平台上开发了一套智慧安防系统。在这个系统上,只要把某一个人的人脸或人的主要特征数据输入系统,就能从海量的监控记录中查出同那个人相关的视频片段,并自动变成一个有时间顺序的片子。


随着以云计算、大数据、物联网等为代表的新一代信息技术的发展和应用,世界经济进入了大转型时代,主要发达国家以及国内发达省市都紧盯紧跟这一轮产业变革,试图抢占未来经济发展先机。大数据是一种产业,这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”,完成“数据变现”。这种加工能力体现在技术上就是大数据分析。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据最核心的技术就是在于对于海量数据进行采集、存储、管理和分析。

1.2 大数据的四大特征


大数据具有4 V特征,即Volume(数据体量大)、Variety(数据类型繁多)、Velocity(数据产生的速度快)、Value(数据价值密度低)。


Volume指的是数据体量巨大。比如,一家3甲医院的影像数据(这包括CT、B超、X光片、胃镜、肠镜等)可能就是几百个TB,全国的医疗影像数据超过PB级别,接近EB级别。全球数据已进入ZB时代,IDC预计2020年全球数据量为40ZB。


Variety指的是数据类型繁多。这可分为结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,存储在数据库里,可以用二维表结构来逻辑表达数据,比如企业财务系统、医疗HIS数据库、环境监测数据、政府行政审批等等。非结构化数据,一般存储在文件系统上,比如视频、音频、图片、图像、文档、文本等形式。典型案例有:医疗影像系统、教育视频点播、公安视频监控、国土GIS、广电多媒体资源管理系统等应用。半结构化数据,介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。比如邮件、HTML、报表等等,典型场景如邮件系统、教学资源库、档案系统等等。非结构化与半结构化数据的增长速率大于结构化数据,超过80%的数据是非结构化数据。IDC的报告显示,目前大数据的1.8万亿GB容量中,非结构化数据占到了80%~90%,并且到2020年将以44倍的发展速度增加。非结构化数据比例不断升高,这些数据中蕴含着巨大的价值。


Velocity是指大数据往往以数据流的形式动态、快速地产生,具有很强的时效性。数据自身的状态与价值也往往随时空变化而发生演变(这些数据往往包括了空间维、时间维等多种数据)。比如,环境监测中的水质和空气质量数据、高速路卡口的视频监测数据等。


Value是指数据已经成为一类新型资产,蕴藏着大价值。大数据的价值密度低,需要通过专业的技术手段进行挖掘。只有对其进行正确、准确的分析,才会带来很高的价值回报。比如,电视机顶盒的频道切换数据,各大电视台分析其中的数据,从中准确判断观众的喜好,以推出更加符合观众口味的节目。


大数据并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的其他维度,也就是速度或者时间维度。假如能在1秒之内分析处理300GB的数据,而通常情况下却需要花费1个小时的话,那么这种巨大变化所带来的结果就会极大地增加价值。所谓大数据技术,就是至少实现这四个判据(特征)中的几个。

1.3 大数据的商用化


大数据是传统的架构、传统的技术无法解决的数据处理问题。Hadoop的出现,解决了大数据的快速存储和读取,也为我们提供了大数据分析的众多工具,但是,对于大数据商用而言,这并不够!因为大数据的名字有“大”,所以很多人把重点集中在了数据的容量上,简单地认为数据量是最大的问题。实际上大数据除了数据量的问题外,还会把信息管理的各项需求都推向极致(如图1-1所示)。

大数据技术入门pdf/doc/txt格式电子书下载

图1-1 大数据商用需求

最下面的这一层是大数据基本的问题,包括大数据量、多样性、高速和低价值。解决这四个方面的问题只是大数据商用化的基础,这只是支撑起大数据的平台。Hadoop技术很好地解决了这一层的问题。Hadoop也被认为是下一代IT架构的基础,Hadoop系统将逐步替换以关系型数据库为基础的传统系统。


中间这一层是关于访问权限的问题。数据的敏

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示