当前位置:
首页 > 互联网+ > 大数据 > Hadoop大数据开发实战pdf/doc/txt格式电子书下载

Hadoop大数据开发实战pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

Hadoop大数据开发实战pdf/doc/txt格式电子书下载

书名:Hadoop大数据开发实战pdf/doc/txt格式电子书下载

推荐语:大数据技术原理与应用教程,MapReduce框架入门实战指南,Hadoop基础教程

作者:杨力著

出版社:人民邮电出版社

出版时间:2019-03-01

书籍编号:30472199

ISBN:9787115502179

正文语种:中文

字数:293517

版次:1

所属分类:互联网+-大数据

全书内容:

Hadoop大数据开发实战pdf/doc/txt格式电子书下载






内容提要


本书将大数据技术生态圈主流技术框架的应用与发展、搭建 Hadoop 大数据分布式系统集群平台、大数据分布式文件系统 HDFS、大数据分布式并行计算框架 MapReduce、大数据汽车销售数据统计分析项目5大模块分为11章内容进行阐述。具体分布情况如下:第1章是大数据概论,介绍大数据的发展背景及基本概念;第2章是搭建Hadoop分布式集群;第3~6章是HDFS分布式文件系统入门、HDFS接口、HDFS的运行机制、Hadoop I/O流操作;第7~10章是初识MapReduce编程模型、MapReduce应用编程开发、MapReduce编程案例、MapReduce运行机制与YARN平台;第11章是汽车销售数据统计分析项目实战。本书将理论与实践相结合,介绍了大数据的核心技术,并通过介绍一个企业的开发项目,深入讲解大数据技术在实际工作中的应用。


本书是为所有热爱大数据、打算从事大数据相关工作的读者而编写的,适合有Java编程基础的学习者参考使用,也适合作为高等院校、培训机构的大数据技术教材。

前言


随着信息技术的发展,以及互联网、移动互联网、可穿戴式互联网时代的来临,数据爆炸式地产生。据统计,近几年人类产生的数据,比人类自有文字记载以来产生的所有数据的总和还要多,而且数据还在以惊人的速度增长着。


过去,各个企业都积累了大量丰富的数据,于是购买服务器来存储这些数据,企业面对不断增长的数据,开始思考:除了需要不断购买服务器,花巨大的硬件成本来存储这些数据,我们能从这些持续不断积累下来的数据中得到什么呢?怎样去挖掘和利用这些数据呢?就在这样一个境遇下,一个全新的技术进入了大众的视野,它提出了海量数据可以分布式存储在成本较低的商用服务器上,并且这些海量数据可以分布式地得到计算处理,这个技术称为大数据技术。本书将要介绍的大数据相关技术,可以帮助企业解决不断增长的海量数据的存储问题和计算处理问题;帮助企业从数据中获取经验,并得到巨大的潜在商业价值。


通过本书的学习,读者将对大数据技术有一个深刻的认识,并且掌握大数据技术中最核心的数据分布式存储系统HDFS和数据分布式并行计算框架MapReduce;再通过对大数据项目案例的开发学习,对大数据技术应用进行训练。


本书共11章,第1~2章主要介绍了大数据的背景、大数据的学习基础、大数据的行业案例、大数据技术生态圈以及Hadoop的搭建,阅读这部分内容,读者将对大数据及其相关技术有一个全方位的宏观认识;第3~6章主要介绍了大数据存储分布式文件系统HDFS,通过对这部分内容的学习,读者将学习分布式存储的核心原理,分布式文件系统HDFS的操作接口、运行机制及I/O操作;第7~10章主要介绍了大数据分布式计算处理框架 MapReduce,通过对这部分内容的学习,读者将理解MapReduce编程模型及应用、MapReduce在YARN资源管理平台上的运行机制;第11章通过一个企业级的项目,带读者体验大数据技术的应用场景。全书按照大数据的技术流程,由浅入深,逐步引导读者掌握大数据技术的开发。


本书适用于对大数据技术感兴趣的读者。全书的编写力求内容科学准确、系统完整、通俗易懂,让初学者能快速掌握大数据技术,同时对专家级读者也具有一定的参考价值。


感谢曾经和我一起奋战在大数据一线的马延辉、唐刚、游大海、赵明栋、郑思成。最后,特别感谢我的父亲、母亲、岳父、岳母及我的妻子,你们的全力支持才使我能够顺利完成本书。


由于编者水平有限,书中难免出现疏漏和不足,敬请读者批评指正。


编者


2018年8月

第1章 大数据概论


本章要点


● 大数据的学习基础


● 大数据的背景


● 对大数据的不同认识


● 大数据的行业案例


● 大数据的基本概念


● 大数据技术生态圈


本章将为大家解答以下问题:学习大数据之前应该具备哪些基础知识?大数据出现的时代背景是怎样的?大数据为什么产生?各行业人员对大数据的定义是什么?大数据有哪些实际应用场景?大数据有哪些基本的概念?大数据技术生态圈有哪些常见的应用技术?


1.1 大数据的学习基础


恭喜您,已经迈出学习大数据的第一步,相信通过您的努力,在不久的将来一定会在大数据领域有所成就。


学习大数据之前,读者先要了解一些基础知识,如果这些基础知识掌握得熟练、牢固和深刻,那么将在后续的大数据学习过程中感到得心应手,也会越来越喜欢钻研和探索层出不穷的大数据新技术,为大数据的后续学习奠定坚实可靠的基础。可以说,这些基础知识的掌握程度,直接关乎是否能够坚持学习大数据。


目前,大数据技术领域80%以上的技术都是运用的Java语言。Java语言自1995年诞生之初就备受青睐,后以迅猛之势发展,现已成为编程者的必备技能之一。今天,虽然计算机领域已有几百种编程语言,但Java语言依然充满了生命力。


从结构上来看,Java语言有3大模块。


(1)Java语言第1个模块是Java Standard Edition(Java SE),也就是Java标准版,它是Java语言最重要、最关键、最能体现Java语言编程能力的模块。Java SE是学习Java语言编程开发的第一步,包含Java语言的编译运行环境JDK(Java Developer Kit)、Java基本数据类型、流程控制、面向对象、I/O流、网络编程、多线程、反射机制、泛型等非常重要的基础开发知识。


(2)Java语言第2个模块是Java Enterprise Edition(Java EE),也就是Java企业版,也称为Java Web。它是在Java SE的基础上构建起来的基于互联网Web应用程序开发的一门语言。Web应用从Web 1.0到Web 2.0得到了飞速的发展,Java Web功不可没,它包含的技术有HTML、CSS、JavaScript、JQuery、JSP开发、Servlet开发、Tomcat服务器、Struts2、Hibernate、MyBatis、Spring和Spring MVC等,这些都是Web开发的主流技术,熟练掌握它们,对大数据技术的学习大有帮助,也有助于大数据可视化、大数据文件系统中的Web接口模块等的学习。


(3)Java语言第3个模块是Java Micro Edition(Java ME),也就是Java微缩版,它适合做一些微型平台上的开发。例如,2G手机中的知名游戏“贪吃蛇”就是用Java ME版本开发的。Java ME也是在Java SE的基础上构建的,但后来Google发布了一款基于移动平台终端的操作系统——Android系统,Java ME因此退出了舞台。


总之,学习大数据技术,一定要先掌握一门操作大数据技术的利器,这个利器就是一门编程语言,比如Java、Python、R等。本书就是以Java语言为基础编写的。


具备了Java SE和Java EE的编程技术之后,还需要掌握一门数据库知识,建议学习MySQL数据库,包括基本概念、表的设计、视图、索引、函数、存储过程等。


掌握以上技术后,还需掌握一门操作系统技术,那就是在服务器领域占主导地位的Linux操作系统,只要能够熟练使用Linux常用系统命令、文件操作命令和一些基本的Linux Shell编程即可。大数据处理的数据是业务系统服务器产生的海量日志数据信息,这些数据都是存储在服务器端的数据,人们常用的操作系统就是在实际工作中安全性和稳定性都很高的Linux或UNIX操作系统。大数据Hadoop本身提供了Linux版本和Windows版本。由于数据一般存储在服务器端,因此我们学习大数据也是选择Linux版本的Hadoop,大家学会了Linux版本,那么Windows版本基本也就掌握了。


1.2 大数据的背景


在讲解“大数据”定义前,首先我们要理解什么是数据。


你用手机发了一条朋友圈,想让大家为你点赞,此时就产生了数据。


你用百度搜索了关键词,找到了想要的结果,此时就产生了数据。


你的智能手环,告诉你一天走了多少步,此时就产生了数据。


……


这样的情况不仅发生在你一个人身上,而且每天发生在几亿甚至十几亿人的身上。可以想象,现在这个时代产生的数据量是多么惊人!也许你对这些数据不太敏感,但是换个角度,假如你是那些提供互联网服务的公司,那么,就需要考虑这些数据的存储问题了。


1.3 对大数据的不同认识


我们所处的时代,数据以惊人的速度产生,数据的存储设备也在以惊人的速度发展,那么到底什么是大数据?这个问题再一次摆在我们眼前,接下来,看看不同领域的人们对大数据的认识。


1.3.1 资深编程者眼中的大数据


图1-1所示的都是公司的Logo,这些是正在使用大数据技术的公司,如Google、IBM等世界著名企业。编程者最关心的是,目前哪些公司在使用大数据技术?这门技术的应用普遍性如何?值不值得学习这门技术?

Hadoop大数据开发实战pdf/doc/txt格式电子书下载

图1-1

计算机存储数据的方式是二进制,海量数据存储在一个大型的计算机集群上,在集群上可以搭建各种数据处理平台,比如后面将要讲的Flume海量日志采集平台、Hadoop分布式文件系统、MapReduce分布式并行处理计算框架、Hive数据仓库、Storm流式计算,HBase分布式实时数据库、Kafka消息队列、Spark内存计算等。利用这些平台,可以对数据进行采集、存储、计算和展示,将二进制数处理成人们能够识别的数字,或者人们视觉能够感受的图片或者视频。但是,在这个处理过程中也会出现各种各样的问题,如资源丢失、节点宕机等。


所以,编程者眼中的大数据,其实就是技术。


1.3.2 营销者和学者眼中的大数据


营销者是站在市场前沿的人,他们负责销售大数据产品和宣传大数据的价值;学者是站在科技前沿进行学术研究的人,比如各大研究机构的科研人员、各大高校的教授专家等。他们认为,大数据有4个特征,如图1-2所示。


第1特征是数据体量(Volume)巨大,大到什么程度呢?PB级别起步!很多人对PB可能没什么概念,那么我们就来换算一下:1024MB= 1GB,1024GB =1TB,1024TB=1PB。

Hadoop大数据开发实战pdf/doc/txt格式电子书下载

图1-2

第2个特征是数据类型多样(Variety),大数据能支持文本、图像、视频、音频等几乎所有的文件类型的存储。关系型数据库只支持结构化的数据存储,而且关系型数据库存储的数据体量的峰值在GB级别。


第3个特征是商业价值(Value)高,也就是大数据中所蕴含的价值高。


第4个特征是速度(Velocity)快,数据输入/输出的速度要快。这也是大数据最核心的一个特征,可以说,如果没有这个特征,就不能称之为大数据了。从某种意义上讲,前3个特征都属于大数据本身的固有特征,只有速度快是大数据技术层面的独有特征。营销者和学者,敏锐地捕捉到了大数据的特征——4个V。4个V紧密相连,缺一不可,构成了大数据的初步原型。


1.3.3 商家看大数据


如果买啤酒和尿布这类商品,人们一般会去超市购买。


有一天,美国某沃尔玛分店的数据分析员意外发现,每逢周五,尿布和啤酒的销量便会大大增加,后来他在超市计算机的数据库后台中发现,购买者多为年轻男性。虽然这两种商品似乎“风马牛不相及”,但这名细心的数据分析员在周五进行了现场观察,终于发现了一个秘密。原来这些购买尿布的年轻男性,假日会狂欢玩乐,没时间购买孩子用的东西,所以他们每到周五下班后,会一次买齐孩子周末和下一周使用的尿布,以及聚会时豪饮的啤酒。


原本啤酒在一层摆放,尿布在地下一层摆放。发现这个秘密后,沃尔玛超市及时调整了商店的货品摆放位置,把尿布放在啤酒的旁边卖,这一个小小的位置调整,带来了奇迹,沃尔玛超市的啤酒和尿布的销售业绩增长了十几倍。通过数据分析竟然能发现这么大的潜在商业价值,看来这些数据里藏着很多宝藏,等待着我们去挖掘。自此,超市开始重视积累销售记录数据。


过去,人们不重视数据,因为它们不仅无法为企业创造直接的价值,而且存储数据还要花费很大成本,数据成了企业沉重的包袱。但当我们的思维发生变化后,去挖掘数据,才发现数据的价值极其珍贵。


所以,大数据不仅是技术,是商业价值,它更是一种思维方式。


1.4 大数据的

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示