Hadoop大数据实战权威指南pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:Hadoop大数据实战权威指南pdf/doc/txt格式电子书下载
推荐语:
作者:黄东军著
出版社:电子工业出版社
出版时间:2017-07-01
书籍编号:30458790
ISBN:9787121318214
正文语种:中文
字数:225894
版次:1
所属分类:互联网+-大数据
版权信息
书名:Hadoop大数据实战权威指南
作者:黄东军
ISBN:9787121318214
版权所有 · 侵权必究
前言
本书内容
本书分为三篇,共有12章。
第一篇 大数据的基本概念和技术
第1章 绪论,描述大数据的时代背景与国家大数据战略,探讨大数据的概念和特性,重点阐述大数据支撑体系,包括数据采集、存储、分布式计算和应用,并讨论大数据人才特点与能力要求。
第2章 Hadoop大数据关键技术,详细介绍大数据系统涉及的主流技术,主要包括数据采集与生成、数据分布式存储、分布式计算框架、数据分析与挖掘等方面的技术和工具。
第二篇 Hadoop大数据平台搭建与基本应用
第3章 Linux操作系统与集群搭建,介绍Linux集群的安装、Java开发包JDK的安装,以及集群的配置方法。
第4章 HDFS 安装与基本应用,介绍 Hadoop HDFS 的架构、工作原理,以及Hadoop安装、配置、启动和程序的运行。
第5章 MapReduce 与 YARN,介绍 MapReduce 的工作原理,描述MapReduceV2 (也就是YARN)的架构和执行流程。本章重点介绍如何设计MapReduce程序,给出了在Eclipse中实现Java语言MapReduce程序的具体过程。
第6章 Hive和HBase的安装与应用,主要介绍Hive和HBase的安装配置和应用方法,同时也介绍MySQL和ZooKeeper的安装与应用。
第7章 Sqoop和Kafka,介绍Sqoop和Kafka组件的安装及其基本应用方法。
第8章 Spark集群安装与开发环境配置,介绍Spark架构及其工作原理,详细介绍Spark开发环境的安装与配置,包括热门的 IntelliJ IDEA集成开发环境的安装与基本应用。
第9章 Spark应用基础,介绍Spark程序的运行模式和应用设计方法,通过编写计算圆周率Pi、基于随机森林模型的贷款风险预测Scala程序,展示了在集成开发环境IDEA中编写Spark程序的流程。
第三篇 大数据处理与项目开发
第10章 交互式数据处理,介绍如何利用Hive进行大数据处理和分析。Hive是建立在Hadoop MapReduce基础上的数据仓库工具,用户借助SQL语句,可完成很多处理和分析,因此,对实际工作者有很大帮助。
第11章 协同过滤推荐系统,介绍推荐算法的基本概念和应用,展示基于Spark的机器学库MLlib实现的协同推荐应用。
第12章 销售数据分析系统,通过一个完整的销售数据分析系统设计,展示如何利用 Hadoop 的各种组件开发实际的大数据应用系统。本章运用到的组件包括 HDFS、MySQL、Eclipse、Phoenix、HBase、WebCollector、Sevlet、Tomcat等,所展示的数据和应用均来自真实场景,对读者有较高参考价值。
本书特点
把原理、架构、运行流程分析与实际应用融合起来介绍,融合性阐述框架优于单纯的原理分析,因为原理最终要付诸应用。
本书高度重视实践能力的培养,对系统安装、配置和应用过程给出了十分详细的描述,所有实验都是基于实际完成的操作介绍的,并配有现场截图,为读者展示了真实、详尽、可重现的场景,十分方便读者自学和钻研。
与很多大数据技术书籍不同,本书突出了数据处理本身,深入介绍了如何运用技术进行实际的数据分析,所采用的数据样本来自生产一线,所展示的项目具有实用的参考价值,读者掌握这些技术之后,就可以开始进行项目开发了。
本书的读者群
本书十分适合初学者入门和进阶。
本书也可供那些已经学习过Hadoop组件技术,但希望全面、系统地理解并掌握实际应用的读者参考。
本书对从事大数据项目开发的专业人员也有参考价值,书中所描述的Hadoop组件应用中遇到的各种问题及其解决办法,十分实用。
本书特别适合自学,读者完全可以利用本书给出的资源和示例,一步一步地完成各项操作和应用,体验一种登堂入室的成就感。
致谢
感谢大数据时代,感谢开源社区,感谢Apache基金会,感谢Google,感谢所有关心和热爱大数据的人们!
作者在创作本书中借鉴了中科普开(北京)科技公司的部分培训资源,在此谨表示衷心的感谢。特别感谢中南大学郑瑾副教授,本书的部分内容使用了她编撰的书稿。由衷地感谢王建新教授、李建彬教授、张祖平教授,他们耐心地审阅了本书,提出了中肯的意见和建议。非常感谢电子工业出版社田宏峰编辑,他细心专业的工作方式,给作者留下深刻印象,并为本书的高质量印装提供了保障。
由于作者水平有限,本书的错误和疏漏在所难免,恳请广大读者提出宝贵意见和建议。联系邮箱:djhuang@csu.edu.cn。
作者
2017年6月于长沙
第一篇 大数据的基本概念和技术
第1章 绪论
最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。
本章主要分析大数据的时代背景与国家大数据战略,给出大数据的概念,并分析其特性,重点介绍大数据技术支撑体系,包括数据采集、存储、分布式计算和应用,最后简要讨论大数据人才特点与能力要求。
1.1 时代背景
1.1.1 全球大数据浪潮
为什么最近几年里大数据变得如此引人注目?大数据到底有多大?
一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万。
目前,全球数据量已经从TB(1024 GB=1 TB)级别跃升到PB(1024 TB=1 PB)、EB (1024 PB=1 EB)乃至ZB(1024 EB=1 ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49 ZB,2009年的数据量为0.8 ZB,2010年增长到1.2 ZB,2011年的数量更是高达1.82 ZB,相当于全球每人产生200 GB以上的数据。而到2016年,人类生产的所有印刷材料的数据量是300 PB,全人类历史上说过的所有话的数据量大约是5 EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。
这样的趋势将会持续下去。我们现在还处于大数据的初级阶段,随着技术的进步,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互连互通。科技的进步已经使创造、采集和管理信息的成本降至十年前的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。
正如《纽约时报》2012年2月的一篇专栏文章所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉。哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。
2012年3月22日,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。美国政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
最为积极的还是众多的IT企业。麦肯锡在一份名为“大数据,是下一轮创新、竞争和生产力的前沿”的专题研究报告中提出,“对于企业来说,海量数据的运用将成为未来竞争和增长的基础”,该报告在业界引起广泛反响。麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了包括金融界在内的各行各业的高度关注。随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义,包括谷歌、苹果、惠普、IBM、微软在内的全球IT巨头纷纷通过收购“大数据”相关厂商来实现技术整合,可见其对“大数据”的重视。
例如,IBM提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”
在国内,阿里巴巴在大数据应用和开发上投入巨资,已经取得了令人瞩目的成绩;百度也致力于开发自己的大数据处理和存储系统;腾讯则提出要开创数据化运营的黄金时期,把整合数据看成未来的关键任务。
总体上,自从SGI的首席科学家John R.Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了近20年的时间。现在,再也没有人怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力。但是,即使近20年已经过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化,特别是随着移动互联网的快速发展,大数据从概念到实用、从结构化数据分析到非结构化数据分析,正处于新的高潮和进化阶段。
1.1.2 我国的大数据国家战略
毫无疑问,在全世界进入以信息产业为主导的新经济发展时期,以大数据为代表的新兴产业将以新经济方式引领新常态,我们国家也必然提出并实施国家大数据发展战略。
党的十八届五中全会提出了“十三五”规划纲要对实施网络强国战略、互联网+行动计划和大数据战略等做了部署。纲要提出要切实贯彻落实好着力推动互联网和实体经济深度融合发展,以信息流带动技术流、资金流、人才流、物资流,促进资源的配置优化,促进全要素生产力的提升,为推动创新发展、转变经济增长方式、调整经济结构发挥重要作用。
为了贯彻落实十八届五中全会精神,国务院于2015年8月出台了促进大数据发展行动纲要,提出要通过开放、产业和安全“三位一体”建设数据强国。三位一体主要是政府数据开放共享,它是开放的条件;产业是根基,即以推动产业创新发展为根本;安全是保障,要健全数据的安全保障体系。
这个行动纲要总的来讲可以概括为“一个目标,三大内容、十项工程、七大举措”。一个目标,就是全面推进我国大数据发展和应用,加快建设数据强国目标。三大内容,主要是包括加快政府数据的开放,推动资源整合提升的治理能力;推动产业创新发展,培育新业态,助力经济转型;健全安全保障体系,强化安全支撑,提高管理的水平。十项工程,主要包括政府数据、国家大数据的资源统筹发展工程,政府治理大数据工程,公共服务大数据工程,工业和新兴产业大数据工程,现代农业大数据工程,万众创新大数据工程,等等。七个举措,包括完善组织机制,加快法规制度建设,健全市场发展机制,建立标准规范体系,加大财政金融的支持,加强专业人士的培养,促进国际交流合作。
同时,国务院还决定建立国家大数据发展和应用的统筹协调机制,通过设立3+X工作机制,主要是由工业和信息化部、国家发展和改革委员会,以及中央网络安全和信息化领导小组办公室(网信办)三个部门牵头,联合其他40个政府部门建立的促进大数据发展的部级联席会议制度。围绕着三个关键的环节,精准发力,主要包括加快数据的开放共享,推动产业的创新发展,科学规范应用的数据。
当前,在大数据产业的发展思路方面,国家强调要以市场为导向,并在四个方面进行探索:一是支持关键技术产品的研发和产业化,二是推动行业大数据应用的不断深化,三是繁荣
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询