当前位置:
首页 > 互联网+ > 大数据 > 大数据技术基础pdf/doc/txt格式电子书下载

大数据技术基础pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

大数据技术基础pdf/doc/txt格式电子书下载

书名:大数据技术基础pdf/doc/txt格式电子书下载

推荐语:教育部计算机教指委-华为ICT产学结合项目:数据科学与大数据技术专业系列规划教材。系统、完整的数据科学与大数据技术专业解决方案,全面讲解Hadoop生态圈平台、

作者:薛志东著

出版社:人民邮电出版社

出版时间:2018-08-01

书籍编号:30469075

ISBN:9787115483072

正文语种:中文

字数:301855

版次:

所属分类:互联网+-大数据

全书内容:

大数据技术基础pdf/doc/txt格式电子书下载






内容提要


本书系统、全面地介绍了大数据技术的基础知识,期望读者通过对本书的学习和实践了解大数据技术的概貌,掌握Hadoop生态圈大数据技术中最为基础和关键的知识。本书主要内容包括大数据概述、大数据软件基础、大数据存储技术、MapReduce分布式编程、数据采集与预处理、数据仓库与联机分析处理、大数据分析与挖掘技术、Spark分布式内存计算框架、数据可视化技术、大数据安全。


本书可作为数据科学与大数据、软件工程、计算机科学与技术等专业的大数据概论课程的教材,也可供大数据工程技术人员阅读使用。

编委会


教育部高等学校计算机类专业教学指导委员会-华为ICT产学合作项目数据科学与大数据技术专业系列规划教材


主 任 陈 钟 北京大学


副主任 杜小勇 中国人民大学


周傲英 华东师范大学


马殿富 北京航空航天大学


李战怀 西北工业大学


冯宝帅 华为技术有限公司


张立科 人民邮电出版社


秘书长 王 翔 华为技术有限公司


戴思俊 人民邮电出版社


委 员(按姓名拼音排序)


崔立真 山东大学


段立新 电子科技大学


高小鹏 北京航空航天大学


桂劲松 中南大学


侯 宾 北京邮电大学


黄 岚 吉林大学


林子雨 厦门大学


刘 博 人民邮电出版社


刘耀林 华为技术有限公司


乔亚男 西安交通大学


沈 刚 华中科技大学


石胜飞 哈尔滨工业大学


嵩 天 北京理工大学


唐 卓 湖南大学


汪 卫 复旦大学


王 伟 同济大学


王宏志 哈尔滨工业大学


王建民 清华大学


王兴伟 东北大学


薛志东 华中科技大学


印 鉴 中山大学


袁晓如 北京大学


张志峰 华为技术有限公司


赵卫东 复旦大学


邹北骥 中南大学


邹文波 人民邮电出版社

丛书序一


PREFACE


毫无疑问,我们正处在一个新时代。新一轮科技革命和产业变革正在加速推进,技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量,而“大数据”无疑是第一核心推动力。


当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加突显。大数据重塑了传统产业的结构和形态,催生了众多的新产业、新业态、新模式,推动了共享经济的蓬勃发展,也给我们的衣食住行带来根本改变。同时,大数据是带动国家竞争力整体跃升和跨越式发展的巨大推动力,已成为全球科技和产业竞争的重要制高点。可以大胆预测,未来,大数据将会进一步激起全球科技和产业发展浪潮,进一步渗透到我们国计民生的各个领域,其发展扩张势不可挡。可以说,我们处在一个“大数据”时代。


大数据不仅仅是单一的技术发展领域和战略新兴产业,它还涉及科技、社会、伦理等诸多方面。发展大数据是一个复杂的系统工程,需要科技界、教育界和产业界等社会各界的广泛参与和通力合作,需要我们以更加开放的心态,以进步发展的理念,积极主动适应大数据时代所带来的深刻变革。总体而言,从全面协调可持续健康发展的角度,推动大数据发展需要注重以下五个方面的辩证统一和统筹兼顾。


一是要注重“长与短结合”。所谓“长”就是要目标长远,要注重制定大数据发展的顶层设计和中长期发展规划,明确发展方向和总体目标;所谓“短”就是要着眼当前,注重短期收益,从实处着手,快速起效,并形成效益反哺的良性循环。


二是要注重“快与慢结合”。所谓“快”就是要注重发挥新一代信息技术产业爆炸性增长的特点,发展大数据要时不我待,以实际应用需求为牵引加快推进,力争快速占领大数据技术和产业制高点;所谓“慢”就是防止急功近利,欲速而不达,要注重夯实大数据发展的基础,着重积累发展大数据基础理论与核心共性关键技术,培养行业领域发展中的大数据思维,潜心培育大数据专业人才。


三是要注重“高与低结合”。所谓“高”就是要打造大数据创新发展高地,要结合国家重大战略需求和国民经济主战场核心需求,部署高端大数据公共服务平台,组织开展国家级大数据重大示范工程,提升国民经济重点领域和标志性行业的大数据技术水平和应用能力;所谓“低”就是要坚持“润物细无声”,推进大数据在各行各业和民生领域的广泛应用,推进大数据发展的广度和深度。


四是要注重“内与外结合”。所谓“内”就是要向内深度挖掘和深入研究大数据作为一门学科领域的深刻技术内涵,构建和完善大数据发展的完整理论体系和技术支撑体系;所谓“外”就是要加强开放创新,由于大数据涉及众多学科领域和产业行业门类,也涉及国家、社会、个人等诸多问题,因此,需要推动国际国内科技界、产业界的深入合作和各级政府广泛参与,共同研究制定标准规范,推动大数据与人工智能、云计算、物联网、网络安全等信息技术领域的协同发展,促进数据科学与计算机科学、基础科学和各种应用科学的深度融合。


五是要注重“开与闭结合”。所谓“开”就是要坚持开放共享,要鼓励打破现有体制机制障碍,推动政府建立完善开放共享的大数据平台,加强科研机构、企业间技术交流和合作,推动大数据资源高效利用,打破数据壁垒,普惠数据服务,缩小数据鸿沟,破除数据孤岛;所谓“闭”就是要形成价值链生态闭环,充分发挥大数据发展中技术驱动与需求牵引的双引擎作用,积极运用市场机制,形成技术创新链、产业发展链和资金服务链协同发展的态势,构建大数据产业良性发展的闭环生态圈。


总之,推动大数据的创新发展,已经成为了新时代的新诉求。刚刚闭幕的党的十九大更是明确提出要推动大数据、人工智能等信息技术产业与实体经济深度融合,培育新增长点,为建设网络强国、数字中国、智慧社会形成新动能。这一指导思想为我们未来发展大数据技术和产业指明了前进方向,提供了根本遵循。


习近平总书记多次强调“人才是创新的根基”“创新驱动实质上是人才驱动”。绘制大数据发展的宏伟蓝图迫切需要创新人才培养体制机制的支撑。因此,需要把高端人才队伍建设作为大数据技术和产业发展的重中之重,需要进一步完善大数据教育体系,加强人才储备和梯队建设,将以大数据为代表的新兴产业发展对人才的创新性、实践性需求渗透融入人才培养各个环节,加快形成我国大数据人才高地。


国家有关部门“与时俱进,因时施策”。近期,国务院办公厅正式印发《关于深化产教融合的若干意见》,推进人才和人力资源供给侧结构性改革,以适应创新驱动发展战略的新形势、新任务、新要求。教育部高等学校计算机类专业教学指导委员会、华为公司和人民邮电出版社组织编写的《教育部高等学校计算机类专业教学指导委员会-华为ICT产学合作项目——数据科学与大数据技术专业系列规划教材》的出版发行,就是落实国务院文件精神,深化教育供给侧结构性改革的积极探索和实践。它是国内第一套成专业课程体系规划的数据科学与大数据技术专业系列教材,作者均来自国内一流高校,且具有丰富的大数据教学、科研、实践经验。它的出版发行,对完善大数据人才培养体系,加强人才储备和梯队建设,推进贯通大数据理论、方法、技术、产品与应用等的复合型人才培养,完善大数据领域学科布局,推动大数据领域学科建设具有重要意义。同时,本次产教融合的成功经验,对其他学科领域的人才培养也具有重要的参考价值。


我们有理由相信,在国家战略指引下,在社会各界的广泛参与和推动下,我国的大数据技术和产业发展一定会有光明的未来。


是为序。

大数据技术基础pdf/doc/txt格式电子书下载

中国科学院院士 郑志明


2018年4月16日

丛书序二


PREFACE


在500年前的大航海时代,哥伦布发现了新大陆,麦哲伦实现了环球航行,全球各大洲从此连接了起来,人类文明的进程得以推进。今天,在云计算、大数据、物联网、人工智能等新技术推动下,人类开启了智能时代。


面对这个以“万物感知、万物互联、万物智能”为特征的智能时代,“数字化转型”已是企业寻求突破和创新的必由之路,数字化带来的海量数据成为企业乃至整个社会最重要的核心资产。大数据已上升为国家战略,成为推动经济社会发展的新引擎,如何获取、存储、分析、应用这些大数据将是这个时代最热门的话题。


国家大数据战略和企业数字化转型成功的关键是培养多层次的大数据人才,然而,根据计世资讯的研究,2018年中国大数据领域的人才缺口将超过150万人,人才短缺已成为制约产业发展的突出问题。


2018年初,华为公司提出新的愿景与使命,即“把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界”,它承载了华为公司的历史使命和社会责任。华为企业BG将长期坚持“平台+生态”战略,协同生态伙伴,共同为行业客户打造云计算、大数据、物联网和传统ICT技术高度融合的数字化转型平台。


人才生态建设是支撑“平台+生态”战略的核心基石,是保持产业链活力和持续增长的根本,华为以ICT产业长期积累的技术、知识、经验和成功实践为基础,持续投入,构建ICT人才生态良性发展的使能平台,打造全球有影响力的ICT人才认证标准。面对未来人才的挑战,华为坚持与全球广大院校、伙伴加强合作,打造引领未来的ICT人才生态,助力行业数字化转型。


一套好的教材是人才培养的基础,也是教学质量的重要保障。本套教材的出版,是华为在大数据人才培养领域的重要举措,是华为集合产业与教育界的高端智力,全力奉献的结晶和成果。在此,让我对本套教材的各位作者表示由衷的感谢!此外,我们还要特别感谢教育部高等学校计算机类专业教学指导委员会副主任、北京大学陈钟教授以及秘书长、北京航空航天大学马殿富教授,没有你们的努力和推动,本套教材无法成型!


同学们、朋友们,翻过这篇序言,开启学习旅程,祝愿在大数据的海洋里,尽情展示你们的才华,实现你们的梦想!

大数据技术基础pdf/doc/txt格式电子书下载

华为公司董事、企业BG总裁 阎力大


2018年5月

前言


FOREWORD


大数据已经进入我们社会生活的各个层面,学习、使用大数据成为社会各行各业的共识。掌握大数据技术成为数据科学、计算机科学与技术、软件工程、管理科学与工程等相关领域大数据工作者的一种内在要求。


我们希望本书能结合大学教学的实际情况,向学生介绍大数据技术的基础知识,帮助学生了解大数据技术的概貌。主要内容安排如下。


第1章 大数据概述。在介绍目前主流大数据技术前,本章概括介绍了诸如分布式、虚拟化与云计算、数据库与数据仓库等与大数据技术密切相关的概念。


第2章 大数据软件基础。考虑到大学授课的特点,本章把在前序课程中可能忽视的Linux基础操作、Java基础和SQL语法等与后续大数据实践相关的重点知识作为大数据软件技术基础进行了补充,避免因为学生基础知识的不足而导致学习困难等方面的问题。此外,本章还介绍了如何安装Linux集群,为后续章节的内容做铺垫。


第3章 大数据存储技术。重点介绍Hadoop分布式文件系统HDFS以及常见的NoSQL数据库,并对Hadoop和HBase的安装配置及API开发进行了介绍。


第4章 MapReduce分布式编程。重点介绍Hadoop的MapReduce编程及其基本原理。


第5章 数据采集与预处理。重点介绍大数据采集与传输数据的工具,包括Flume、Sqoop和Kafka。


第6章 数据仓库与联机分析处理。本章首先讨论被业界广泛接受的数据仓库的概念和定义,研究应用于数据仓库和OLAP的多维数据模型——数据立方体,然后详细介绍基于Hadoop平台的数据仓库工具与相应的联机分析技术,包括Hive、Kylin及Superset等。


第7章 大数据分析与挖掘技术。本章对数据挖掘与分析的基本原理进行讨论,并对Hadoop家族中的重要成员——Mahout进行介绍,描述其在具体应用中的使用方法。


第8章 Spark分布式内存计算框架。本章立足于实战,重点介绍Spark的编程模型和RDD 统一抽象模型、Spark的工作和调度机制以及以 Spark 为核心衍生的生态系统——SparkSQL、流式计算、机器学习、图计算等,最后对Zeppelin数据分析工具进行简要介绍。


第9章 数据可视化技术。本章首先简单介绍数据可视化的发展历史、可视化工具分类,然后重点结合ECharts介绍Web可视化组件生成方法,并给出JavaWeb开发与相关大数据组件的数据集成,以展现数据可视化结果。


第10章 大数据安全。本章首先介绍大数据安全的挑战与对策,然后结合企业界成熟的华为公司大数据技术安全解决方案,对大数据基础设施安全、安全管理技术、安全分析、隐私保护等内容进行了介绍。


本书的编写得益于华中科技大学软件学院数据科学中心师生的共同

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示