当前位置:
首页 > 互联网+ > 大数据 > 数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载

数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载

书名:数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载

推荐语:

作者:王宁著

出版社:电子工业出版社

出版时间:2019-03-01

书籍编号:30469147

ISBN:9787121357268

正文语种:中文

字数:162985

版次:1

所属分类:互联网+-大数据

全书内容:

数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载






作者简介

数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载

王宁(1978—),女,山东烟台人,汉族,山东管理学院副教授,计算机科学与技术教研室主任,工学博士,主要从事云计算、云存储、用户行为分析等方面的研究。主要研究成果有:主持山东省软科学项目1项,主持山东省社会科学规划研究项目1项,主持山东省高等学校科技计划项目1项,并参与国自然、国社科、省部级、厅级课题多项;发表学术论文10余篇,其中2篇被SCI收录,4篇被EI收录。

前言


云计算拓宽了用户可访问资源的范围,构建了一种服务形式弹性、按需获取各类信息资源的架构,成为当前多种信息应用部署和扩展的坚实基础。云计算强化了面向服务计算的理念,其处理的对象被视为来自用户的各类数据,满足用户需求和实现资源利用效率的提高是云计算系统处理和优化管理各类数据的出发点。受到网络环境、资源分布情况、服务形态及模式等因素的影响,数据的优化管理和高效调度问题面临诸多挑战。


在总结云计算中数据管理和优化调度成果的基础上,本书分别从数据的利用效率、各类环境因素的影响和物理节点失效等角度,重点考虑了运营成本最优化的问题,从数据管理和优化调度的角度进行了较深入的探讨,给出了基于热度的数据部署策略、部署节点性能的综合度量方法和应对节点失效的数据修复机制,并通过仿真和实验的方式进行了验证。该成果将有利于云计算服务提供商在保证服务质量的前提下,实现运营成本的优化,具有较大的理论和现实意义。


本书的主要研究工作和创新成果如下。


(1)提出了基于热度的数据块优化存储策略,实现了服务成本最优的数据块部署。针对常采用的对数据进行分块和分布式冗余存储的机制,引入了数据块热度(用户对数据块的兴趣需求)的概念,给出了不同热度数据块应具备的最优冗余存储个数;进一步考虑被用来部署服务数据节点的成本差异,得到了一种满足用户需求的存储数据块的最小服务成本策略;通过引入调整因子,得到可针对不同负载情况的自适应数据块最小服务成本策略。


(2)提出了一种刻画可用节点服务性能的综合度量方法,能实现多指标影响下的数据块优化调度部署。针对数据块的业务特性,从节点成本、负载率、带宽、网络延迟和任务的计算复杂度等角度考虑了备选部署节点的综合效用值,给出一种综合效用评价指标,并在此基础上,得到了服务质量优化的任务调度模型和策略。


(3)给出了一种能够应对节点失效的数据恢复方法,保证在服务总成本最小的情况下数据的高效恢复和使用。为应对云计算系统中的节点失效带来的数据丢失和错误,我们提出了一种基于差异对待的数据重新备份和部署机制,考虑数据块的热度,设计了选择性恢复算法和成本矩阵调整因子,实现了数据的弹性恢复,并在不改变存储数据块最小服务总成本的情况下,提高了用户对内容访问的服务性能。


本书是国家社会科学基金项目“大数据环境下中医医案数据规范与特色保护协同机制研究”(16BGL181)、山东省软科学项目“山东省共享经济下网约车出行安全监测与评估指标体系研究”(2018RKB01340)、山东省科学规划研究项目“行为数据驱动的山东省智慧交通管理模式与策略研究”、山东省高等学校科技计划项目“多模式云服务资源模型与优化调度算法研究”(J18KA386)的研究成果,得到了山东管理学院博士科研启动基金、山东省高等学校中医药数据云服务重点实验室(山东管理学院)、山东管理学院“大数据形态下异常行为检测”特色团队的资助,特此向我的科研团队及山东管理学院的领导表示衷心的感谢。同时,向本书写作过程中所有关心和帮助过我的师长、学长、朋友和家人致以最诚挚的感谢,尤其要向我的博导杨扬教授致以最崇高的谢意和敬意。此外,还要感谢本书中引用文献资料的作者及没有被注释的作者,他们的成果为本书创作提供了具有丰富价值的素材和支撑。最后,感谢电子工业出版社有限公司各位工作人员在本书出版过程中给予的支持与帮助。


受自身研究能力和知识体系的限制,本书虽经反复修改,但疏漏和不足之处仍在所难免,敬请各位专家学者批评指正!


著者


2018年11月

第1章 引言


1.1 课题研究背景


半个多世纪以来,计算机技术已经融入了我们社会生活中的各个方面,其中,爆炸式增长的信息已经积累到了可以引发技术变革的程度。这使我们的世界不仅充斥着比以往更多的信息,而且还造成全球每日所产生的数据量呈现出指数增长的趋势。这些大数据的来源主要包括:科学研究(天文学、生物学和基因学等)、仿真、互联网、物联网以及电子商务等领域。互联网上一天大约所产生的数据统计如下:在一天24小时之中,所产生的数据足以需要用1.68亿张DVD盘存储;大约每天都会有1.72亿人登录Facebook;2940多亿封邮件通过网络发送出去;4000万人登录 Twitter;200多万个社区帖子被发表;2200万人登录 LinkedIn;37.8万台手机被卖出,高于全球每天出生的婴儿总数量(37.1万人);2000万人登录Google+;还有1700万人登录Pinterest;另外,大约有2.5亿张图片上传到 Facebook 中,这些图片如果都被打印出来,相当于80座埃菲尔铁塔的高度;在YouTube中上传的视频的时长长达86.4万小时,假设不间断全部播放完,大约需要98年[1]


在上述环境之下,“大数据”的概念便应运而生。通常情况下,1000TB级以上的数据我们称它为大数据,处理这样的数据,大约需要400~500台一般配置的机器共同工作才能完成。图1-1是2011—2016年中国大数据应用市场规模与增长情况,从中我们可以看出,在2014年市场规模已经达到19.9亿元,同比增长148.8%,到2016年达到了百亿规模[2]。图1-2所示的是2010—2018年全球云服务市场规模分析及预测,从图中我们可以看到,云计算的服务市场规模正在逐年增加,2014年的增长率是17.9%,云市场规模达到1499亿美元[3]


当前,大数据早已成为一种普遍的社会现象,虽然数据的大容量确实给我们的数据采集、存储、维护以及共享带来了极大的挑战,但数据的大容量却代表着我们可以处理、分析并可利用的数据在大量增加。如果可以有效地、合理地对这些数据进行处理、整合和分析,那么,我们就可以发现新知识并创造新价值,这些可以为人类的发展起到积极的作用,并使人类逐步走向创新型社会化的新信息时代。目前,传统的数据库系统处理能力已经远远不能满足大数据的处理需求,然而,规模问题仅仅是大数据问题的一个方面,大数据的另外两个基本特性也是不能小觑的,它们分别是数据产生的速度和多样性。这给我们的数据管理、分析处理以及网络带宽等方面都带来了前所未有的挑战,并已经成为整个领域所关注并研究的热点问题[4]

数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载

图1-1 2011—2016年中国大数据应用市场规模与增长情况

数据资源的管理与调度:云环境下数据与资源协同技术pdf/doc/txt格式电子书下载

图1-2 2010—2018年全球云服务市场规模分析及预测

云计算是分布式计算、网格计算和并行计算的发展,并在此基础上提出的一个新概念。云计算绝不仅仅是一个计算的问题,它需要融合诸多学科与技术。它面对的是超大规模的分布式环境,其核心是提供大数据的存储和高效率的计算能力,由此衍生出来的商业应用。大数据技术离不开云计算的发展,它们之间的关系是密不可分的,换言之,大数据技术是云计算技术的延伸。其中,数据的海量存储和处理技术都属于大数据技术,如:应用知识库、自然语言理解和模式识别等[5]


目前,大数据处理工具 Hadoop[1]已经被很多运营商所使用,其目的除了对用户数据进行管理和分析,更重要的意义是通过对这些数据的分析,能在今后的日常运营、客户维护以及市场战略的制订方面可以有一定的科学依据和判断条件,而不再是盲目的决策和执行。我们可以看到,未来企业成功与否的关键因素是谁能准确地抓住并把握好大数据的机遇,谁就是未来的王者。美国总统委员会的科学技术顾问Stephen Brobst就曾经说过:根据我们目前所产生的数据量,可以肯定地说大数据时代已经到来。


在对大数据进行存储和分析处理的时候,我们通常都是在云平台中进行的,换言之,利用云计算对大数据进行管理和分析是目前一个很好的研究方向,它的突出优势表现在以下几点。


1.高可靠的存储和维护能力


随着大数据数量级的不断提高,利用传统的文件系统或数据库来存储它们基本变成了幻想,但是云计算的分布式存储模式却可以胜任这项任务。云计算通过把大量的普通计算机整合起来,形成拥有巨大存储能力和计算能力的资源池,说明它有能力为企业用户提供大容量的存储服务和计算服务。同时,云计算本身的特性也给大数据的维护提供了强有力的保障,如:并发控制、数据备份、一致性维护以及可靠性等控制策略等。


2.超强的分布式并行处理能力


云计算分布式并行处理的基本思想是将一个大任务划分成若干个小任务,之后分布到不同的云节点中进行并行处理,即分布式并行处理。在对待大数据的问题上,我们根据现有的资源,同样可以采用相同的解决思路,并结合相应的任务调度优化方案,可以显著提高云计算对大数据的处理能力。


3.良好的可伸缩性和灵活性


众所周知,云计算的一个显著特点就是良好的可伸缩性和灵活性,即根据处理任务的大小,可以方便地对云平台的规模进行扩大和缩小。在处理数据量弹性变化的大数据问题的时候,云平台的这个特点是非常适合的。通常情况下,云平台都是由廉价机构成的,因此,在扩大云平台的存储和计算能力的同时,不需要投入太多资金。


本课题以国家自然科学基金“动态网络环境下的服务组合、重建与优化的研究”(No.61070182)、“面向下一代互联网的网络服务建模基础理论研究”(No.61170209)、“可编程网络环境下多粒度服务与服务组合的机制研究”(No.61272508)、“互联云环境中基于效用模型的跨云协同服务优化研究”(No.61370132)为依托,在云计算环境下,重点针对数据管理、任务调度以及容错机制三个方面进行了研究,从而对大数据的处理策略起到了指导作用。


1.2 课题研究意义


云计算[6-8]是计算机技术和网络技术发展到一定程度的必然趋势和结果,而云计算技术的迅猛发展,和大数据处理紧密相关,如果没有云计算技术,大数据的处理可谓纸上谈兵。目前,各类企业、机构的数据量都在飞速增长,每天流动在其系统中的数据都是庞大的。随着数据量的猛增,实时处理这些数据的能力和策略已经成为当前大数据的重要挑战之一。在未来一段时间里,伴随着云计算应用部署的加快,大数据给我们带来的挑战将会更加严峻[9-13]


本课题将通过对云计算技术及数据应用需求的分析与研究,考虑如何利用云计算平台,对数据进行有效的管理与处理,并重点针对数据处理所面临的几个关键问题展开研究,包括:数据的副本管理策略研究、任务调度的优化策略研究,以及云计算的容错机制研究等。旨在提高数据的存储和管理技术、提高云计算的可靠性和容错能力,以及提高系统的服务性能等。本书的研究课题得到了国家自然科学基金的支持,既具有重要的学术研究价值,又具有广阔的市场应用前景。


1.3 研究内容与成果


用户可以通过互联网,以便利的、按需付费的方式向云服务提供商租赁自己所需的服务,例如:存储空间、计算能力和信息服务等。而服务提供方则需要根据用户的请求,从云计算中心为用户配置相应的资源,以满足用户的服务需求。对于服务提供方来说,当为用户配置所需资源的时候,需要重点考虑的问题是:在保证用户服务需求的前提下,尽量降低自己的服务成本问题,即如何以较低的服务成本来满足用户的服务请求的问题。而对于用户来说,按需付费之后最关注的问题就是服务质量。


基于以上分析,在本书中,我们的主要研究内容分为三个方面,如图1-3所示。首先,当用户向服务提供方租赁存储空间时,我们考虑了服务成本和服务质量之间的关系,对云计算环境下的服务成本优化存储策略进行了研究。其次,当用户向服务提供方租赁计算能力时,我们综合考虑了节点性能、网络环境以及待计算任务的计算复杂度等因素,提出了节点性能的综合度量方法,并在多指标影响下对如何提高系统的服务质量、降低服务成本进行了任务调度优化策略的研究。最后,从系统的容错机制方面

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示