走近大数据pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:走近大数据pdf/doc/txt格式电子书下载
推荐语:大数据Hadoop技术NoSQL数据分析一本书读懂大数据大数据行业相关人员参考书籍
作者:中国通信企业协会组,段云峰,张韬
出版社:人民邮电出版社
出版时间:2018-12-01
书籍编号:30452972
ISBN:9787115492814
正文语种:中文
字数:215374
版次:1
所属分类:互联网+-大数据
版权信息
书名:走近大数据
作者:中国通信企业协会组 段云峰 张韬
ISBN:9787115492814
版权所有 · 侵权必究
内容提要
本书首先介绍了大数据的一些基本概念,阐述了大数据发展的历史必然性;然后围绕大数据生态的各个技术和组件进行了基本的介绍;接着介绍了建设大数据系统要考虑的一些关键内容;最后以附件的形式给出了一些企业建设大数据系统的案例情况。
本书适合从事与大数据行业相关的人员,以及产业经营管理人员阅读参考,也可以作为高校信息技术、管理、电子商务类专业师生的参考书。
《信息通信技术普及丛书》编委会
主编:苗建华 中国通信企业协会会长
副主编:刘桂清 中国电信集团有限公司副总经理
顾晓敏 中国铁塔股份有限公司副总经理
赵中新 中国通信企业协会副会长兼秘书长
张同须 中国移动通信有限公司研究院院长
张涌 中国联通网络技术研究院院长
执行主编:柏国林 中国通信企业协会副秘书长
编辑组
组长:赵俊湦 中国通信企业协会综合业务发展部主任
副组长:冯志宏 中国通信企业协会综合业务发展部副主任
刘婷 中国通信企业协会综合业务发展部副主任
王建军 人民邮电出版社信通传媒图书出版中心主任
前言
时至今日,大数据应用无所不在,但什么才是真正的大数据?怀着对大数据的迷茫,“摸着石头过河”也有些年头了。一路走来,我们不断地思考和摸索,遇到很多问题,也解决了很多问题。这也许都是发展的必然历程吧。
在人人都讲大数据,都说他们用了、在用或要用大数据的今天,我们结合自身的工作体验和实战经验,想给大家带来一些我们对大数据内涵与外延的认识,也希望能针对相关的技术和产品的应用做一些普及性解读,希望对感兴趣的读者有所助益。
在云计算、物联网和人工智能的协同下,大数据的发展空间被全方位拓展,人们的想象边界也被一下子打开了,仿若潘多拉盒子被打开似的,充斥着各种未知的因素,让人望而生畏。而另一方面,大数据也确实给食品溯源、药品管控、聚集引导和公共安全这些人们热切关心的问题带来各种可能的解决方案。但是在数据采集、使用、共享、流通以及隐私保护等方面的建章立制,才是大数据能真正为人们所用的基础,用好大数据其实是一件很美好的事情。
最后,我们也将此书献给支持我们的家人们,没有你们的默默支持、宽容、理解和爱,本书难以成文!
段云峰 张韬
2018年8月
第1章 大数据,心中有数
1.1 从一场亲子讲座谈起
从我们2013年编撰第一个内部大数据讲座材料至今,已有5个年头了。这5年,大数据正如甚至超过人们预期的那样迅猛发展。
在一场亲子讲座上,资深的教育界老师针对孩子的启蒙规律和启蒙学习进行讨论。当然,讲座主题是偏离本书讨论范围的,但启发我们的是,老师说道,“我们身处大数据时代,我们讲的这些启蒙规律和学习方法都是基于大数据的。”是啊,大数据不用来为我们最热衷的孩子教育服务太可惜了!
诚然,绝不仅仅教育应讲大数据,我们传统的交通、医疗、环保、旅游、体育和政务等各方面也都在讲大数据,大家都说自己用了、在用或要用大数据。伴随移动互联网浪潮衍生发展的新兴业态都成了大数据的载体,并深深受益于大数据,不断有共享单车、共享汽车等共享经济的商业模式应运而生,这些新的商业模式也反哺了大数据相关产业的发展(如图1-1所示)。
图1-1 捕获价值增长机会
人人讲大数据的今天,大数据究竟怎样改变了我们身处的世界,我们又如何认识、如何理解和如何应对这些改变呢?为了让我们能做到对大数据心中有数,更好地捕获大数据价值,增长企业、团队或个人的发展机会,我们在这里一起漫谈大数据。
1.2 数据非今日变大,为什么今天火了
人类文明的发展进程,伴随着信息的传播方式和记录方式的发展。最初的信息是人们对物品计数的记录和传播,这就是最初的数字。计数方式从连续到离散,传播方式从口耳相传到图形记录,直至文字记录。在这一系列过程中,数据一直就有,而绝非今天才产生。但为什么今天的数据突然被冠以“大”之名,火了呢?
1989年,也许是埃里克·拉森第一次使用了“大数据”[1],数据科学发展的未来大潮开始萌发。1994年,比尔·盖茨拍了张照片(如图1-2所示),幽默地显示一张光盘能装下的数据比大量的纸张能记录下的数据都多,而他在1981年曾说“640KB内存应该对任何人都够用了”,但是不久DOS编写人员就要着手编写内存管理程序,因为640KB实在太小了。随着数据存储技术的发展,伴随着各种商业生态链的极速发展,更伴随着互联网的诞生和发展、网络2.0时代以及物联网的推波助澜,大数据的发展经过了兴起,已经渐入佳境。
图1-2 比尔·盖茨的光盘存储量类比
2008年9月,美国《自然》(Nature)杂志在Google成立10周年之际,出版了The nextgoogle专刊,讨论未来10年大数据会带来的变化,并提出大数据真正重要的是新用途和新见解,而不是数据本身[2]。2010年,Google前执行主席埃里克·施密特说,现在两天所产生的数据量是人类文明开始到2003年的总和。2011年2月,《科学》(Science)杂志刊登了名为Dealing with data的专辑,通过社会调查的方式,讨论数据对科学研究的重要性及大数据对人们的影响[3]。
2013年5月,《外交》杂志上撰文[4]称:人们认为,公元前3世纪,埃及亚历山大图书馆(如图1-3所示)收藏了人类所有的知识。而今天全世界有足够多的信息,预计所有信息量达到1200艾字节[5],以至于将这些信息分配给每个活着的人,每人获得的信息量将是整个亚历山大图书馆藏书的320倍之多。如果把所有这些信息存储在光盘上,这些光盘将会分别堆成5摞,每摞都可被从地球一直堆到月球。
图1-3 埃及亚历山大图书馆
暂且不论这些比喻是否恰当,互联网,特别是移动互联网的惊人发展使数据更以爆炸性势头得以增长。互联网上经常使用两张拍摄于不同时间、同一位置的照片的对比来说明当今数字信息化技术发展对人们生活的改变。
2015年6月,爱立信发布《移动互联网报告》显示,2010年手机数据流量才刚刚达到语音流量的2倍,而在2014年,手机数据流量已经是语音流量的20倍以上。仅在2014—2015年,数据流量增长了55%。报告预测,到2020年全球数据流量较2014年又会增长10倍以上。
2016年2月,业务管理软件平台DOMO发布了一系列数据,显示互联网每分钟运行着大量的在线数据(如图1-4所示):每分钟有4310人登录亚马逊网站,Netflix用户每分钟会观看77160小时的视频,苹果用户每分钟会下载51000个应用,Instagram用户每分钟发布123060张照片,YouTube用户每分钟会上传300小时的新视频,Twitter用户每分钟发布347222条推文,Facebook用户每分钟点赞4166667次,Uber每分钟获得694个订单;每分钟平均收发邮件达到2.4亿封;Google的搜索量每分钟可达278万次[6]。2015年世界互联网大会上,腾讯公司指出,其微信红包一天的收发量是22亿个,平均每分钟红包收发量是1527777个。根据支付宝官方大事记,2015年“双十一”期间共完成7.1亿笔支付,平均每分钟完成493055笔交易,当天淘宝活跃用户量超过一个亿,平均每分钟活跃用户超过69444人。
图1-4 DOMO发布的在线数据分析
2018年1月31日,中国互联网信息中心(CNNIC,China Internet Network Information Center)发布的我国第41次《中国互联网络发展状况统计报告》[7]指出:截至2017年12月,我国网民规模达7.72亿人,手机网民规模达7.53亿人,网站总数为533万个,即时通信用户规模达7.20亿人,网络购物用户规模达5.33亿人,网上外卖用户规模达3.43亿人,在线旅行预订用户规模达3.76亿人,使用网上支付的用户规模达5.31亿人,网络音乐用户规模达5.48亿人,网络文学用户规模达3.78亿人,网络游戏用户规模达4.42亿人,网络视频用户规模达5.79亿人,网络直播用户规模达4.22亿人,在线政务用户规模达4.85亿人。巨量的在线和交易用户规模的背后是,各个网络交互环节中产生的海量数据。
回到本节我们提出的问题,数据并非今日变大,为什么现在火了呢?从上面一系列的数据来看,第一个原因是大数据有来源。现今互联网、移动设备和物联网等的迅猛发展,使人们每分每秒都在产生着巨量数据,使大数据有了更广泛的来源。而这些逐渐产生的数据,极大地挑战了信息化技术的存储能力和处理能力。那么,随之而来的第二个原因是,信息技术的突破性发展,使大数据价值有可能在有限投入和有效时间内被发掘和发挥出来,得以绽放价值。
1.3 大数据带来的改变渐渐发生了
大数据逐渐深入的发展,改变了我们和我们所处的社会,改变了我们的生活和工作各个可触及的范围。
关于大数据,最经典和最易被提及的应用案例是美国塔吉特卖场对于17岁女孩怀孕的预测。该事件源自《纽约时报》的一篇报道,报道是关于一位怒气冲冲的父亲对塔吉特卖场将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中女儿的质问。而事实是,这位父亲的女儿确实怀孕了。塔吉特卖场从这名女孩搜寻商品的关键词和在社交网站所显露的行为轨迹,成功预测其怀孕的信息。有数据显示,许多孕妇在第2个妊娠期开始,会购买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁和锌的善存片之类的保健品。由此,塔吉特构建了“怀孕预测指数”,可在小误差范围内实现对顾客怀孕情况的预测。
FareCast是早期大数据创业公司的一个缩影,该公司通过“哈姆雷特”项目,从旅游网站上搜集41天的12000个价格样本的分析基础上,开发了一个虚拟价格预测系统。获得风险投资后成立FareCast公司,分析了10万亿条北美70多个城市的机票价格记录,预测这些城市之间的机票最低价格,实现了75%的准确率[8]。
而伴随大数据成长的谷歌公司,初创于搜索引擎技术。该公司通过收集和分析人们输入的搜索关键词,实现特定区域的搜索关键字聚合,建立评估模型;再来建立搜索流感话题人数和真正流感患者人数之间的关系,将该模型应用到聚合后的搜索关键字后,可以一定程度地实现对流感在不同国家和地区中扩散情况的预测。
Gartner的分析师Doug Laney列举了55个大数据应用案例,其中有这样两个案例引人关注。2013年1月,PredPol公司与洛杉矶警方合作进行可精确到500平方英尺(约46平方米)范围内的大数据犯罪预测。该系统根据某地区历史犯罪数据,预测该地区发生犯罪的概率、类型及最有可能时段,将这些预测信息展示于城市地图中,进行“热点”地区预警,执勤警员可通过PC、手机或平板电脑在线查看。自该系统启用一年内,该地区盗窃罪和暴力犯罪分别下降了33%和21%。而类似情节却恰好是2002年上映的好莱坞电影《少数派》中提及的“先知”能力。
Laney给出的另一个案例是,零售业巨擘沃尔玛公司为其在线销售网站设计了一个名为Polaris的搜索引擎,通过利用语义数据进行文本分析、机器学习和同义词挖掘,使在线购物的完成率提升了10%~15%,这也就意味着数十亿美元的营业额提升。
亚马逊通过对用户之前订单、商品搜索记录、愿望清单、购物车和用户在某种商品上悬停时间的分析,开发了“预测式发货”功能,以预测用户的购物习惯,从而在他们实际下单前将包裹发出。该功能可以缩短发货时间,以降低从下单到收货之间的时间延迟,进而减少因此而导致的购买意愿降低从而放弃购物的人数。
摩托车生产厂商哈雷·戴维森公司(位于宾夕法尼亚州约克市)翻新摩托车制造厂,通过记录各种制造数据,监控摩托车生产过程,并从其中寻找生产效率提升的工作瓶颈。UPS从安装在公司4.6万多辆卡车上的远程通信传感器上获取车速、方向、刹车和动力性能等方面的数据,用来确保车辆日程性能维护及时性和辅助公司物流路线的设计优化。该数据的应用,为UPS减少了8500万英里(约1.37亿千米)的物流里程,由此节约了840万加仑(1加仑≈4.545升)的汽油。
Xoom是一家从事跨境汇款业务的公司。2011年,该公司通过数据检测发现从新
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询