当前位置:
首页 > 互联网+ > 大数据 > 大数据日知录:架构与算法pdf/doc/txt格式电子书下载

大数据日知录:架构与算法pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

大数据日知录:架构与算法pdf/doc/txt格式电子书下载

书名:大数据日知录:架构与算法pdf/doc/txt格式电子书下载

推荐语:

作者:张俊林著

出版社:电子工业出版社

出版时间:2014-09-01

书籍编号:30458270

ISBN:9787121241536

正文语种:中文

字数:465461

版次:1

所属分类:互联网+-大数据

全书内容:

大数据日知录:架构与算法pdf/doc/txt格式电子书下载






前言


像移动互联网、O2O、可穿戴设备等概念一样,“大数据”从甫一提出到飓风般席卷并风靡全球,从最初的技术名词到形成渗透各行各业的社会现象,所耗时间仅几年而已,其兴也勃焉。


那么,大数据是否会像很多曾经火热现在已难觅踪迹的流行概念一样,将来某日,人们静心抬眼,发现风已去而水波不兴,徒留夕阳下波光粼粼的涟漪,让人不禁哀叹其亡也忽焉?


本书的背景


目前看仿佛有此迹象,当一个概念火爆到从街头随便抓一个路人,他都能跟你滔滔不绝地侃侃而谈;当一个新名词铺天盖地而来,让你熟悉到再见一次就要吐的程度,这些确实是典型的泡沫将破的征兆。目前业已出现越来越多的质疑声音,在这种狂热的氛围下,理性的质疑是最难能可贵的,毕竟大数据归根结底是少数派的游戏,而现状好像是人人都处于大数据进行时的状态,这让其看上去显得不甚理性。


但是,从社会发展趋势的角度,很明显大数据会是目前肉眼可及的视野范围里能看到的最大趋势之一。从传统IT业到互联网、互联网到移动互联网,从以智能手机和Pad为主要终端载体的移动互联网到可穿戴设备的移动互联网,然后再到万物互联的物联网,这一定是不可违抗的发展规律和前进方向。伴随着这个趋势必然有越来越多、形态越来越丰富的超量数据不断产生,而大数据明显是由此衍生出来的明确且必然的发展趋势。


所以,归根结底,大数据概念是个短期内炒得过热,但是从长期来看炒得不足的领域。再过十年如果回望现在,也许会发现:我们今天正在巍峨群山的山脚徘徊,试图找出一条通往山顶的羊肠小道,如此而已。我们当然不能盲目跟风不断追逐切换热点,但是忽视趋势的力量同样也不是一个理性的选择。


本书的内容


以上所述是本书诞生的大背景,目前市面上陆陆续续已经有不少讲大数据的书,有面向大众的概念普及类图书,也有讲解大数据技术的书,本书属于第二类,专注于与大数据处理有关的架构与算法,我相信这是一本比较全面地分门别类梳理大数据技术的书籍。从大约2010年年底起我开始关注并收集整理这方面的技术资料,当然那时还没有听说过大数据的概念,现在的所谓大数据已经是后来的事情了。最初引起我关注的是与NoSQL相关的技术,尤其是Google和亚马逊的一系列相关工作,当时隐约地觉得这是一种新的技术发展趋势,甚至是一次技术范型的大转换,所以逐步开始投入越来越多的精力到其中,这包括将相关技术资料分门别类地进行收集、阅读和整理,利用业余时间开始一章一节地慢慢写本书,以及在实际工作中尽可能地应用这些技术和系统等若干方面。


本书的写作


断断续续完成本书花了大约3年左右的时间,和最初预估的时间还是比较吻合的,这一方面是由于我可投入的时间本身就不多,但是还是希望能够写出一本高质量的技术书籍,所以不得不慢工出细活;另外一方面是由于大数据处理作为一个新领域,其涉及的方方面面的技术点实在太多,而且正处于快速的发展过程中。这个领域是我接触过的领域中知识涵盖面最广的,从底层的硬件开始,到涉及基础理论、大规模数据存储系统、分布式架构设计、各种不同适用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法、层出不穷的新架构和新系统等,说无所不包有些夸张但是所需掌握知识点之多确实是很少见的。而且因为其处于快速发展的过程当中,所以各种技术纷繁芜杂,并无一个成熟的知识分类体系可供参考,需要不断梳理相关知识点之间的相互区别和联系并进行分门别类,如何将纷杂多样的技术梳理成清晰合理的章节内容曾让我头疼不已,当然发展到目前,整个大数据技术体系脉络已经日渐明晰,我相信参考本书目录可以清晰地发现这一点。另外一个阻碍是可参考的资料和系统多而杂,且质量良莠不齐,需要从中汰劣余优,尽可能选出有代表性及有发展潜力的理论、方案和系统,这也是很耗费精力的过程,尽管本书每章后只列出了很少一部分参考资料,但是实际参考的文献与系统要数倍于此,只列出精华部分是为了缩短读者选择高质量文献的过程。


十几年前当我还在中国科学院读书的时候,就对互联网的蓬勃发展及其对生活和工作各方面的影响感慨不已。当时最直观的感受是最新的国际会议论文很容易获得,往往是会议一开完就能从网上下载到感兴趣的文献,有时候会议没开有些作者就把论文先放在网上供人参考。觉得有了互联网这么强大的全球范围信息便捷分享工具,尽管当时国内科研水平不算高,在最好的国际顶级会议发表论文还是较难的事情,但是随着互联网的普及,科研水准应该能够获得极为快速长足的发展,因为从追踪最新技术进展的角度看大家的起跑线是一样的,而中国人多的优势慢慢应该能够发挥出来。事实上也是如此,最近几年各种国际顶级会议中,中国人发表的论文比例越来越高可以证明这一点,而很明显这个趋势还会进一步加快。之所以提这个,是因为大数据相关技术研发道理其实也是一样的,尽管目前国内在这方面的实力和国外相比还有很大的差距,优秀的系统和技术方案往往都是Google、亚马逊、Facebook、Linkedin等这些国际知名互联网公司提出的,国内工业界的技术水准大部分还仅仅停留在能把开源的大数据系统应用起来解决手头碰到的问题这个阶段,但是我相信在不远的将来,国内会逐步涌现出具有国际水准的大数据系统与解决方案,其中的道理与上面所举的学术进步的例子是一样的。目前大部分优秀系统是开源的,相关技术文献也很容易找到,作为有进取心的技术人员,现在所缺乏的不是没有可参考的学习资料,相反是资料太多但良莠不齐反而让很多人无所适从,不知该如何下手。国内的技术人员只要肯下功夫、会下功夫,有好的职业发展环境和高的自我期许及技术理想,假以时日,越来越多的世界级水准的大数据处理系统出自中国人之手是完全可以指日可待的。我期望本书对于这些技术人员在全面了解吸收并掌握大数据处理的优秀技术过程中,能贡献绵薄之力。沈利也参与了本书的部分编写工作。


致谢


感谢我的妻子、岳父、岳母,以及爸爸、妈妈,尽管历时3年才得以完成本书,但是若是没有你们的全身心支持,这本书2020年也无法面世。


对了,还有我的女儿,亲爱的雪晴,从蹒跚迈出人生第一步,到咿咿呀呀说出第一句话,我总是想起,小小的你,迷茫地站在这遍布新奇的世界里,东张西望时无助的样子,这总是令人心疼。你无数人生的第一次带给我太多欢乐,而我陪你的时间又太少太少。每次听到你用小手咚咚敲着书房紧闭的门,这经常让我感到惶惑,不知道这么狠心对你是对还是错,但是又不得不狠下心来。我相信将来一定会后悔没有给你更多的时间,把你介绍给这色彩斑斓而残酷的世界,嘱咐它在今后的日子里能善待你一些。我多想陪你直到你白发苍苍的岁月:在初秋的午后阳光下,看到你坐在院中的婆娑树影里,给你的儿孙讲故事,浅笑依然,仿似今天。我可以清楚地想象那时的场景,清晰得就像一切就发生在眼前。虽然我深切地知道这是永不可实现的奢望,但这个梦想会永远放在我心里,就像你清澈的目光和纯真的笑容一样。


时间是我们的朋友,也是我们的敌人,希望你们能够原谅我。


张俊林


2014年3月于北京

0 当谈论大数据时我们在谈什么


我是这部车


第一个乘客


我不是不快乐


天空血红色


星星灰银色


你的爱人呢


Yes I'm going home


I must hurry home


Where your life goes on


——王菲《乘客》


多年以后,当大数据应用已经无处不在地影响我们每日生活的时候,准会想起那个面红耳赤争论大数据泡沫何时破灭的下午。


关于什么是大数据,一千个人估计有一千个说法,让我们先从一个例子谈起。


2012年伦敦奥运会赛事举行期间,全世界的观众为激烈的比赛心潮起伏,如何知道人们关于奥运是什么样的心情?很简单,只要你去看一眼世界上最大的摩天轮之一“伦敦眼”,答案就可了然于胸。


用“伦敦眼”的灯光秀来展示英国人对于奥运比赛的情绪,这是EDF Energy公司和麻省理工学院的合作项目。这个项目实时过滤人们在 Twitter 上发布的微博,根据一些与奥运有关的词汇比如“2012伦敦奥运”、“奥运会”将相关微博从海量数据中过滤出来,之后采用被称为“SentiStrength”的情感计算程序自动对每条微博表达的情绪做出判断,将其分为“积极情绪”、“消极情绪”或者是“中性情绪”,每天数十万的奥运相关微博经过分析汇总后,就可以知道当天观众对于奥运的整体情绪是怎样的,将这个统计结果以伦敦眼上不同颜色灯光投射,人们一眼就可以知道其他人的心情。如果你看到四分之三的伦敦眼转轮上的灯光是橙色的,那么这代表了 75%的奥运相关微博是积极情绪,而悲观情绪则以蓝色灯光来表示。


很神奇,不是吗?但是……别着急,你需要知道的一点是:“伦敦眼灯光秀”只是我们现在身处的大数据时代的一个小魔术而已。


0.1 大数据是什么


多大的数据量才能称得上“大数据”?这其实是颇为令人困惑的一个问题。在谈论数据大小之前,我们先来了解数据量的衡量单位,从小到大依次为KB、MB、GB、TB、PB、EP和ZB,它们相互之间的转换公式为:1024KB=1MB;1024MB=1GB;1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB。数据大小是相对而言的一个变化概念,在20世纪末,MB是最常用的存储单位,那时1GB就可以称得上“大数据”了,但随着IT技术的快速发展,我们逐步迈入了GB时代、TB时代,而现在正处于从PB到EB的迁移阶段。


为了对数据之大获得更感性的认识,让我们来看一组数据:Facebook管理了超过400亿张图片,所需存储空间超过100PB,每天发布的新消息超过60亿条,所需存储空间超过10TB;Twitter一天产生1.9亿条微博;搜索引擎一天产生的日志高达35TB,Google 一天处理的数据量超过25PB;YouTube一天上传的视频总时长为5万小时……如果愿意的话,这个单子还可以拉得很长。


我们正处于电子数据暴涨时代,统计数据表明:2010年全世界信息总量是1ZB,最近3年人类产生的信息量已经超过了之前历史上人类产生的所有信息之和,如果再过10年回过头来看,这个数字其实也不算体量巨大,要知道,数字信息量正在以每5年增加10倍的速率在加速扩张。


为何数据会发生井喷式的增长?这与互联网、移动互联网、物联网大潮的高速发展以及IT技术的快速进步有直接关联。互联网的普及、智能手机等手持设备的广泛使用,使得越来越多的人能够将可支配时间投入到各种应用中,而物联网尚处于萌芽期,其发展的结果是:任意物品和设施都有可能24小时不间断地产生状态信息。而这背后的推动力,则是硬件成本的快速下降:每年存储设备每GB 信息的存储成本降低50%,这使得电子设备的无所不在成为可能。电子信息的表现形式多种多样,用户访问网站的海量点击记录数据,用户UGC产生的大量图片和视频,电子商务网站的在线购买记录,通信数据,RFID,医疗信息……数据无处不在,无时不在。


无疑我们已经身处一个真正的“大数据”时代,但是关于大数据的确切定义,目前尚无获得统一公认的说法。Wikipedia里给出的颇具实用主义色彩的定义为:所谓“大数据”,是指数据量太大,以至于目前手头的数据管理工具已经不便于管理的数据。


IBM则用3V(Volume、Velocity、Variety)来描述大数据所拥有的特点。大容量(Volume)是指数据体量巨大,这是一般人最直观的感受;多形式(Velocity)是从数据的类型角度来看的,数据的存在形式从过去结构化数据为主转换为形式多样,既包含传统的结构化数据,也包含类似于XML、JSON等形式的半结构化形式和更多的非结构化数据;既包含传统的文本数据,也会有越来越多的图片、音频和视频数据;高速率(Variety)则是从数据产生效率的实时性角度来说明问题:数据以非常高的速率到达系统内部,比如大量传感器的实时数据传输、股票的实时交易数据等。


后来,IBM又在3V的基础上增加了Value这个维度来描述大数据的特点,即价值密度低的数据称为大数据,所以需要从低价值的原始海量数据中进行深度挖掘和计算,总结出具备高价值的数据。


IDC 更侧重于从技术角度来说明“大数据”概念:大数据处理技

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示