当前位置:
首页 > 互联网+ > 大数据 > 大数据分析方法pdf/doc/txt格式电子书下载

大数据分析方法pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

大数据分析方法pdf/doc/txt格式电子书下载

书名:大数据分析方法pdf/doc/txt格式电子书下载

推荐语:

作者:陆红著

出版社:中国财富出版社

出版时间:2017-06-01

书籍编号:30434355

ISBN:9787504764164

正文语种:中文

字数:41574

版次:1

所属分类:互联网+-大数据

全书内容:

大数据分析方法pdf/doc/txt格式电子书下载






前言


为什么要写本书


大数据时代,人们面对大量的数据,首先想到的是如何分析这些数据,但目前介绍大数据分析方法的书籍却不是很多。作者从事大数据分析研究工作多年,很想将做过的大数据研究课题积累的一些分析方法分享给各位读者。


本书组织结构


本书的结构是依据大数据的处理方法构建的,依次为大数据采集处理方法、大数据存储方法、大数据分布式计算方法、大数据分析模型构建方法、大数据分析模型检验方法、大数据分析模型优化方法。


本书的主要内容


第1章介绍了大数据采集处理方法,重点介绍了如何从互联网上采集数据,介绍了“网络爬虫程序”的设计和编写方法以及数据清洗方法,着重介绍如何清洗机器学习训练数据。


第2章介绍了大数据存储方法,重点介绍了分布式文件系统存储的原理、配置方法与使用方法。重点介绍了分布式数据库Hbase原理、配置方法与使用方法。


第3章介绍了大数据分布式计算的实现方法,详细介绍了如何搭建Hadoop大数据处理平台,列举了详细的搭建过程,提供了Hadoop搭建所需的各种配置文件源代码,提供了构建Hadoop所需的命令语句。着重介绍了MapReduce框架结构,运行机理,MapReduce源代码分析,各种接口和类分析。本章给出了丰富的MapReduce示例,对示例进行详细的解读,读者可以模仿示例编写自己的MapReduce程序。


第4章介绍了大数据分析模型构建方法,主要介绍了如何通过机器学习方法构建大数据分析模型。


第5章介绍了大数据分析模型的检验方法,分析模型建立以后如何进行检验,这往往是一个难点;如何检验模型是否达到了最初设计标准,用什么手段来检验非常关键;检验方法是否科学也都很重要。此章还介绍了机器学习构建模型常用的检验方法,如回归诊断、交叉验证等方法。


第6章重点介绍了模型建立以后如何优化,主要介绍了几种优化方法,如逐步回归优化法、主成分分析优化方法等,特别介绍了通过神经网络进行优化。


本书的优势


本书的内容是作者从事科研项目的一些研究成果及开展大数据分析项目研究方法的总结和归纳,因此内容非常实用,可为从事大数据分析的研究人员提供研究步骤和方法。本书的模式是提出问题,然后给出解决方法,这样读者在现实中遇到类似问题就可以参考书中提供的方法加以解决。


本书的受众群体


本书的读者主要是从事大数据分析的研究人员、大数据分析系统开发人员,使用本书的人员应该在大数据分析方面有一定的基础,本书的内容比较深入,跳过了基础概念和基本理论,主要论述和探索大数据分析深层次的内容和方法。


致谢


本书是基于北京市教委科技计划一般课题:“基于机器学习方法的房价大数据分析模型构建研究”(课题编号:KM 201610857002)研究内容编写的。


感谢项目组成员冀钢、刘瑞新、范美英对本项目做出的贡献。感谢参与和支持本项目的所有人员。


陆红


2016年12月

1 大数据采集处理方法


问题


如何获取大数据,如何从互联网上采集大数据?


解决方法


大数据可以通过多种渠道获得,通过互联网采集大数据是常用的一种方法,采集互联网大数据通常采用爬虫技术抓取数据。


1.1 爬虫程序设计方案


1.抓取URL


要抓取网页的内容,首先要得到此网页的网址,URL(Uniform Resource Locator,统一资源定位器)是网页的网址统称。


URL可以采取种子网页的形式获得,即以事先给定的URL作为种子,顺着这颗种子再获得相关的链接网页的URL;也可将网页进行分类,按类别抓取网页URL;还可以通过日志获得访问网页的特征,依据访问特征抓取网页URL。


2.存储URL


将种子URL存放到待搜索队列中,不断将获得的相关链接的URL放入待搜索队列,将搜索过的URL打上标记放入已搜索队列,标记最好以时间戳的形式标注,为下次搜索顺序提供依据。分析和过滤URL,将与主题词无关的URL过滤掉。


3.搜索策略


URL搜索策略通常采用深度搜索或广度搜索。深度搜索是纵向搜索,从种子首页开始向下搜索相关的链接网页;广度搜索是横向搜索,先搜索所有首页,然后再搜索二级页面、三级页面等。


4.提取内容规则


可以设定按主题词提取,根据种子样本标记的主题词和框上的内容提取网页内容,抓取的网页不断地比较样本标记的主题词,将与此主题词相关的内容存储在数据库中,主题词作为数据库的字段。


5.采用网页排名算法选取网页


网页排名算法PageRank(PR)用于筛选网页,决定是否将该网页URL放入待搜索队列。如果网页T存在一个指向网页A的链接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PRT)/LT)。


其中:PRT)为T的PageRank值,LT)为T的出链数;


则A的PageRank值为一系列类似于T的页面重要性得分值的累加。


假设一个只有4个页面组成的集合:A、B、C和D。如果所有页面都链向A,那么A的PR值将是B、C及D的和。


即:PRA)=PRB)+PRC)+PRD


继续假设B也有链接到C,并且D也有链接到包括A的3个页面,一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有1/3算到了A的PageRank上。


大数据分析方法pdf/doc/txt格式电子书下载


换句话说,根据链出总数平分一个页面的PR值。


大数据分析方法pdf/doc/txt格式电子书下载


p1p2,…,pN是被研究的页面,Mpi)是pi链入页面的数量,Lpj)是pj链出页面的数量,而N是所有页面的数量。


PR值是一个特殊矩阵中的特征向量。这个特征向量为:


大数据分析方法pdf/doc/txt格式电子书下载


R是如下等式的一个解:


大数据分析方法pdf/doc/txt格式电子书下载


如果网页i有指向网页j的一个链接,则


大数据分析方法pdf/doc/txt格式电子书下载


否则epipj)=0。


6.依据主题词相似度分析算法抓取内容


假设X是词-文档矩阵,其元素(ij)代表词语i在文档j中出现的次数,则X矩阵如下。


大数据分析方法pdf/doc/txt格式电子书下载


可以看到,每一行代表一个词向量,该向量描述了该词和所有文档的关系。


大数据分析方法pdf/doc/txt格式电子书下载


相似的,一列代表一个文档向量,该向量描述了该文档与所有词的关系。


大数据分析方法pdf/doc/txt格式电子书下载


词向量@大数据分析方法pdf/doc/txt格式电子书下载的点乘可以表示这两个单词在文档集合中的相似性。矩阵XXT包含所有词向量点乘的结果,元素(ip)和元素(pi)具有相同的值,代表词p和词i的相似度。类似的,矩阵XTX包含所有文档向量点乘的结果,也就包含了所有文档之间的相似度。


现在假设存在矩阵X的一个分解,即矩阵X可分解成正交矩阵UV,和对角矩阵∑的乘积。


这种分解叫作奇异值分解(SVD),即:


X=UVT


因此,词与文本的相关性矩阵可以表示为:


大数据分析方法pdf/doc/txt格式电子书下载


因为∑∑T与∑T∑是对角矩阵,因此U肯定是由XXT的特征向量组成的矩阵,同理V是由XTX特征向量组成的矩阵。这些特征向量对应的特征值即为∑∑T中的元素。综上所述,这个分解如下:


大数据分析方法pdf/doc/txt格式电子书下载


σ1,…,σt被称作奇异值,而μ1,…,μtv1,…,vt则叫作左奇异向量和右奇异向量。通过矩阵分解可以看出,原始矩阵中的ti只与U矩阵的第i行有关,我们则称第i行为@大数据分析方法pdf/doc/txt格式电子书下载。同理,原始矩阵中的@大数据分析方法pdf/doc/txt格式电子书下载只与VT中的第j列有关,我们称这一列为@大数据分析方法pdf/doc/txt格式电子书下载ti与@大数据分析方法pdf/doc/txt格式电子书下载并非特征值,但是其由矩阵所有的特征值决定。


当我们选择k个最大的奇异值,和它们对应的UV中的向量相乘,则能得到一个X矩阵的k阶近似,此时该矩阵和X矩阵相比有着最小误差(即残差矩阵的Frobenius范数)。


但更有意义的是这么做可以将词向量和文档向量映射到语义空间。向量@大数据分析方法pdf/doc/txt格式电子书下载与含有k个奇异值的矩阵相乘,实质是从高维空间到低维空间的一个变换,可以理解为是一个高维空间到低维空间的近似。同理,向量@大数据分析方法pdf/doc/txt格式电子书下载也存在这样一个从高维空间到低维空间的变化。这种变换用公式总结出来如下:


大数据分析方法pdf/doc/txt格式电子书下载


有了这个变换,则可以做以下事情:


(1)判断文档jq在低维空间的相似度。比较向量@大数据分析方法pdf/doc/txt格式电子书下载与向量@大数据分析方法pdf/doc/txt格式电子书下载(比如使用余弦夹角)即可得出。


(2)通过比较@大数据分析方法pdf/doc/txt格式电子书下载与@大数据分析方法pdf/doc/txt格式电子书下载可以判断词i和词P的相似度。


(3)有了相似度则可以对文本和文档进行聚类。


(4)给定一个查询字符串,算其在语义空间内和已有文档的相似性。


要比较查询字符串与已有文档的相似性,需要把文档和查询字符串都映射到语义空间,对于原始文档,由以下公式可以进行映射。


大数据分析方法pdf/doc/txt格式电子书下载


其中对角矩阵∑k的逆矩阵可以通过求其中非零元素的倒数来简单的得到。


同理,对于查询字符串,得到其对应词的向量后,根据公式@大数据分析方法pdf/doc/txt格式电子书下载将其映射到语义空间,再与文档进行比较。


1.2 爬虫程序实现方法


1.抓取URL程序


建立一个爬虫方法:


大数据分析方法pdf/doc/txt格式电子书下载


持续抓取URL,调用getNextUrl()方法抓取下一个URL:


大数据分析方法pdf/doc/txt格式电子书下载


如果待抓取的队列中URL不为空,调用getContent()方法获取该URL网页的文本信息:


大数据分析方法pdf/doc/txt格式电子书下载


采用正则法则,判断网页内容是否与主题相关,如果网页内容与主题有关,将该网页存入数据库:


大数据分析方法pdf/doc/txt格式电子书下载


调用extractUrls()方法,提取网页链接的URL:


大数据分析方法pdf/doc/txt格式电子书下载


将网页内容中的URL存储到待爬队列:


大数据分析方法pdf/doc/txt格式电子书下载


调用线程休眠方法,延时URL抓取,防止屏蔽:


大数据分析方法pdf/doc/txt格式电子书下载


关闭输出流:


大数据分析方法pdf/doc/txt格式电子书下载


得到下一个URL方法:


大数据分析方法pdf/doc/txt格式电子书下载


判断下一个URL是否为空,如果为空从队列中移除:


大数据分析方法pdf/doc/txt格式电子书下载


判断是否有权限访问该URL:


大数据分析方法pdf/doc/txt格式电子书下载


判断URL是否已经访问过:


大数据分析方法pdf/doc/txt格式电子书下载


设置深度搜索最大深度限制:


大数据分析方法pdf/doc/txt格式电子书下载


提取URL方法,通过HashMap匹配链接URL:


大数据分析方法pdf/doc/txt格式电子书下载


大数据分析方法pdf/doc/txt格式电子书下载


处理外部链接,将匹配的外部链接放入待爬队列中:


大数据分析方法pdf/doc/txt格式电子书下载


处理内部链接,将匹配的内部链接放入待爬队列中:


大数据分析方法pdf/doc/txt格式电子书下载


大数据分析方法pdf/doc/txt格式电子书下载


2.抓取网页程序


定义http应答方法,参数为http、url、datum:


大数据分析方法pdf/doc/txt格式电子书下载


判断协议是否为http协议:


大数据分析方法pdf/doc/txt格式电子书下载


获得路径:


大数据分析方法pdf/doc/txt格式电子书下载


得到主机名:


大数据分析方法pdf/doc/txt格式电子书下载


根据url获取到主机名和端口名。如果端口不存在,则端口默认为80:


大数据分析方法pdf/doc/txt格式电子书下载


设置socket连接超时的时间:


大数据分析方法pdf/doc/txt格式电子书下载


是否使用代理,获取socket主机和socket端口:


大数据分析方法pdf/doc/txt格式电子书下载


创建Socket地址:


大数据分析方法pdf/doc/txt格式电子书下载


建立Socket链接:


大数据分析方法pdf/doc/txt格式电子书下载


Socket获取输出流:


大数据分析方法pdf/doc/txt格式电子书下载


向服务器发出Get请求:


大数据分析方法pdf/doc/txt格式电子书下载


如果使用代理服务器,添加网址:


大数据分析方法pdf/doc/txt格式电子书下载


如果代理服务器为空:


大数据分析方法pdf/doc/txt格式电子书下载


添加代理服务器:


大数据分析方法pdf/doc/txt格式电子书下载


获得输入流,包括协议、缓存大小:


大数据分析方法pdf/doc/txt格式电子书下载


提取状态码和HTML中的头文件:


大数据分析方法pdf/doc/txt格式电子书下载


读取文件格式:


大数据分析方法pdf/doc/txt格式电子书下载


获取文件的格式,得到头内容编码,如果是压缩的文件则处理压缩:


大数据分析方法pdf/doc/txt格式电子书下载


提取状态行,压回输入流,从缓存中取出状态码:


大数据分析方法pdf/doc/txt格式电子书下载


获得状态码开始位置和结束位置,状态码长度为结束位置减去开始位置:


大数据分析方法pdf/doc/txt格式电子书下载


大数据分析方法pdf/doc/txt格式电子书下载


提取状态码:


大数据分析方法pdf/doc/txt格式电子书下载


读取文件格式方法:


大数据分析方法pdf/doc/txt格式电子书下载


Value最大值为内容长度:


大数据分析方法pdf/doc/txt格式电子书下载


从头文件获得内容长度:


大数据分析方法pdf/doc/txt格式电子书下载


如果内容长度不为空,获取内容长度字符串:


大数据分析方法pdf/doc/txt格式电子书下载


判断内容长度是否大于准许下载的长度:


大数据分析方法pdf/doc/txt格式电子书下载


定义字符数组,输出字符流:


大数据分析方法pdf/doc/txt格式电子书下载


输出文件格式:


大数据分析方法pdf/doc/txt格式电子书下载


如果长度大于限定的内容长度就中断操作:


大数据分析方法pdf/doc/txt格式电子书下载


3.建立多个线程抓取网页


建立抓取线程池:


大数据分析方法pdf/doc/txt格式电子书下载


记录线程数量:


大数据分析方法pdf/doc/txt格式电子书下载


判断是否有更多的线程:


大数据分析方法pdf/doc/txt格式电子书下载


得到线程名称:


大数据分析方法pdf/doc/txt格式电子书下载


如果有更多的线程,将其写入日志中:


大数据分析方法pdf/doc/txt格式电子书下载


维护一个线程池,并在日志中输入页面等状态信息:


大数据分析方法pdf/doc/txt格式电子书下载


大数据分析方法pdf/doc/txt格式电子书下载


从当前抓取列表中获得一个要抓取的URL:


大数据分析方法pdf/doc/txt格式电子书下载


如果不需要抓取,在handleFetch进行相应的处理:


大数据分析方法pdf/doc/txt格式电子书下载


通过URL,从协议中抓取输出流,通过输出流可以获取到抓取的状态和抓取的内容:


大数据分析方法pdf/doc/txt格式电子书下载


如果状态码为“成功”,并且内容不为空,增加抓取页面、修改抓取的页数、抓取的字节数、日志中状态:


大数据分析方法pdf/doc/txt格式电子书下载


大数据分析方法pdf/doc/txt格式电子书下载


如果处理返回的状态不为空,并且成功地重定向,获取重定向的链接,并进行过滤:


大数据分析方法pdf/doc/txt格式电子书下载


如果重定向的链接不为空,并且和现在的URL不同,创建当前页面的抓取实体:


大数据分析方法pdf/doc/txt格式电子书下载


如果链接页面已经转移或者临时转移,立即重定向,筛选URL,创建一个新的页面实体:


大数据分析方法pdf/doc/txt格式电子书下载


异常直接交由handleFetch来处理:


大数据分析方法pdf/doc/txt格式电子书下载


其他情况未知状态,日志给出当前的状态,然后交给handleFetch处理:


大数据分析方法pdf/doc/txt格式电子书下载


如果完成线程数,关闭所有的插件:


大数据分析方法pdf/doc/txt格式电子书下载


4.抓取网页内容程序


解析头文件方法:


大数据分析方法pdf/doc/txt格式电子书下载


循环读取头文件,如果以<!DOCTYPE、<HTML、<html开头,说明头文件读完了:


大数据分析方法pdf/doc/txt格式电子书下载


把对一行的处理委托给processHeaderLine(line)来处理:


大数据分析方法pdf/doc/txt格式电子书下载


处理头文件,请求头文件的一般格式:


大数据分析方法pdf/doc/txt格式电子书下载


如果没有冒号,并且这行不是空行,则抛出异常并中断:


大数据分析方法pdf/doc/txt格式电子书下载


提取键值对:


大数据分析方法pdf/doc/txt格式电子书下载


过滤掉开始的空白字符,作为value部分,将Key/Value放到headers中:


大数据分析方法pdf/doc/txt格式电子书下载


开始设置line的长度,初始值为0:


大数据分析方法pdf/doc/txt格式电子书下载


如果c不等于-1,开始读取内容:


大数据分析方法pdf/doc/txt格式电子书下载


如果c是\r,并且下一个字符是\n,则读入\r:


大数据分析方法pdf/doc/txt格式电子书下载


如果c是\n,并且长度大于0,准许继续读,此行没有结束,读入该字符:


大数据分析方法pdf/doc/txt格式电子书下载


直接往line追加所读的字符:


大数据分析方法pdf/doc/txt格式电子书下载


获取网页内容方法:


大数据分析方法pdf/doc/txt格式电子书下载


配置默认的客户端访问协议:


大数据分析方法pdf/doc/txt格式电子书下载


获得URL字符串:


大数据分析方法pdf/doc/txt格式电子书下载


设置字符串缓存:


大数据分析方法pdf/doc/txt格式电子书下载


获得Web资源请求访问应答:


大数据分析方法pdf/doc/txt格式电子书下载


如果Http协议请求访问应答状态正常,获取状态码:


大数据分析方法pdf/doc/txt格式电子书下载


大数据分析方法pdf/doc/txt格式电子书下载


获得应答实例:


大数据分析方法pdf/doc/txt格式电子书下载


以输入流的形式读取网页内容:


大数据分析方法pdf/doc/txt格式电子书下载


如果读取内容不为空,将内

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示