当前位置:
首页 > 互联网+ > 人工智能 > 云模型与文本挖掘pdf/doc/txt格式电子书下载

云模型与文本挖掘pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

云模型与文本挖掘pdf/doc/txt格式电子书下载

书名:云模型与文本挖掘pdf/doc/txt格式电子书下载

推荐语:

作者:代劲,宋娟,胡峰,伍建全

出版社:人民邮电出版社

出版时间:2013-02-01

书籍编号:30404286

ISBN:9787115300324

正文语种:中文

字数:143623

版次:1

所属分类:互联网+-人工智能

全书内容:

云模型与文本挖掘pdf/doc/txt格式电子书下载






前言


文本挖掘(Text Mining)是以文本信息作为挖掘对象,从中寻找信息的结构、模型、模式等隐含的、具有潜在价值知识的过程。文本挖掘在信息检索、模式识别、自然语言处理等多个领域均有所涉及。由于文本是信息存储的最主要途径,因此文本挖掘的重要性也日益凸显。


在目前文本挖掘的研究中,传统的数据挖掘方法依然占据着主导地位。然而随着文本挖掘技术研究的进一步深入,将传统的数据挖掘方法应用于文本挖掘面临着越来越严峻的挑战。例如,文本对象的高维稀疏性、算法复杂度过高及需要先验知识等问题,已经严重阻碍了文本挖掘技术的推广应用。


文本挖掘面临的这些难题归根到底都是由于自然语言的不确定性造成的。自然语言中(尤其是文本语言)的不确定性,本质上来源于人脑思维的不确定性。这种不确定性使得人们具有更为丰富的理解空间与更为深入的认知能力,然而随之而来也形成了文本挖掘的众多难题。因此,若能从降低自然语言的复杂性入手,在充分利用现有技术的基础上勇于创新,探索出适用于文本挖掘的不确定性人工智能处理方法,将会大大促进文本挖掘技术的快速发展。


借助不确定性知识研究的重要工具——云模型在定性概念与定量数据间的转换作用,作者将云理论引入文本挖掘关键问题研究当中,以期抛砖引玉,为文本挖掘技术的进一步发展提供一种新的思路与解决方法。从文本挖掘本身研究的领域来说,包含范围较广、涉及领域较多。作者从文本挖掘中的基础性的、关键性问题入手,力求以点带面,为不确定性知识获取技术在文本挖掘中的推广应用做好基础性的研究工作。主要涉及以下几方面。


(1)云模型在文本挖掘中的理论扩充


对文本知识表示以及相应模型的物理空间转换方法、文本概念的相似性度量进行了研究,为云模型的引入打好理论基础。包含以下3个方面内容。


① 基于向量空间模型(Vector Space Model,VSM)的文本信息表。将知识表示中信息表的概念引入文本表示,在VSM模型基础上将文本系统用文本信息表来进行知识表示。


② 基于云模型的文本信息表转换。文本间的不确定性关系可以通过云模型进行概念表示,但前提是各属性的取值须处于相同的论域内,也就是说文本在不同属性上的值都必须具有同一物理含义。未处理的文本信息表属性含义不统一并且取值也差异较大。因此,在利用云模型进行数据挖掘前,必须将文本信息表进行转换。在概率统计方法的基础上,本文提出一种新的文本信息表转换方法。通过该方法,文本信息表由不同属性空间转换到同一物理空间中,体现了属性取值的概率分布。


③ 基于云相似度的文本云相似度量。目前文本挖掘中一般使用余弦相似度来衡量文档之间的相关性,但目前无论哪一种相似度度量方法均是以基于对象属性之间的严格匹配进行计算的,而对文本对象的整体性考虑不足。结合文本挖掘中文本对象的整体性质与个体特点,本文提出了基于云向量数字特征的云相似度。用云向量的数字特征来对文本进行整体刻画,文本间的相似即可转换为云向量之间的相似进行度量。此相似度不仅能快速提高文本挖掘性能,找出文本对象间的共性特点,而且能充分考虑到属性值的随机性与模糊性。


(2)云模型与粒计算


粒计算最本质的思想,是通过合适粒度的选择来寻找问题的一种较好的、近似的解决方案,从而降低问题求解的复杂度。从粒计算角度研究云模型中的概念粒化方法具有较强的普遍意义,可以广泛应用于数值离散化、特征提取、数据约简等领域。本文将动态聚类的思想引入云模型的概念提取中,在此基础上构建的快速信息粒化算法能根据数据分布特点,自动进行信息粒提取,对粒计算的进一步推广研究具有普遍意义。


(3)基于云模型的文本特征自动提取算法


特征选择是文本特征降维的一种有效方法。现有选择尺度的确定均通过试验验证得到,即基于经验的方法。在综合考虑文本特征整体与局部分布基础上,提出了一种高性能的文本特征自动提取算法。算法应用云隶属度对特征分布进行修正,在不需任何先验知识的条件下通过云隶属度大小来对特征权值进行刻画并完成特征的选择,充分体现了特征的概率分布特点。通过横向实验对比与结果分析,显示出该特征集不仅特征个数较少,而且分类精度较高,在性能上领先于主要的一些特征选择方法。


(4)基于云概念跃升的文本分类算法


云模型对定性知识表示、定性定量知识转换具有较好的处理能力。在此基础上,利用云模型中的概念抽取方法来进行文本分类应用。在将文本集转换为基于VSM模型的文本知识表的基础上,对训练集中相同类别文档的定性概念进行跃升。根据测试文本与各类别定性概念之间云相似度的大小决定测试文本所属类别。通过在不同特征提取方法下与不同分类器的性能对比,证明该算法不仅具有较强的特征适应能力,在分类性能上也优于主流的分类器。


(5)基于主观信任云的文本分类算法


主观信任关系相对于授权关系来说,是一种更为普遍的辅助决策工具。结合主观信任云基本理论模型,根据测试文本与各类别定性概念之间主观信任相似度的大小决定测试文本所属类别,能够有效地对主体信任决策进行辅助支持。


用云模型进行主观信任建模开辟了一个信任管理中的新方法,兼顾了主观信任的不确定性和模糊性,并在信任的定性表示和定量表示之间架起了一座桥梁。基于云模型的主观信任推理灵活直观,很好地体现了人类的思维特征和习惯。这一领域仍有很多亟待研究的课题,比如:如何提高模型的实用性和可操作性;如何实现其他信任推理模式;如何在具体的环境中根据实体的交互构建合适的信任云;如何利用信任云进行信任决策等。


(6)基于云相似度量的快速无监督文本聚类


针对目前文本聚类算法存在的问题,提出了一种基于云相似度量的快速无监督文本聚类算法。该算法以特征自动提取算法为基础,在k-means动态聚类算法上,用逐级逼近的策略来获取最优k值。k值获取的过程也就是自动聚类的过程。在此过程中,提取每一个文本的云模型数字特征,然后采用云相似度来计算文本和文本间的相似程度。该算法不仅避免了文本对象的高维稀疏性,而且保留了k-means均值算法的高效。同时,逐级逼近的策略也解决了聚类簇数需先验知识的缺点,得出的聚类结果更符合文本分布特点。


本书在写作过程中,得到了重庆大学计算机学院自然语言研究课题组的大力协助,正是在这样协作进取的氛围当中,才有了研究的激情与创作的灵感。


衷心感谢人民邮电出版社为本书出版给予的帮助,是大家的共同努力才使得本书能够最终出版,与读者见面。


本书的写作完成和出版得到了重庆邮电大学博士启动基金项目、出版基金的资助,在此一并表示诚挚的谢意。


由于作者水平有限,而且部分内容还是课题组所取得的阶段性研究成果,不妥、错误之处在所难免,希望能够得到读者的批评指正。


代劲


2012年9月于重庆

第1章 绪论


文字是人类文明发展延续的重要产物,记录着人类社会的点滴进步,闪耀着数千年人类智慧之光,是信息的主要载体与知识传播的主要手段之一。文本(Text)是书面语言的文字表现形式,从文学的角度说,通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。


随着信息技术的快速发展创新,文本的内涵和外延都得到极大的充实,随之而来创建文本、传播文本信息变得十分简单。当前意义上的文本,既包含了纸质的文字信息,也包括了互联网上海量的电子资源。

1.1 文本挖掘的产生背景


随着以互联网为核心的信息高速公路的不断发展与广泛普及,信息技术已经渗透到社会生活中的各个层面,并以前所未有的速度改变着人们的思维、生活及工作方式。网络已经成为拥有海量存储的分布式信息空间,信息量以每4~6个月翻一番的速度不断累积。如何在互联网上,从海量异质的信息资源中快速高效地发掘出蕴含其中的具有巨大潜在价值的知识与信息,并且进行合理分类、准确定位,同时筛选掉其中无用或不相关的内容,已经成为知识获取的首要问题。


随着互联网的广泛推广与深入应用,文本正以指数级数量不断翻番。《第25次中国互联网络发展状况统计报告》[1](中国互联网络信息中心(CNNIC),2010年1月)就明确地统计出中国目前的网页总数已达336亿个,其年增长率超过100%。报告中指出,文本信息依然是互联网资源的主要组成部分,比例达到87.8%。其他一些资源,例如图像、音频与视频所占比例增长较小。根据该报告我们可以看出,虽然互联网上的各种信息资源形式多样且结构复杂,但最重要的信息资源依然是文本。而且,其他形式的信息资源在经过标注技术处理后,均可顺利转换成文本方式。


文本信息的快速增长也使得信息处理技术面临着前所未有的挑战,主要包含以下几个方面的问题:首先,互联网的快速发展,使得文本的不断转载情况变得更为严重,网络上的信息资源存在着大量的重复情况;另外,由于信息资源的结构复杂,冗余严重,目前的信息检索技术还不能有效地搜索到所需信息;最后,网络上的信息资源还面临着严重的信息污染问题,各种垃圾邮件、有害信息还未得到有效的遏制。


这些问题造成信息过剩但知识相对匮乏的现象。与此同时,人们日益增长的各种信息需求已经使得基于传统人工处理的信息抽取、标注、分类、信息过滤及查询越来越不能满足网络化需要。在此基础上,如何利用计算机自动对海量的文本信息进行处理,挖掘出其中有价值的信息,完成海量信息的知识获取过程已经成为一个亟待解决的重大研究课题。文本挖掘技术就是基于这样的背景应运而生并不断发展创新的[2-4]

1.2 文本挖掘的重要意义


文本挖掘是数据挖掘的一个分支,是以文本作为挖掘对象,从中寻找信息的结构、模型、模式等隐含的具有潜在价值的知识的过程。文本挖掘在信息检索、模式识别、自然语言处理等多个领域均有所涉及。由于文本是信息存储的最主要途径,因此文本挖掘的重要性也日益凸显。


文本挖掘的主要意义在于以下几个方面。


1.2.1 推进信息化建设


劳动工具的改善是人类社会进步开始的标志,随之而来才伴随着生产效率的提高、劳动者的解放。信息文明就是要通过不断发展的IT技术,将人们从繁琐的数据采集、统计中解放出来,实现生产和服务运营的智能化。从某种程度来说,这也是对劳动者智力的一次解放。简单来讲,信息化建设的主要核心就是生产和服务流程的自动化、处理方法的智能化。而实现自动化、智能化的主要途径就是通过对信息的深入分析和挖掘,从中发现知识和规则,从而形成对现象及事件运行状态和变化的准确判断。


1.2.2 提高信息利用效率


由于文本数据的表示、存储及输出多样,若不能对其进行有效的转换、分类等操作,其中的丰富信息将不能充分使用。Web文本搜索引擎技术发展的成功经验表明,文本挖掘不仅能提升Web向用户(或终端)信息输出的准确性和效率,还可以大大增强用户对Web的信任度。文本挖掘不仅是一项具有较大实用价值的技术,也是组织和管理文本信息的有力手段。通过文本挖掘,可找出隐含在文本信息中的模式,发现可能忽略的预测信息等。而对企业来讲,文本挖掘就是一种决策支持过程,在人工智能、机器学习、统计学等技术基础上,自动分析处理原有的数据信息,最终获得归纳性的推理、找出潜在的模式并准确预测用户行为。这不仅能帮助决策者调整策略措施,也在一定程度上减少风险,有利于用户做出正确的决策。这也就是文本挖掘的核心问题。


1.2.3 提高人工智能水平


人工智能(Artificial Intelligence,AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能涉及计算机科学、心理学、哲学和语言学等学科,可以说几乎涉及自然科学和社会科学的所有学科,其范围已远远超出了计算机科学的范畴。人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展。


计算机是研究人工智能的主要技术基础,人工智能的发展历史是和计算机科学技术的发展紧密相关的。除

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示