当前位置:
首页 > 互联网+ > 人工智能 > 机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载

机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载

书名:机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载

推荐语:

作者:王建芳著

出版社:清华大学出版社

出版时间:2018-11-01

书籍编号:30455096

ISBN:9787302507833

正文语种:中文

字数:201271

版次:1

所属分类:互联网+-人工智能

全书内容:

机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载






内容简介


个性化推荐能够根据用户的历史行为显式或者隐式地挖掘用户潜在的兴趣和需求,并为其推送个性化信息,因此受到研究者的追捧及工业界的青睐,其研究具有重大的学术价值及商业应用价值,已广泛应用于大型电子商务平台、社交平台、新闻客户端以及其他各类旅游和娱乐类网站中。


本书内容丰富,较全面地介绍了基于协同过滤的推荐系统存在的问题、解决方法和评估策略,主要内容涉及协同过滤推荐算法中的时序技术、矩阵分解技术和社交网络信任技术等知识。


本书可供从事推荐系统、人工智能、机器学习、模式识别和信息检索等领域的科研人员及研究生阅读、参考。

王建芳


男,博士,河南理工大学副教授,硕士研究生导师。研究方向包括推荐系统、深度学习、人工智能及智能计算算法。主持及参与国家、省部级项目共12项。申请国家发明专利3项、新型实用专利3项。在国内外重要期刊及国际会议上发表学术论文30余篇。出版教材及专著3部。有6项科研成果通过省部级鉴定,主持及参与省级教研教改项目2项,主持厅级项目2项,获得厅级二等奖及以上奖励3项,获得计算机软件著作权30余项。

前言
PREFACE


个性化推荐与信息检索技术的目标一致,也是一种帮助用户更快速地发现有用信息的工具,但与信息检索技术不同的是,个性化推荐能够根据用户的历史行为显式或者隐式地挖掘用户潜在的兴趣和需求,为其推送感兴趣并且个性化的信息,已越来越受到研究者的追捧及工业界的青睐,其研究具有重大的学术价值及商业应用价值。如今基于个性化推荐算法的推荐系统已广泛应用于大型电子商务平台(如天猫、京东和亚马逊等)、社交平台(如新浪微博、Facebook和Twitter等)、新闻客户端(今日头条、天天快报等)以及其他各类旅游和娱乐类网站(如携程网、电影音乐社区等)中,在提高用户满意度和忠诚度的同时也为自身带来了可观的经济效益。


协同过滤推荐算法是个性化推荐中运用最早和最成功的一种推荐技术,它的任务是利用用户与项目评分矩阵中的已知元素来预测未知元素的评分值并将预测评分高的项目推荐给用户。协同过滤的最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象(如音乐、图书、电影和资讯类新闻内容等,这类产品是难以进行机器自动内容分析的信息),避免了内容分析的不完全和不精确,而且能够根据用户的历史行为推荐个性化的信息。传统的基于邻域模型的推荐算法分为数据收集(输入)、获得最近邻集合(主要是计算相似度)和预测并推荐(输出)等步骤。目前协同过滤推荐算法还存在数据的高维稀疏性、冷启动和大数据环境下扩展性等制约其进一步发展的瓶颈问题,如何解决以上问题进而提高推荐系统的推荐质量成为个性化推荐的关键,近年来基于协同过滤的推荐算法及其相关改进模型得到了学者们的广泛关注和研究。


本书作者一直从事推荐系统理论及其应用的研究工作,提出了一系列改进推荐质量的方法,并成功应用于多种复杂的实际问题。作者的这些工作大大丰富了推荐系统理论,尤其是所关注的协同过滤推荐算法对其在其他领域的进一步研究与应用奠定了技术基础,具有重要的理论意义和实际应用价值。


本书由河南理工大学计算机科学与技术学院王建芳独立完成,是作者在本领域所发表学术论文的基础上进一步加工、深化而成的,是对已有研究成果的全面总结。全书共分5篇14章。第一篇包括第1章,讨论了推荐算法的分类、各类算法的基本思想和改进策略,阐述推荐算法存在的问题、实验方法和评测指标。第二篇包括第2章和第3章,主题是围绕基于时序的协同过滤推荐算法展开研究。在推荐系统中随着时间的推移,用户的关注点在不断变化,如何捕获这一动态的时间效应是个难题。本篇针对基于时序的协同过滤推荐算法展开研究。第三篇包括第4~11章,主题是围绕基于矩阵分解的协同过滤推荐算法展开研究。矩阵分解模型能够基于用户的行为对用户和项目进行自动分析,也就是把用户和项目划分到不同主题,这些主题可以理解为用户的兴趣和项目属性。本篇针对SVD、概率矩阵分解、非负矩阵分解及其与相关算法的整合分别提出相关的理论。第四篇包括第12章和第13章,主题是围绕协同过滤推荐算法与社交网络的信任展开研究,将用户的评分信息和用户的社交网络信息融入传统的矩阵分解中以提高推荐质量。第五篇包括第14章,从实际应用的角度用Spark实现一个基于矩阵分解的推荐原型系统。


在本书的撰写过程中,已毕业的硕士研究生张朋飞、李骁、武文琪以及在读研究生谷振鹏、刘冉东、苗艳玲等对书稿内容和相关实验提供了大量的帮助,在此向他们表示衷心的感谢。本书的出版得到河南省高等学校重点科研项目(项目编号:15A520074)和河南理工大学博士基金的支持,在此一并表示感谢。


推荐系统所涉及的算法,尤其是协同过滤推荐算法是一个快速发展、多学科交叉的新颖研究方法,其理论及应用均有大量的问题尚待进一步深入研究。由于作者知识水平和资料获取方面的限制,书中不妥之处在所难免,敬请同行专家和读者批评指正。


作 者


2018年5月

第一篇 基础理论


推荐系统的传统定义可以理解为“采集用户历史行为信息,结合具体推荐模型帮助用户选择商品或提供建议的过程”。现阶段完整的个性化推荐模型主要由数据收集及预处理、推荐算法和产生推荐三部分组成。


数据收集包括收集用户属性、项目属性和用户对项目的行为信息等。收集到的数据中,有些数据无法直接使用或推荐效果很差。为了后续更好地为用户提供推荐服务,需要提前对数据进行预处理——清理和减噪。


产生推荐是通过推荐算法计算得到目标用户的最近邻集合,将最近邻评价过的项目推荐给目标用户;利用模型对未知项目进行预测,将预测评分最高的项目推送给目标用户。


推荐算法作为个性化推荐系统中的核心,将收集并处理好的数据通过推荐算法为用户产生推荐。推荐算法的优劣与个性化推荐系统的推荐质量有着直接关系。

第1章 理论入门


1.1 引言


信息技术的迅猛发展使人类社会由信息匮乏时代进入信息过载时代,而信息过载为用户在选择最中意的产品时带来沉重的处理负担。以电子商务网站为例,用户往往囿于潜在需求而无法用关键字表达或者搜索关键字表达不准确,从而不得不从浩如烟海的信息海洋获取真正需求的信息。


针对上述问题,为满足用户和企业的共同需求,满足不同用户偏好的推荐系统应运而生。此外,社会经济的快速发展带来种类繁多的产品类型,使得用户的购买目的更多地体现出固有的个体特性,在满足物质需求的基础上,推荐系统根据用户的历史行为,例如点击、购买和收藏等去挖掘用户的偏好信息,进而进行个性化推荐。为增加用户的黏性,越来越多的网站和社区开始采用推荐系统为用户提供个性化的优质服务。同时,随着Web 3.0时代的到来以及“互联网+”理念的提出,人们越来越意识到推荐系统的重要性并纷纷投入其中。例如,亚马逊、eBay、天猫、京东等电子商务网站、Facebook、Twitter和新浪微博等社交媒体均纷纷在原有业务的基础上增加推荐功能。事实表明,推荐系统的融入显著提高了用户的满意度和对网站的黏性,进而为其自身带来了可观的经济效益和社会影响力。


不过,单纯地以用户和项目为驱动的推荐引擎并不能满足相关用户的实际需要,用户在实际购买之中往往会结合自己的实际需要以及相关朋友(本书称为社交网络信息)的推荐来做最终选择,同时传统推荐算法往往带有很严重的“马太效应”。也就是说,推荐的商品往往都是热门的商品,因此造成热门的商品更加热门,而处在“长尾分布”上的商品仍得不到重视。为此,将社交网络与个性化推荐相结合提高推荐的精确度是近年来的研究热点。


在海量数据的虚拟环境下,电影网站提供的节目信息非常多,例如按演员来说,每天都会更新该演员出演的电影,包括蓝光、高清、标清和流畅等,这样每天网站上的数据量都有成千上万太字节(1TB=1024GB),而仅仅通过一台微型计算机或手机屏幕,希望观众找到一个自己真正喜欢的电影是不可能的。因此,社区或网站提供了一些智能导购的需要。例如京东的JIMI,根据用户的兴趣推荐用户可能感兴趣的物品,用户可以很容易地找到他们所需要的或感兴趣但不容易得到的明确的项目。而且,从实际情况来看,用户的需求往往是对商品或事件的兴趣,但目前还不清楚什么商品可以满足其潜在需求。这时,如果商家基于用户的历史行为分析出其感兴趣的信息并将这些信息呈现到用户面前,就可以把用户的潜在需求转化为现实的需求,从而给用户带来惊喜。


1.2 推荐系统的形式化定义


目前推荐系统常采用的方法主要有基于内容的推荐、基于网格的推荐、基于上下文情景的推荐和协同过滤推荐。协同过滤(Collaborative Filtering, CF)推荐技术是推荐系统中最为常用且有效的方法,可分为基于内存的协同过滤和基于模型的协同过滤,前者根据用户或者项目的相似度选出与目标用户最相似的若干用户的评分来对未评分的项目进行评分预测;后者通过分析用户和项目的内部规律,预测用户对项目的偏好,其中概率矩阵分解技术是其典型代表。目前概率矩阵分解技术还存在数据的高维稀疏性和海量数据环境下的扩展性等制约其进一步发展的瓶颈问题。如何解决以上问题进而提高推荐系统的推荐质量成为个性化推荐的关键。


一个典型的电影推荐系统一般包括含有N个用户的用户集合U={u1u2u3,…,uN}和含有M个项目的项目集合I={i1i2i3,…,iM},每个用户uiU评价了I中的一部分项目,评价过的项目用IuiI表示,用户的打分记录往往表示成RNM,如式(1-1)所示。

机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载

式中,矩阵(1)中每一行ri——用户i评价过的电影集合,所有用户集合用U表示;


每一列rj——评价电影j的用户集合,所有电影集合用V表示;


每一个元素rij——用户i对电影j的评分,通常rij的取值为1~5的整数,数据越大表示用户对该项目越满意。


实际中RNM非常稀疏,例如Ciao数据集中已有的评分数目所占比例不足1%,因此传统推荐算法的质量才会特别差。


在现实世界中,以商品购买为例,用户的购买意图受两方面的影响,即用户本身的需要和用户朋友的推荐程度。如图1-1所示为基于社交网络的推荐机制示例,图1-1(a)是用户的信任网络图,该图是一个有向图,图中包含5个节点(用户数),9条边(用户信任关系数),每个节点代表一个用户,如果节点i到节点j存在边,则表示用户ui信任用户uj,对应的权重表示信任程度的大小。注意,用户间的信任关系是非对称的。例如,用户u1信任u2,但是u2u1并没有明显的信任关系,不过不能主观认为u2不信任u1,因为从图中可以看出u2信任u3u3信任u1,根据“六度空间”理论,u2u1也是具有一定的信任度的,若采用加法模型,则信任度为0.4;若采用乘法模型,则信任度为0.03。也就是说,信任关系是具有传递性的,同时传递算子的选择对信任度也有很大影响。


图1-1(b)是对应的用户项目评分矩阵,矩阵中已有的值表示用户对项目的评分,缺失部分是需要预测的。以看电影为例,假设用户u1想看电影i4,但是该用户对该电影一无所知,那么其就会求助于所信任的朋友u2u4u2对该电影的评分是3分,u4的评分是5分,那么该电影很可能会吸引到用户u1,也就是u1i4的评分也可能很高。值得注意的是,目标用户对不同用户的信任程度是不一样的。系统的目标就是利用评分矩阵和信任程度的大小精准有效地预测缺失评分并按照预测评分的高低进行推荐。

机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载

图1-1 基于社交网络的推荐机制示例

综上所述,推荐算法的形式化定义如式(1-2)所示。

机器学习算法实践:推荐系统的协同过滤理论及其应用pdf/doc/txt格式电子书下载

式中,P——用户集合;


Q——能够推荐给用户的物品集合;


u——一个用来计算用户p对物品q偏好程度的效用函数,计算过程可以表示为uP×QR,其中R为排序后的项目集合。


算法的目标是对于每个用户p都找到能够最大化效用函数u的物品子集Qq′pQ


1.3 基于近邻的协同过滤推荐算法


基于近邻的协同过滤推荐算法是一种非常流行的建立推荐系统的方式,仅仅通过收集相似用户的行为而不需要用户的人口统计学信息即可自动为目标用户进行推荐。由于简单易用,协同过滤在工业界得到了飞速发展,其推荐精度主要

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示