《大数据与推荐系统(大数据与推荐系统研究).docx》由会员分享,可在线阅读,更多相关《大数据与推荐系统(大数据与推荐系统研究).docx(13页珍藏版)》请在第壹文秘上搜索。
1、大数据与推荐系统摘要:随着大数据时代的来临,网络中的信息量呈现指数式增长,随之带来了信息过载问题。推荐系统是解决信息过载最有效的方式之一,大数据推荐系统已经逐渐成为信息领域的研究热点。介绍了推荐系统的产生及其在大数据时代的发展现状、推荐系统的领域需求和系统架构、大数据环境下推荐系统的挑战及其关键技术、开源的大数据推荐软件、大数据推荐系统研究面临的问题,最后探讨了大数据推荐系统的未来发展趋势。关键词:大数据;推荐系统;协同过滤Abstract:Inbigdataera,recommendationsystemisthekeymeanstotackletheissueofuinformationo
2、verload”.Recommendationsystemhasbeenwidelyappliedtomanydomains.Themosttypicalandpromisingdomainisthee-commence.Recently,withtherapiddevelopmentofe-commence,recommendationsystembecomesmoreandmoreimportantandispromotedasahotresearchfield.Thehistoryanddevelopmentofrecommendationsystem,itsdomainrequirem
3、entsandsystemarchitecture,itscharacteristicsandchallengesunderbigdataenvironment,itskeytechniques,opensourcebigdatarecommendationsystemswereintroduced.Andatlast,theopenresearchproblemsandfuturetrendsofbiddatarecommendationsystemwerediscussed.Keywords:bigdata,recommendationsystem,collaborativefilteri
4、ng1推荐系统与网络大数据随着科技与信息技术的迅猛发展,社会进入了一个全新的高度信息化的时代,互联网无处不在,影响了人类生活的方方面面,并彻底改变了人们的生活方式。尤其是进入Web2.0时代以来,随着社会化网络媒体的异军突起,互联网用户既是网络信息的消费者,也是网络内容的生产者,互联网中的信息量呈指数级增长。由于用户的辨别能力有限,在面对庞大且复杂的互联网信息时往往感到无从下手,使得在互联网中找寻有用信息的成本巨大,产生了所谓的“信息过载”问题。搜索引擎和推荐系统的产生为解决“信息过载”问题提供了非常重要的技术手段。对于搜索引擎来说,用户在搜索互联网中的信息时,需要在搜索引擎中输入“查询关键词
5、”,搜索引擎根据用户的输入,在系统后台进行信息匹配,将与用户查询相关的信息展示给用户。但是,如果用户无法想到准确描述自己需求的关键词,此时搜索引擎就无能为力了。和搜索引擎不同,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为来对用户的兴趣进行建模,从而主动给用户推荐可能满足他们兴趣和需求的信息。因此,搜索引擎和推荐系统对用户来说是两个互补的工具,前者是主动的,而后者是被动的。近几年,电子商务蓬勃发展,推荐系统在互联网中的优势地位也越来越明显。在国际方面,比较著名的电子商务网站有AmaZOn和eBay,其中AmaZon平台中采用的推荐算法被认为是非常成功的。在国内,比较大型的电子商务
6、平台网站有淘宝网(包括天猫商城)、京东商城、当当网、苏宁易购等。在这些电子商务平台中,网站提供的商品数量不计其数,网站中的用户规模也非常巨大。据不完全统计,天猫商城中的商品数量已经超过了4000万。在如此庞大的电商网站中,用户根据自己的购买意图输入关键字查询后,会得到很多相似的结果,用户在这些结果中也很难区分异同,用户也难于选择合适的物品。于是,推荐系统作为能够根据用户兴趣为用户推荐一些用户感兴趣的商品,从而为用户在购物的选择中提供建议的需求非常明显。目前比较成功的电子商务网站中,都不同程度地利用推荐系统在用户购物的同时,为用户推荐一些商品,从而提高网站的销售额。另一方面,智能手机的发展推动了
7、移动互联网的发展。在用户使用移动互联网的过程中,其所处的地理位置等信息可以非常准确地被获取。基于此,国内外出现了大量的基于用户位置信息的网站。国外比较著名的有Meetup和Flickro国内著名的有豆瓣网和大众点评网。例如,在大众点评这种基于位置服务的网站中,用户可以根据自己的当前位置搜索餐馆、酒店、影院、旅游景点等信息服务。同时,可以对当前位置下的各类信息进行点评,为自己在现实世界中的体验打分,分享自己的经验与感受。当用户使用这类基于位置的网站服务时,同样会遭遇“信息过载”问题。推荐系统可以根据用户的位置信息为用户推荐当前位置下用户感兴趣的内容,为用户提供符合其真正需要的内容,提升用户对网站
8、的满意度。随着社交网络的兴起,用户在互联网中的行为不再限于获取信息,更多的是与网络上的其他用户进行互动。国外著名的社交网络有Facebook.LinkedInTWitter等,国内的社交网络有新浪微博、人人网、腾讯微博等。在社交网站中,用户不再是单个的个体,而是与网络中的很多人具有了错综复杂的关系。社交网络中最重要的资源就是用户与用户之间的这种关系数据。在社交网络中,用户间的关系是不同的,建立关系的因素可能是现实世界中的亲人、同学、同事、朋友关系,也可能是网络中的虚拟朋友,比如都是有着共同爱好的社交网络成员。在社交网络中,用户与用户之间的联系反映了用户之间的信任关系,用户不单单是一个个体,用户
9、在社交网络中的行为或多或少地会受到这些用户关系的影响。因此,推荐系统在这类社交网站中的研究与应用,应该考虑用户社交关系的影响。2推荐系统的产生与发展“推荐系统”这个概念是1995年在美国人工智能协会(AAAl)上提出的。当时CMU大学的教授RobertArmstrong提出了这个概念,并推出了推荐系统的原型系统WebWatchero在同一个会议上,美国斯坦福大学的MarkoBalabanovic等人推出了个性化推荐系统LIRAlo随后推荐系统的研究工作开始慢慢壮大。1996年,YahoO网站推出了个性化入口MyYahoo,可以看作第一个正式商用的推荐系统。21世纪以来,推荐系统的研究与应用随着
10、电子商务的快速发展而异军突起,各大电子商务网站都部署了推荐系统,其中AmaZon网站的推荐系统比较著名。有报告称,Amazon网站中35%的营业额来自于自身的推荐系统。2006年,美国的DVD租赁公司Netflix在网上公开设立了一个推荐算法竞赛NetflixPrizeoNetfIiX公开了真实网站中的一部分数据,包含用户对电影的评分2。Netflix竞赛有效地推动了学术界和产业界对推荐算法的研究,期间提出了很多有效的算法。近几年,随着社会化网络的发展,推荐系统在工业界广泛应用并且取得了显著进步。比较著名的推荐系统应用有:AmaZon和淘宝网的电子商务推荐系统、Netflix和MovieLen
11、s的电影推荐系统、Youtube的视频推荐系统、豆瓣和Last.fm的音乐推荐系统、GoOgIe的新闻推荐系统以及Facebook和Twitter的好友推荐系统。推荐系统诞生后,学术界对其关注也越来越多。从1999年开始,美国计算机学会每年召开电子商务研讨会(ACMConferenceonElectronicCommerce,ACMEC),越来越多的与推荐系统相关的论文发表在ACMEC上。ACM信息检索专业组(ACMSpecialInterestGroupOfInformationRetrieval,ACMSIGIR)在2001年开始把推荐系统作为该会议的一个独立研究主题。同年召开的人工智能联
12、合大会(The17thInternationalJointConferenceonArtificialIntelligence)推荐系统作为一个单独的主题。最近的10年间,学术界对推荐系统越来越重视。目前为止,数据库、数据挖掘、人工智能、机器学习方面的重要国际会议(如SIGMOD.VLDB.ICDEKDDAAALS1GIRICDM、WWW、ICML等)都有大量与推荐系统相关的研究成果发表。同时,第一个以推荐系统命名的国际会议ACMRecommenderSystemsConference(ACMReCSyS)于2007年首次举办。在近几年的数据挖掘及知识发现国际会议(KDD)举办的KDDCUP竞
13、赛中,连续两年的竞赛主题都是推荐系统。在KDDCUP2011年的竞赛中,两个竞赛题目分别为“音乐评分预测”和“识别音乐是否被用户评分二在KDDeUP2012年的竞赛中,两个竞赛题目分别为“腾讯微博中的好友推荐”和“计算广告中的点击率预测二3推荐系统的领域需求和系统架构如上所述,推荐系统在很多领域得到了广泛的应用,如新闻推荐、微博推荐、图书推荐、电影推荐、产品推荐、音乐推荐、餐馆推荐、视频推荐等。不同领域的推荐系统具有不同的数据稀疏性,对推荐系统的可扩展性以及推荐结果的相关性、流行性、新鲜性、多样性和新颖性具有不同的需求。不同领域推荐系统的需求对比见表1。尽管需求不尽相同,一个完整的推荐系统通常
14、都包括数据建模、用户建模、推荐引擎和用户接口4个部分,如图1所示。数据建模模块负责对拟推荐的物品数据进行准备,将其表示成有利于分析的数据形式,确定要推荐给用户的候选物品,并对物品进行分类、聚类等预处理。用户建模模块负责对用户的行为信息进行分析,从而获得用户的潜在喜好。用户的行为信息包括问答、评分、购买、下载、浏览、收藏、停留时间等。推荐引擎模块利用后台的推荐算法,实时地从候选物品集合中筛选出用户感兴趣的物品,排序后以列表的形式向用户推荐。推荐引擎是推荐系统的核心部分,也是最耗系统资源和时间的部分。用户接口模块承担展示推荐结果、收集用户反馈等功能。用户接口除了应具有布局合理、界面美观、使用方便等
15、基本要求外,还应有助于用户主动提供反馈。主要有两种类型的接口:Web端(Web-based)和移动端(mobile-based)o受篇幅限制,仅对用户建模和推荐引擎这两个重要模块进行详细介绍。3J用户建模用户模型反映用户的兴趣偏好。用户兴趣的反馈可分为显性反馈和隐性反馈。显性反馈包含两种方式:用户定制和用户评分。用户定制是指用户对系统所列问题的回答,如年龄、性别、职业等。评分又分为两级评分和多级评分。例如,在YahOONeWS中采用两级评分:喜欢(morelikethis)和不喜欢(lesslikethis)o多级评分可以更详细地描述对某个产品的喜欢程度,如GroupLens中用户对新闻的喜好
16、程度可评价为15分。NeWSDUde支持用户的4级反馈:感兴趣、不感兴趣、已知道、想了解更多,然后进行归一化处理。很多时候用户不能够准确地提供个人偏好或者不愿意显性提供个人偏好,更不愿意经常维护个人的偏好。所以,隐性反馈往往能够正确地体现用户的偏好以及偏好的变化。常用的隐性反馈信息有:是否点击、停留时间、点击时间、点击地点、是否加入收藏、评论内容(可推测用户的心情)、用户的搜索内容、社交网络、流行趋势、点击顺序等。在协同过滤推荐方法中,常常把用户的隐性反馈转化为用户对产品的评分。例如,GoogIeNeWS中用户阅读过的新闻记为喜欢,评分为1;没有阅读过的评分为0。DailyLeamer系统中用户点击了新闻标题评分为08分,阅读完全文则评分上升到1分;若用户跳过了系统推荐的新闻,则从系统预测评分中减去0.2分作为最终评分。用户的兴趣可分为长期兴趣和短期兴趣。长期兴趣反映用户的真实兴趣;短期兴趣常与热点话题相关联且经常改变,从最近的历史行为中学习到的短期兴趣模型可快速反映用