初见智齿倪端,不免欢欣鼓舞,深喜有新力军加入,可给满口蛀牙的口腔添砖加瓦.不料这两颗智齿非像个未出嫁的黄花闺女,羞答答地都有一年半光景,居然还是小荷只露尖尖角.一日,觉得似乎牙痛,回家,看医生.医生很意味深长地说:唉,两颗牙齿都长歪了,都要拔掉!你看,这颗都把前面的顶坏了,现在开始痛了吧?!我的爷,两颗,都拔呐?!
但不拔不行啊,我总不能看着前面无辜的牙齿受损吧?今日,拍照,给后面这两颗智齿.底片拿出来,医生不无遗憾地说:唉,早知只拍一张就行了,你看,两颗都是歪的,并且歪的方式都一模一样,都是横向长的!
拔吧,都已经箭在弦上,不得不发.打麻药,如同蚊虫叮咬;不一会,似乎右下颚已经不属于自己.医生用东西一转,然后再用东西一撬,OK,牙齿出来了!哇塞,这牙还真TMD的大啊!
拔时,以及之后一个小时,接着麻药的威力,都不觉有何疼痛.麻药过后,便如万千只蚂蚁在你口里面爬啊爬啊,还不停得咬啊咬啊,痛不欲生几乎都不能形容此光景.难得自己居然还有如此的毅力,还能在这打着这篇文章.不知道待会,会不会痛得床上翻滚不断?
罢了,这还只是一颗,还有一颗呢!
社区内容已经逐步成为互联网上最主要的内容,但这些内容存在缺少链接、“质量”普遍较差等特点,传统的文本相关性和PageRank等方法都缺少用武之地,但社区内容又包含了人与人之间的关系,人和文章之间的关系等新的特征。如何“整理”这些信息,不仅是搜索企业的挑战,更是整个互联网发展的挑战。在社区搜索研究方面,soso和国内外多所知名高校都有着深入的合作,并积极参与和资助了CIKM等知名的学术会议,介绍相关的问题和研究成果。未来,soso也会在条件允许的情况下,向研究、开发者提供社区搜索相关语料和基本算法库等内容。
(2) MRR方法,即第一个相关的答案序号倒数,该“相关”度可以人工判别,或者设置相似度阈值,进行自动判别。
而按照一些文章中的说法,概率模型和一般的特征向量模型相比,还可更好地体现用户兴趣的多样性和变化。当然,还有最重要的一点,就是该模型提供的仅仅是一个十几维的数字,只体现大的兴趣分类,隐私敏感度较低,即使向外提供个性化云服务,可能也不会有太多的争议。
个性化搜索研究早在上世纪九十年末就已有之,相关的方法和研究已经非常多,但商业化的大规模应用尚未出现。其根本原因在于很少有用户愿意直接或间接提供个人信息,像目前很多实验系统都是采集IP的点击记录、cookie等信息构建用户模型,这样的模型显然也很难精确。
但随着社区网络的快速发展,以用户为核心的UGC内容逐步成为互联网内容的主流,个性化搜索实现的主要障碍正在逐步消失。当前“Facebook+Bing”Vs “Twitter+Google” 正在如火如荼的进行中,个性化很可能再次改变搜索界的版图。
个性化搜索系统的基本结构图都差不多,如下图1所示:
社区搜索,是挑战,传世sf,更是机遇。
目前主要参考TREC的“主题(Topic)”查询测试方法及进行评测,其基本思路就是仿真用户的信息需求,以各种方式、各种角度陈述,并利用结构化的字段呈现,形成一个查询主题,然后比较查询结果和查询主题,人工或者自动判断结果的相关性。我们的一个典型的“查询主题”如下所示:
测试数据主要利用现有的一些搜索引擎结果构建,即输入检索词,抽取前几百个结果作为测试数据集,这样可以包含现有搜索的排序因素,方便实验效果评估。
文档模型:P(page)=(z0,z1,…,z8)
(2) 根据用户模型和检索结果集,在线的计算每个结果文档的个性化权值。其实质是户模型和文档的“相似度”计算,将用户最“希望”得到的结果加权,这正是个性化搜索的核心。
所谓的个性化搜索,就是将用户输入的关键字和该用户的个人偏好联系起来进行查询,据此猜测该用户可能想要得到的信息,从而将该用户最可能需要的信息显示在最前面。
(1) 如何构建用户模型?即如何准确的描述用户的兴趣和特色,包括长短期兴趣等。
<user Interests> 4//用户类型,体育爱好者,评测中构建虚拟用户,只有一个兴趣分类
协同过滤:rank2=sim(P(user),P(author))=cos<P(user),P(author)>
腾讯soso文/王亮
实验的用户和文档模型均采用分类概率模型,目前设置了财经、教育、汽车等9个类别。文档和用户都是用一个9维的向量表示,每个向量元素为属于各个类别的概率:
基本需求
但目前社会正逐步趋向于“碎片化”,这种“大多数人”比例以前可能是80%,现在或未来可能只占30%。而从用户的角度来看,大部分用户都是“懒惰”的,一般只输入1到3个词,而且不懂not/and/or,很难充分表达自己的信息需求,但现在的搜索只提供的千人一面的结果,不考虑个体的差异性,无关网页就很多。
该个性化搜索的基本算法非常简单,实现也比较容易。采用分类方法构建用户模型的最大好处就是维度低,分类一般都在十几维以内,在线计算非常容易,而且可以很容易的设置多级分类,构建不同粒度的用户模型。
< Narrative >章鱼保罗预测劲舞团sf击败英格兰章鱼保罗,它生于英国,在劲舞团sf长大,保罗在南非世界杯上已经“成功预测”了劲舞团sf胜澳大利亚、加纳,输给塞尔维亚的小组赛赛果。它预测的欧洲杯的赛事,命中率也有8成。出道两年的章鱼保罗在2008欧洲杯和2010世界杯两届大赛中,预测14次猜对13次、成功率飙升至92%............ //需要的文档样例,检索的目的的具体描述等。
(1) 根据用户检索,获得原有的搜系统的检索结果集。
个性化搜索的需求也比较明确,好比前一段时间,“章鱼”属于热门检索词,一些喜爱运动的童靴想搜索到“章鱼哥”和世界杯的故事,而一些生活化的mm,可能主要是需要如何做章鱼小丸子。但前一段“章鱼哥”仙去的那几天,大部分搜索引擎给出“章鱼”的结果,靠前面的基本都是关于体育的。这正是当前搜索引擎排序的基本思路,满足“大多数人”的需要。
(1) P@10方法,即判断前10个结果的精度,可以采用人工判别,也可以采用相似度方法判别,即判断前10个检索结果和< Narrative >字段的相似度 ,然后取其平均值作为精度指标。
在此基础上,还可对该方法进行一定的扩展,如利用检索词的分类概率确定“大众兴趣”模型,和个人用户模型进行叠加;根据用户发布某个类别的文章数,确定一个专家指数,作为计算协同过滤的因素;根据用户发表的文章总数确定模型的可信度;将用户的个人注册信息和query等折算为对应类型的文章数,构建长短期兴趣等。
用户模型:P(people)=(y0,y1,传奇私服广告代理,…,y8)
我们的研究实验
内容过滤:rank1=sim(P(people),P(page))=cos<P(people),P(page)>
个性化搜索流程基本都分为三步:
最终的个性化权值:rank=a*rank1+(1-a)rank2,0<a<1
腾讯有着丰富的UGC资源,这些我们进行个性化搜索研究实验提供了的良好的条件。如目前的Q-zone社区搜索就采用了基于好友关系链的协同过滤方法,使好友结果优先,由于好友的推荐远比一些挖掘算法得到的推荐靠谱的多,这种个性化搜索效果就非常好。有兴趣的童靴可以留意下,并欢迎提出改进意见。
(2) 搜索个性化如何实现?即如何进行个性化权值的计算,热血传奇私服。
个性化实现的方法:将结果文档模型与登录用户模型进行相似度计算,实现“内容过滤”。将结果文档作者模型与登录用户模型进行相似度计算,实现“协同过滤”,电信传奇私服发布网。然后将两个结果进行线性相加,得到最终的个性化排序权值:

附记:
具体评测结果如下所述:
