可以说PageRank成就了Google,与之类似的算法体系也成就了全球最出色的几个搜索引擎。但是任何事物都会有其生命周期,PageRank也不例外。而且作为搜索巨头的谷歌,它自己也在不断反思研究,也许未来PageRank依然存在,但其实内涵将彻底变化。
不是我危言耸听,说“PageRank过时”或者“不科学”,早就有相关的言论和分析了。具体大家可以参考一下题为“PageRank行将过时搜索引擎遭遇范式转移”的文章,其中从技术的角度阐述了PageRank的种种局限。
在过去10多年,可以说PageRank成就了Google,与之类似的算法体系也成就了全球最出色的几个搜索引擎。但是任何事物都会有其生命周期,PageRank也不例外。而且作为搜索巨头的谷歌,它自己也在不断反思研究,也许未来PageRank依然存在,但其实内涵将彻底变化。
为什么PageRank将越来越过时?
我们来看一下,PageRank算法的基本规则是:某个网页被链接得越多,则该网页的等级和重要性越大,从而在相关性排序中也就越靠前。当然,传统搜索还有很多排序规则来辅助PageRank,让其精准性得到进一步提高。
我曾请教过搜狗的CEO王小川,他提到,为什么Google要做Chrome?抛开云计算、操作系统等战略考虑,其中一个很重要的原因在于,利用浏览器可以分析用户对网站的访问行为,从而对PageRank规则形成补充。因为PageRank只管网页链接的情况,却不关心用户的真正点击行为。
这个小例子可以证明PageRank的过时,或者说起码它不完善。但这并不是PageRank的致命伤,它的真正问题在于——它只考虑了网站自身的权重,而不关心关键词提交者的意图和所处的状况。
我举个简单的例子:同样检索“非诚勿扰”,PageRank会根据自己的算法给出网页权威度的一个排序结果。但实际上网友的需求可能是检索“费城(非诚)勿扰”相亲节目,也可能是电影。可能有人要说,这应该是语义分析应该做的事,PageRank只是根据链接关系进行排序,但两者很难彻底割裂看来,更合适是的是根据不同主题给出不同的重要度排序,现在也有这方面的改进和尝试。随着人类对信息获取需求的提高,搜索会越来越聪明,需要考虑更多越来越多的因素。
情境搜索的兴起
最近Google第一次提到了“情境”这个词,具体技术是“情境发现”(contextual discovery),据说2011年会有应用上线。 “情境发现”从本质上,就是在搜索中,加入更多“人”的因素——用户的浏览习惯、所处的地理位置等,搜索方式也会有新的变革,比如主动推送。显然,Google已意识到这个问题。
Facebook兴起后,被视为Google的颠覆者。颠覆Google,不是因为Facebook流量已实现超越,而是Facebook对人的了解将远远超过Google。这对Google未来的搜索战略是极大的障碍。所以Google十分重视社交网络,在我看来,这并非Google觊觎社交网站,而更多是出于一种自卫。
而中国的Facebook腾讯从2009年就提出了“情境搜索”概念,和Google的“情境发现”颇有异曲同工之妙。到目前,基于这一概念的应用已经上线了一些应用,比如针对QQ表情的“表情搜索”,再比如你在和好友聊“非诚勿扰2”,触发搜索后即是电影介绍、预告片、影评、播放影院等,甚至还将包括在线预订、购买等后续服务。
这显然和PageRank体系的核心有很大区别。决定搜索结果及排序的规则,多出了很多维度,比如上下文关联、浏览习惯、搜索者所处