创新中国-中国青年创新战略云服务平台(dufe)

“hilltop”论 - 探索google排名新算法(一)

编者按：2003的11月16号--这个日子可能会成为搜索引擎历史的一个重要里程碑。正是在这次被大家称为" google florida"的更新中，google对其排名算法进行了大规模改动，并导致很多原来排名很好的网站在一夜之间如梦魇般直落孙山。每个更新周期可能会对排名算法做一些小小的改动google一贯的做法，但这次如此大手笔的改动，不能不让网站管理员乃至整个搜索引擎优化行业都倍感震惊和始料不及。不但很多原来排名一直保持前矛的商业网站丢掉了排名，同时亦使得许多做网站排名优化的公司都受到了不小的冲击。但由于google几乎占据了搜索市场的大半江山，倘若此时弃而转用其它搜索引擎进行生意推广，并不见得为明智之举。

对于google新算法到底采用了什么新机制，仍然是seo界争论的焦点。目前有两种主要理论。一种是"专家系统"，即hilltop算法，也就是本文将要阐述的；另外一种则是以dan thiesw为首的 tspr(topic-sensitive-pagerank：主题性页面级别技术)理论，其大概思路为：查询发生时，google将对查询条件和circa数据库中包含的主题进行匹配，查询与主题的关系越密切，则主题性页面级别得分效果越佳。此外，由于一个给定的查询条件可能会与数据库中多个主题匹配，所以页面级别计算中出现的任何小错误都将由关联的一定数量的主题性页面级别得分平摊，因而近似的主题性页面级别得分即可提供高质量的搜索结果。详细论述可参看"tspr理论-如何应对google pagerank排名新算法"。我们相信，无论google采用什么新算法，其目的均旨在向用户提供更为精准的搜索结果。

hilltop (localscore) 算法

作者：atul gupta

google新算法的庐山真面目到底是什么？这仍然是个迷。而在google网站上，从其"对高质量内容网站进行奖励及对采用恶意技术的网站进行惩戒"内容中，亦无什么新内容可寻端倪。自然，作为搜索引擎，这种做法是完全可以理解的。搜索引擎的算法应该是保密的，因为它们对新算法的任何评论，同意或否定的言行都会泄露其新算法，而任何对排名系统的一丁点泄漏都有可能被一些人钻了空子，并用来恶意操纵搜索结果，从而破坏搜索结果的客观公正性。

我们根据一些比较具有可行性的推测，并结合实际研究、试验，以及对搜索引擎行为的发展趋势和历史的知识基础，得出了一些发现。首先，我们来看看对于google新算法的一些比较值得注目的发现：

1.google新算法种种之种种传言 & 猜测

对于google新算法主要有下面这样一些传言和猜测：

开始使用词典对号入座；

意图施压使商业站点使用adwords广告服务；

开始使用"基于贝叶斯定理的spam过滤系统" ；

开始处罚互惠链接，"优化"网页，或"链接文本" ；

众多猜测中，"google意图施压使商业站点使用adwords广告服务"显然占了上风。许多搜索引擎优化分析家都认为：google通过一个保密的过滤系统"黑名单"来对商业网站进行筛选，从而达到上述目的。对此观点我实在不敢苟同。解释如下…

1.1 是否若查询条件中包含"商业性关键词"时，google会对搜索结果进行筛选？

因为这次更新中损失最惨重的是一些商业网站，所以有很多搜索引擎优化专家都认为google开始对那些含有所谓"商业性关键词"的查询条件所产生的查询结果进行筛选。而从优化专家针对此所做的一些最初的测试结果来看，确实也表明了一些看起来似乎能够证实这种推测的征兆。

1.2 google此举动机何在？

如果这是真的，那么google为什么要这样做？这种推测的后盾在于google算法更新的时间正好在圣诞购物季节之前，并适逢其ipo上市之际。分析家认为：google这样做是为了向商业性站点施加压力，如果这些商业网站期盼在一年一度的美国传统的圣诞购物季节得到丰厚赢利的话，就得花钱做adwords自助广告。免费午餐看来是没有了。还有一些人则认为google此举旨在为其最终业绩(即基线)涂抹上一点光明的色彩来打动其未来投资者。

1.3 那么又是谁取代了商业站点原来的交椅？

从结果页上看，前20个结果好象都是一些官方站点(.gov)，教育类站点(.edu)，公益组织性站点(.org)，目录及非美国本土的站点。由于这些站点一般并不太需要做广告，所以分析家们据此相信：提升这些类型的网站不会影响到google的广告收入，同时还可以对商业性站点施压并迫使其加入google的adwords自助广告阵营中来。

1.4 google从何获得"商业性关键词"名单？

从google的adwords广告系统，google已然拥有一个大型的"商业性关键词"的数据库。有趣的是，等于是那些广告客户和商业性站点的所有者自己把哪些是"好的商业词语"告诉给google了-google通过广告者对关键词语的竞标价格的变化完全可以看出每个关键词语的"价值"来。

1.5 事实究竟如何？google是否确是在用"商业关键词"名单来过滤掉商业站点？

我个人认为：这种想法实在与事实太过相悖，而且我坚信：google并不象分析家们所认为的在"过滤"站点。而且我相信，google压根就没有什么"商业关键词"名单。一度流行的这种"过滤名单"理论是分析家们从自己所看到的迹象上得出的，而事实上这些所谓的迹象是由于其它原因所引发的，而并不是什么"过滤"所导致的。后面我会就此问题向大家详细解释和阐述。

不可否认，从实践中我们确实可以看到一些象"过滤"的结果，但我们有理由相信这样的结果实际上是google新算法的一种"副产品"，而非google本意。新算法意图对商业性网站而不是公益性网站施加影响。稍后我会向大家详细解释…

scroogle.org，这个由不喜欢google的群体所建立的网站，原来可以通过一种巧妙的方式从google上提取数据，并向用户提供一种可检查网站在google上的"未过滤"的往日排名结果的工具。不过由于google现已更新了算法以禁止此类查询，故scroogle.org现已无法提供这样的工具。不过，该网站仍显示有一个从其网站上多方搜索而收集到的所谓"filter hit"名单。我研究过这个名单。我觉得，它充其量也只能证明了google并未使用任何如上所说之名单。不然的确话，如何解释"california divorce attorney"位于名单之首而"books"或"adult"却屈居最下席？难道在google眼里，"california divorce attorney"比"books"或"adult"更有商业价值？

google任何从正常的排名机制中过滤掉把商业性站点的企图都是对google品牌，乃至对其公正的搜索结果信誉的严重损害。若真有这样的企图，那google真是太短视了，根本配不上它的品牌和它的服务。google的股票上市(ipo)和最终业绩都将因此而毁于一旦。此外，google也说过，其"搜索服务"和"adwords自助广告"服务分属两个不同的工作部门，且互不搭界、互不影响。对此我还是相信的。

2.google搜索技术的几个明显变化

2.1 google开始采用词干技术(stemming)

google确已在搜索结果中采用了词干技术。在早先，如果搜索一个单数查询条件如"home garden"，则搜索结果中不会出现如"home gardens"，"home gardening"这样的关键词变化形式，反之亦然。对于google的用户来说，这种特性可能是一件好事情，因为搜索提供的结果更多了，但站在搜索引擎优化的立场来看，由于搜索结果的骤然增加，对关键词的竞争亦骤然加剧。

2.2 google于搜索结果中使用了拼写纠错工具

google开始将其拼写检查工具用于搜索结果中。例如，当输入查询条件为"search engine optimisation"后，以往google只会提示你是否是要找"search engine optimization"，但显示的还是符合"optimisation"的搜索结果。不过现在则能看到"optimization"的搜索结果。再如："e-mail solution"和"email solution"的搜索结果一致，而"e-commerce"则与"ecommerce"的搜索结果是一致的，这样就增加了数据的竞争性。

3.对hilltop算法的分析和推测

3.1 为什么采用新算法

大多数网迷们都知道，页面等级算法是由google的创始人sergey brin和larry page所倡起的,用以精良网站在搜索结果中的排名。这也是自1998年google发布以来的取得种种骄人成绩的重要因素之一。

但页面等级系统亦存在着一个基本的缺陷，google也深知这一点。它根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的"重要性值"。同时亦将链接页面的页面等级考虑在内。指向一个网页的外部链接页的页面等级越高，则该链接页面传递给该网页的页面等级值也就越高。但是，"页面等级值"并非针对查询词语，因而一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语，也会因其居高的页面等级值而获得一个比较高的排名。

美国加州的克利须那。伯哈拉特(krishna bharat) 意识到基于页面等级的排名系统中所存在的这种瑕玼，并于2000年提出了一种新算法，他称其为"hilltop"算法，并于2001年的一月份申请了hilltop专利权，google成为受让方。不言而喻，google已然意识到这种新算法与其页面等级系统的整合将为google的排名系统带来良好的效果。

我深信，在google最近的更新中，不但运用了google自身的页面等级和相关性算法，而且还结合使用了hilltop算法用于精工调整页面等级的效果，只不过hilltop算法可能已迥异于它最初的模样了。

3.2 什么是hilltop算法？

对此算法有兴趣了解并想挖根究底的人可以看看克利须那。伯哈拉特当年所写的hilltop论文及详细的hilltop专利信息。但对我们大多数人来说，只要知道hilltop算法到底是个什么东东就可以了。简单地说，页面等级决定一个网页的"权威性"，而hilltop(localscore)则决定匹配一查询条件的一个网页的"权威性"。

bharat提出：在利用"页面等级"来寻找"权威"网页时，不应单纯依赖于值的大小来定夺，而应将重点放在它与查询主题的相关性上；即不但需要考虑网页的页面等级，还要考虑该网页的页面等级与查询主题的相关性是否相称。若一个网页只与查询主题只沾点边，那么即使其页面等级非常之高，对用户来说也是没有意义的。如此一来，于网页而言，那些来自于"相关主题"的文档的链接就更有意义了 (bharat称这种"相关主题"文档为"专家文档")，一个网页的所有外部"专家文档"链接构成了该网页的"权威性值"。hilltop算法的意义在于：相同主题网站之间的链接应比非相关网站的链接具有更高的价值。

hilltop算法以如下方式计算一个网页的"权威值"(这只是极为简单的一个例子)：

以该关键词进行一次普通查询找专家文档"文集"。"专家文档"的定义有严格标准，因该"文集"应是数量上易于管理的一组网页。

从返回的专家列表中把成员站点(见下注解*)和镜象站点去掉。

根据所获得的上述专家文档对其投票的数量和质量，网页被分配以一个“局部分数”(localscore)。然后按网页的“局部分数”进行排名。

*注解：成员站点指来自同一个域，或域相同而后缀不同的站点，如ibm.com，ibm.co.uk，ibm.co.jp等等，或指来自相邻的ip地址的站点 (前三位ip地址相同，形如64.129.220.xxx)