停止索引Craigslist;Matt Cutts修正2013年3月18日上午8点27分| (3)由Barry Schwartz |在谷歌搜索引擎优化Prev故事下一个故事推特分享 Prev故事下一个故事
一个HackerNews线程突出了Tempest Nathan的博客帖子,他说谷歌停止索引Craigslist。这是真的,谷歌确实停止了对Craigslist的索引。但是为什么呢?
Craigslist发送了垃圾邮件谷歌吗?他们违反了谷歌的网站管理员指南吗?他们是否在页面中添加了noindex指令?没有。这一切。这是一个技术上的怪癖。
,谷歌搜索垃圾邮件的主管Matt Cutts,在HackerNews上解释说,他们正在解决谷歌端的问题,但这是技术上发生的事情:
为了理解发生了什么,你需要知道“Expires”HTTP头和谷歌的“unavailable_after”机器人排除协议扩展。正如你在http://googleblog.blogspot.com/2007/07/robots-exclusion-protocol-now-with-even.html上看到的,谷歌的“unavailable_after”让网站说“日期X之后,从谷歌的主要网页搜索结果中删除此页面。”相反,“Expires”HTTP报头与缓存相关,并给出页面被认为过期的日期。
几年前,用户抱怨谷歌从Craigslist返回的页面已经失效或提供的服务很久以前就过期了。同时,Craigslist使用“Expires”HTTP报头,就好像它是“unavailable_after”一样——也就是说,Expires报头描述的是Craigslist上的列表何时过时,不应该显示给用户。最后,我们为那些似乎使用Expires头(而不是“unavailable_after”)的网站编写了一个算法,试图在内容失效、不应该再显示时列出它们。
您可能能够看到它的走向。不久之前,Craigslist改变了他们生成“Expires”HTTP报头的方式。看起来他们转向了对缓存过期的传统解释,而我们的索引系统没有注意到。我们正在解决这个问题,我希望很快就能解决。索引团队已经纠正了这个问题,所以现在只需要在接下来的几天里重新抓取Craigslist。因此,我们试图多做一些努力,以帮助用户不看到失效的页面,但当Craigslist改变了他们使用“Expires”HTTP头的方式时,这导致了一个问题。听起来你更喜欢谷歌的自定义搜索API而不是必应的,所以如果你想,切换回谷歌应该是安全的。再次感谢你指出这一点。
有趣的…
论坛讨论在HackerNews。