首先,BingBot 正在以高出约 80% 的速度抓取网站。为什么?其次,“其他”机器人约占爬网的一半。我们是否错过?至于后者,我们一眼就能看出,“其他”会计大部分是罗杰·博特——我们将他排除在外。 接下来我们看一下我们最关心的引擎的服务端代码。
我强调了我们想要仔细研究的领域
总体而言,好与坏的比例看起来很健康,但由于我们生活在“一点一滴都有帮助”的口头禅,让我们试着弄清楚到底发生了什么。 1. 为什么 Bing 抓取网站的速度比 Google 快 2 倍?我们应该调查一下 Bing 的抓取是否效率低下,以及我们是否可以 欧洲手机号码列表 采取任何措施来帮助他们,或者 Google 的抓取深度是否不如 Bing,以及我们是否可以采取任何措施来鼓励更深层次的抓取。
隔离成功提供给 BingBot 的页面
(200 个)可以立即发现潜在的罪魁祸首。 BingBot 成功抓取的 100,000 个页面中约有 60,000 个是来自评论链接的用户登录重定向。 问题:SEOmoz 的构建方式是,如果请求评论链接且未启用 JavaScript,它将提供到错误页面的重定向(由服务器呈现为 200)。
由于 抓取都浪费在此类
死胡同中,因此 SEOmoz 阻止引擎抓取非常 这是我跟人人都是产品经理 重要。 解决方案:在所有评论中添加rel=’nofollow’并回复评论链接。一般来说,告诉引擎不要抓取某些内容的理想方法是 robots.txt 文件中的指令。
不幸的是这在这种情况下不
起作用,因为 URL 是在单击后由 JavaScript 呈现的。 GoogleBot 在评论链接方面比 Bing 做得更好,并且完全避免使用它们。然而,谷歌成功地 消費者數據 抓取了一些登录重定向的链接。快速查看 robots.txt,您会发现该目录可能应该被阻止。
数量是可以接受的
但审查是否有更好的方法来处理某些边缘情况也没有坏处。大多数情况下,SEOmoz 使用 302 来处理低效的博客类别架构,将用户重定向到博客主页面。它们还用于私人消息页面/消息,并且 robots.txt 指令应该完全排除这些页面被抓取。
您可以从服务器日志中获
取的一些最有价值的数据是解析为 404 的正在爬网的链接。 SEOmoz 在处理这些陷阱方面做得很好,并且没有出现令人担忧的 404 错误。识别潜在问题的快速方法是按目录隔离 404。这可以通过运行一个以“目录”作为行标签并在值字段中计算“目录”的数据透视表来完成。