了寻找用户代理字段的内容

首先，BingBot 正在以高出约 80% 的速度抓取网站。为什么？其次，“其他”机器人约占爬网的一半。我们是否错过？至于后者，我们一眼就能看出，“其他”会计大部分是罗杰·博特——我们将他排除在外。接下来我们看一下我们最关心的引擎的服务端代码。

我强调了我们想要仔细研究的领域

总体而言，好与坏的比例看起来很健康，但由于我们生活在“一点一滴都有帮助”的口头禅，让我们试着弄清楚到底发生了什么。 1. 为什么 Bing 抓取网站的速度比 Google 快 2 倍？我们应该调查一下 Bing 的抓取是否效率低下，以及我们是否可以欧洲手机号码列表采取任何措施来帮助他们，或者 Google 的抓取深度是否不如 Bing，以及我们是否可以采取任何措施来鼓励更深层次的抓取。

隔离成功提供给 BingBot 的页面

（200 个）可以立即发现潜在的罪魁祸首。 BingBot 成功抓取的 100,000 个页面中约有 60,000 个是来自评论链接的用户登录重定向。问题：SEOmoz 的构建方式是，如果请求评论链接且未启用 JavaScript，它将提供到错误页面的重定向（由服务器呈现为 200）。

由于抓取都浪费在此类

死胡同中，因此 SEOmoz 阻止引擎抓取非常这是我跟人人都是产品经理重要。解决方案：在所有评论中添加rel=’nofollow’并回复评论链接。一般来说，告诉引擎不要抓取某些内容的理想方法是 robots.txt 文件中的指令。

不幸的是这在这种情况下不

起作用，因为 URL 是在单击后由 JavaScript 呈现的。 GoogleBot 在评论链接方面比 Bing 做得更好，并且完全避免使用它们。然而，谷歌成功地消費者數據抓取了一些登录重定向的链接。快速查看 robots.txt，您会发现该目录可能应该被阻止。

数量是可以接受的

但审查是否有更好的方法来处理某些边缘情况也没有坏处。大多数情况下，SEOmoz 使用 302 来处理低效的博客类别架构，将用户重定向到博客主页面。它们还用于私人消息页面/消息，并且 robots.txt 指令应该完全排除这些页面被抓取。

您可以从服务器日志中获

取的一些最有价值的数据是解析为 404 的正在爬网的链接。 SEOmoz 在处理这些陷阱方面做得很好，并且没有出现令人担忧的 404 错误。识别潜在问题的快速方法是按目录隔离 404。这可以通过运行一个以“目录”作为行标签并在值字段中计算“目录”的数据透视表来完成。

我强调了我们想要仔细研究的领域

隔离成功提供给 BingBot 的页面

由于 抓取都浪费在此类

不幸的是这在这种情况下不

数量是可以接受的

相關文章

由于抓取都浪费在此类