因为您使用的日志文件解析器可

步骤#1：恢复日志文件 Web 服务器日志有多种不同的格式，检索方法取决于您的站点运行的服务器类型。 Apache 和 Microsoft IIS 是最常见的两个。本文中的示例将基于 SEOmoz 的 Apache 日志文件。如果您在一家有系统管理员的公司工作，请非常友善地向他询问日志文件和以下字段的一天数据。

我建议将文件大小保持在

以下，能会阻塞。如果您必须自己创建该文件，则如何创建取决于您的网站的托管方式。某些托管服务将它们存储在主目录中名为 /logs 的文件夹中，并每天在该文件夹中留下压缩日志文件。您需要确保它包含以下列：主机：您将使用它来过滤内部流量。

就 SEOmoz 而言

RogerBot 花费了大量时间来爬行网站，需要将其删除以供我们分析。历史记录：如果您要分析多天，这将允许您分析每日的搜索引擎抓取率趋势。页面/文件：这将告诉您正在抓取哪些目录和文件，并可以帮助识别某些部分或内容类型中的本地化问题。

响应代码：了解服务器的响应 –

页面加载正常 (200)、未找到 (404)、服务器美国电话号码列表已关闭 (503) – 可以为爬虫程序遇到的故障提供宝贵的见解。推荐人：虽然对于分析搜索机器人不一定有用，但对于其他流量分析非常有价值。用户代理：此字段将告诉您哪个搜索引擎发出了请求，没有此字段就无法进行爬行分析。

默认情况下

日志文件在没有用户代理或引用者的他们应该这样做吗？情况下返回——这称为“正常日志文件”。您必须请求“合并日志文件”。让您的系统管理员的工作变得更轻松（甚至可能更令人印象深刻），并请求以下格式：日志格式 “%h %l %u %t \”%r\” %>s %b \”%{Referer}i\” \”%{User-agent}i\”” 对于 Apache 1.3，您只需要“组合 CustomLog log/acces_log 组合”。

对于那些需要手动提取日志的

您需要使用上述内容之一在 httpd.conf 文件中消費者數據创建一个指令。有关此主题的更多详细信息请参见此处。第二步：解析日志文件您现在可能有一个像“mylogfile.gz”这样的压缩日志文件，是时候开始挖掘了。

有许多免费和付费的软件产品用于分析和/或分析日志文件。我选择的主要标准包括：查看原始数据的能力、分析前过滤的能力以及导出到 CSV 的能力。我登陆了 Web Log Explorer ()，它已经为我工作了很多年。

我建议将文件大小保持在

就 SEOmoz 而言

响应代码：了解服务器的响应 –

默认情况下

对于那些需要手动提取日志的

相關文章