首頁 » 博客 » 因为您使用的日志文件解析器可

因为您使用的日志文件解析器可

步骤#1:恢复日志文件 Web 服务器日志有多种不同的格式,检索方法取决于您的站点运行的服务器类型。 Apache 和 Microsoft IIS 是最常见的两个。本文中的示例将基于 SEOmoz 的 Apache 日志文件。 如果您在一家有系统管理员的公司工作,请非常友善地向他询问日志文件和以下字段的一天数据。

我建议将文件大小保持在

以下,能会阻塞。如果您必须自己创建该文件,则如何创建取决于您的网站的托管方式。某些托管服务将它们存储在主目录中名为 /logs 的文件夹中,并每天在该文件夹中留下压缩日志文件。您需要确保它包含以下列: 主机:您将使用它来过滤内部流量。

就 SEOmoz 而言

RogerBot 花费了大量时间来爬行网站,需要将其删除以供我们分析。 历史记录:如果您要分析多天,这将允许您分析每日的搜索引擎抓取率趋势。 页面/文件:这将告诉您正在抓取哪些目录和文件,并可以帮助识别某些部分或内容类型中的本地化问题。

响应代码:了解服务器的响应 –

页面加载正常 (200)、未找到 (404)、服务器 美国电话号码列表 已关闭 (503) – 可以为爬虫程序遇到的故障提供宝贵的见解。 推荐人:虽然对于分析搜索机器人不一定有用,但对于其他流量分析非常有价值。 用户代理:此字段将告诉您哪个搜索引擎发出了请求,没有此字段就无法进行爬行分析。

默认情况下

日志文件在没有用户代理或引用者的 他们应该这样做吗? 情况下返回——这称为“正常日志文件”。您必须请求“合并日志文件”。让您的系统管理员的工作变得更轻松(甚至可能更令人印象深刻),并请求以下格式: 日志格式 “%h %l %u %t \”%r\” %>s %b \”%{Referer}i\” \”%{User-agent}i\”” 对于 Apache 1.3,您只需要“组合 CustomLog log/acces_log 组合”。

对于那些需要手动提取日志的

您需要使用上述内容之一在 httpd.conf 文件中 消費者數據  创建一个指令。 有关此主题的更多详细信息请参见此处。 第二步:解析日志文件 您现在可能有一个像“mylogfile.gz”这样的压缩日志文件,是时候开始挖掘了。

有许多免费和付费的软件产品用于分析和/或分析日志文件。我选择的主要标准包括:查看原始数据的能力、分析前过滤的能力以及导出到 CSV 的能力。我登陆了 Web Log Explorer (),它已经为我工作了很多年。

返回頂端