我对此的标准解决方案是使用日志轮换。根据您的服务器,您将使用不同的方法来实现此目的,但在 Nginx 上,它看起来像这样: # time_iso8601 看起来像这样:2016-08-10T14:53:00+01:00 if ($time_iso8601 ~ “^(\d{4})-(\d{2})-(\d{2})”) { 设置$年$1; 设置$月$2; 设置 它允许您通过简单地从与该时期相关的文件中提取数据来查看任何特定日期或日期集的日志。
设置日志轮换后
我们可以设置一个脚本,我们将使用 cron 在午夜运行该脚本,。如果需要,您可以每天检查几次,或每周 telegram 数字数据 检查一次,或任何适合您的数据量水平的时间间隔。 下一个问题是,我们想找到什么?好吧,一旦我们获得当天的日志,这就是我向系统报告的内容: 30* 状态代码 列出用户访问并导致重定向的所有页面。
如果链接到此资源的页
面位于您的站点上,请将其重定向到原始端点。否则,请联系链接到您的任何人,并要求他们将链接设置到应该去的位置。 404状态码 类似的故事。应检查任何 404ing 资源以确保它们丢失。任何应该存在的内容都可以调查为什么它没有解析,并且指向实际丢失的任何内容的链
状态代码 发生了
些不好的事情,如果您看到很多 50* 代码,那么您今天的日子不太好。您的服务器因对特定资源或 美国半导体机械制造 整个站点的请求而崩溃,具体取决于情况有多糟糕。 抓取预算 Google 列出了抓取的每个资源、请求的次数、传输的字节数以及解决这些请求所需的时间。
将此与您的站点地图进行比较
查找 Google 不会抓取或受到攻击的页面,并根据需要进行修复。 请求最多/最少的资源 如上所述,但详细说明 汤加营销 了搜索引擎请求最多和最少的项目。 坏演员 许多寻找漏洞的机器人会向 wp_admin、wp_login、404s、config.php 和其他类似的公共资源 URL 发出请求。
任何重复请求此类
的 IP 地址都可以自动添加到 IP 黑名单中。 模式匹配 URL 报告 要报告网站的特定区域或页面类型,可以轻松使用正则表达式将请求的 URL 与预定义的模式进行匹配。例如,您可以报告图像请求、调用的 JavaScript 文件、分页、表单提交(通过搜索发布请求)、转义片段、查询参数或几乎任何其他内容。
如果它位于或 请求中
您可以将其配置为要报告的段。 尖峰搜索抓取行为 记录 Googlebot 每天发出的请求数。如果增加超过 x%,则值得关注。顺便说一句,对于大多数数字系列,查找极端异常值并不难计算,而且可能值得您花时间。 输出数据 根据特定部分的重要性,您可以通过几种方式设置要记录的数据。