服务器访问日志(access log)是诊断 AI 可见度的最硬核工具——你可以直接看到 AI 爬虫有没有来、抓了哪些页面、频率如何、是否被拦截。所有其他 GEO 诊断手段都是间接推断,日志分析是直接证据。
通俗理解
你在一家商店门口装了监控摄像头。你想知道”有没有客户来过?来了几次?看了哪些货架?有没有被保安拦住?”——回放监控就是最直接的答案。
服务器日志就是你网站的”监控录像”。每一次访问——无论是用户、Google 爬虫还是 AI 爬虫——都会被记录。查日志就能看到 GPTBot、ClaudeBot、PerplexityBot 是否真的来过你的网站。
怎么看 AI 爬虫日志
Linux 服务器一行命令:
grep 'GPTBot|ClaudeBot|PerplexityBot' access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head 20
这会列出 AI 爬虫最常抓取的 Top 20 页面。
Windows/宝塔用户: 下载 access.log 后用文本编辑器搜索”GPTBot”即可。
WordPress 用户: 可以使用 WP Activity Log 等插件简化日志查看,不需要命令行操作。
重点关注的三个指标
指标一:抓取频率趋势
AI 爬虫的抓取频率是在增长还是下降?增长说明 AI 系统认为你的内容有价值,愿意投入更多抓取资源;下降可能意味着你的内容在 AI 系统的优先级中下滑了。
建议每月统计一次 AI 爬虫的总抓取次数,绘制趋势线。
指标二:被抓取的 Top 20 页面
这些页面是不是你最希望被 AI 引用的核心页面?如果 AI 爬虫花大量资源抓取你的”关于我们””联系方式”等非内容页面,而忽略了你的核心产品页和行业报告,说明你的内部链接结构需要调整——让核心内容页在站内拥有更高的可发现性。
指标三:状态码分布
统计 AI 爬虫请求的 HTTP 状态码:
- 200(成功):正常,内容被成功抓取
- 403(禁止):你的服务器拒绝了 AI 爬虫——回查 robots.txt 和服务器防火墙配置
- 404(未找到):AI 爬虫在尝试抓取已经不存在的页面——检查是否有旧链接指向已删除的页面
- 503(服务不可用):服务器临时过载——AI 爬虫可能会降低抓取频率
如果 403 占比超过 10%,说明有封锁问题,需要立即排查。
日志分析不只是”看一次”
日志分析的价值在于持续监测:
- 每月统计 AI 爬虫抓取次数和 Top 页面
- 和上月数据对比,观察趋势
- 发现异常及时排查(突然下降可能是 robots.txt 被改了,突然激增可能是某篇内容被 AI 重点关注)
《让AI替你说话:GEO权威指南》第八章建议将日志分析纳入月度 GEO 监测流程,和引用率测试、流量分析一起构成完整的监测体系。
这和 GEO 有什么关系
日志分析是《让AI替你说话:GEO权威指南》第八章 8.3 节的核心诊断方法。它回答的是 GEO 最基础的问题:”AI 到底看没看到我的内容?”如果日志显示 AI 爬虫根本没来过,后续的所有内容优化都是白费——你需要先解决可抓取性问题(第四章)。
延伸阅读
- 《让AI替你说话:GEO权威指南》第八章 8.3 节”服务器日志分析”
- 《让AI替你说话:GEO权威指南》第四章”可抓取性”
- GEOBOK 免费工具:AI 可抓取性检测
常见问题 FAQ
-
怎么在日志中识别 AI 爬虫?通过 User-Agent 字段。GPTBot 包含”GPTBot”,ClaudeBot 包含”ClaudeBot”。用 grep 过滤日志即可。
-
AI 爬虫访问量值得专门监测吗?值得。AI 爬虫访问是内容进入 AI 回答的第一步。从不来访意味着无法通过 RAG 被检索。
-
AI 爬虫不来怎么办?检查三件事:robots.txt 是否屏蔽了,Sitemap 是否包含目标页面,服务器响应是否正常。都正常可能只是等待时间问题。
