robots.txt 是网站根目录下的一个文本文件,用于告诉爬虫哪些页面可以抓取、哪些不可以。一行错误的配置就能让你的整个网站从 AI 搜索中彻底消失——而你可能完全不知情。
为什么 robots.txt 是 GEO 排查的第一优先级
你可以花三个月优化内容、打磨答案块、构建语义场覆盖——但如果 robots.txt 挡住了 AI 爬虫,所有工作都白费。这是三分钟就能检查的事,但出了问题就是全盘皆输。
中文市场需要关注的 AI 爬虫
做中文 GEO,你需要确保以下爬虫能访问你的网站:
检索类爬虫(RAG 通道入口——必须放行)
| 爬虫标识 | 所属产品 | 用途 |
|---|---|---|
| Baiduspider | 百度 AI 搜索 | 百度生成式搜索的内容检索,中文市场覆盖面最广 |
| OAI-SearchBot | ChatGPT 联网搜索 | ChatGPT 实时搜索引用 |
| ClaudeBot | Claude | Claude 搜索引用 |
| PerplexityBot | Perplexity | Perplexity AI 搜索检索 |
训练类爬虫(按企业策略决定)
| 爬虫标识 | 所属公司 | 用途 | 建议 |
|---|---|---|---|
| GPTBot | OpenAI | 训练数据收集 | 允许 = 有机会进入参数化记忆;屏蔽 = 保护知识产权 |
| Bytespider | 字节跳动 | 豆包等产品的数据采集 | 同上 |
| Google-Extended | Gemini 训练数据 | 同上 |
关键区分:OAI-SearchBot(检索)和 GPTBot(训练)是 OpenAI 的两个不同爬虫。 大多数企业希望被 AI 引用但不希望内容被用于训练——需要分别配置。
常见的致命配置错误
错误一:无差别屏蔽所有爬虫
User-agent: *
Disallow: /
这会同时屏蔽搜索引擎和所有 AI 爬虫。你的网站对百度 AI 搜索、豆包、ChatGPT 全部不可见。
错误二:WordPress 安全插件自动屏蔽
一些安全插件(如 Wordfence、iThemes Security)可能自动添加屏蔽规则。你可能不知道 Baiduspider 或 GPTBot 已经被拦在门外——定期检查 robots.txt 的实际内容。
错误三:只开放了 Googlebot
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
Google 能抓到你,但百度 AI 搜索、豆包、ChatGPT、Perplexity 全部被屏蔽。
推荐配置(中文站点)
# 检索类爬虫——必须放行
User-agent: Baiduspider
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# 训练类爬虫——按企业策略决定
# 如需允许训练采集(有利于参数化记忆建设):
User-agent: GPTBot
Allow: /
User-agent: Bytespider
Allow: /
# 如需屏蔽训练采集(保护知识产权):
# User-agent: GPTBot
# Disallow: /
检查方法
- 浏览器直接访问
https://你的域名/robots.txt - 搜索 Baiduspider、GPTBot、ClaudeBot、PerplexityBot、Bytespider
- 检查
User-agent: *下是否有大范围 Disallow - 如果发现屏蔽,立即修改——AI 爬虫下次访问时就会读取更新后的规则,通常数天内生效
服务器日志验证
修改 robots.txt 后,用服务器日志确认效果:
grep 'Baiduspider|GPTBot|ClaudeBot|PerplexityBot|Bytespider' access.log | awk '{print $9}' | sort | uniq -c
如果返回的状态码从 403 变成了 200,说明修复成功。
这和 GEO 有什么关系
robots.txt 是《让AI替你说话:GEO权威指南》第四章 4.5 节的核心内容,属于公式三(内隐权威 ≈ 实体显著性 ×(可抓取性 + 可提取性))中”可抓取性”的第一道关卡。robots.txt 配置错误意味着可抓取性为零——后续所有 GEO 优化都是空中楼阁。
延伸阅读
- 《让AI替你说话:GEO权威指南》第四章 4.5 节”robots.txt 配置”
- 《让AI替你说话:GEO权威指南》第四章 4.6 节”AI 爬虫识别与管理”
- GEOBOK 免费工具:AI 可抓取性检测
常见问题 FAQ
-
屏蔽 AI 爬虫有好处吗?目前弊大于利。意味着放弃 AI 搜索中的可见性——一个快速增长的流量渠道。除非有特殊版权需求,建议保持开放。
-
robots.txt 配置影响 SEO 吗?不直接影响排名算法。但错误配置意外屏蔽 Google 爬虫会严重影响 SEO。
-
怎么只允许特定 AI 爬虫?在 robots.txt 中为每个爬虫单独设置 User-agent 规则。但一般建议对所有 AI 爬虫保持一致策略。
