robots.txt 的一行配置，可能让你从 AI 搜索彻底消失

robots.txt 是网站根目录下的一个文本文件，用于告诉爬虫哪些页面可以抓取、哪些不可以。一行错误的配置就能让你的整个网站从 AI 搜索中彻底消失——而你可能完全不知情。

为什么 robots.txt 是 GEO 排查的第一优先级

你可以花三个月优化内容、打磨答案块、构建语义场覆盖——但如果 robots.txt 挡住了 AI 爬虫，所有工作都白费。这是三分钟就能检查的事，但出了问题就是全盘皆输。

做中文 GEO，你需要确保以下爬虫能访问你的网站：

关键区分：OAI-SearchBot（检索）和 GPTBot（训练）是 OpenAI 的两个不同爬虫。 大多数企业希望被 AI 引用但不希望内容被用于训练——需要分别配置。

错误一：无差别屏蔽所有爬虫

User-agent: *
Disallow: /

这会同时屏蔽搜索引擎和所有 AI 爬虫。你的网站对百度 AI 搜索、豆包、ChatGPT 全部不可见。

错误二：WordPress 安全插件自动屏蔽
一些安全插件（如 Wordfence、iThemes Security）可能自动添加屏蔽规则。你可能不知道 Baiduspider 或 GPTBot 已经被拦在门外——定期检查 robots.txt 的实际内容。

错误三：只开放了 Googlebot

User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

Google 能抓到你，但百度 AI 搜索、豆包、ChatGPT、Perplexity 全部被屏蔽。

修改 robots.txt 后，用服务器日志确认效果：

grep 'Baiduspider|GPTBot|ClaudeBot|PerplexityBot|Bytespider' access.log | awk '{print $9}' | sort | uniq -c

如果返回的状态码从 403 变成了 200，说明修复成功。

robots.txt 是《让AI替你说话：GEO权威指南》第四章 4.5 节的核心内容，属于公式三（内隐权威 ≈ 实体显著性 ×（可抓取性 + 可提取性））中”可抓取性”的第一道关卡。robots.txt 配置错误意味着可抓取性为零——后续所有 GEO 优化都是空中楼阁。