如果你问一个做了五年 SEO 的人:”你网站的 robots.txt 文件里写了什么?”
大概率他能说出个大概——允许百度蜘蛛抓取、禁止某些目录被索引。这是 SEO 的基本功。
但如果你接着问:”你的 robots.txt 对 GPTBot 是什么策略?ClaudeBot 呢?Bytespider 呢?”
他很可能一脸茫然。
这不怪他。两三年前,”AI 爬虫”这个概念还不存在。robots.txt 是给 Googlebot、Baiduspider 这些传统搜索引擎爬虫设置规则的。没有人会想到,有一天需要为 AI 搜索引擎的爬虫单独配置准入策略。
但现在,这件事已经变得至关重要。如果你的 robots.txt 没有正确配置,AI 爬虫可能根本无法抓取你的页面——你在 AI 搜索中不可见,不是因为内容不好,而是因为大门是锁着的。
robots.txt 里一行代码,就能让你从 AI 搜索中消失
robots.txt 是放在网站根目录下的一个纯文本文件。搜索引擎的爬虫在抓取你网站之前,会先读这个文件,看看你允许它抓什么、不允许抓什么。
问题出在哪?
很多网站的 robots.txt 里有这样一条规则:
User-agent: *
Disallow: /这两行的意思是:禁止所有爬虫抓取整个网站。
当初设置这条规则的人可能只是想禁止某些不知名的爬虫,同时为百度和谷歌单独开了允许规则。对传统搜索引擎来说,因为有专门的 User-agent: Baiduspider / Allow: / 规则,所以百度蜘蛛不受影响。
但 GPTBot、ClaudeBot、Bytespider 这些 AI 爬虫呢?如果你的 robots.txt 里没有为它们单独设置允许规则,它们就会被 User-agent: * 的 Disallow: / 规则挡住。
结果就是:百度传统搜索能抓到你的页面,百度 AI 搜索用的爬虫却进不来。你在百度自然搜索的排名没变,但在 AI 搜索的回答里消失了。
还有一种常见情况:有些网站的技术团队在看到 AI 爬虫的异常流量后,主动把它们屏蔽了——担心 AI 公司拿自己的内容去训练模型。这种担忧可以理解,但屏蔽 AI 爬虫的副作用是:你的内容在 AI 搜索中也不会出现了。
你知道有多少种 AI 爬虫吗?
这也是很多人没想过的问题。AI 爬虫不是只有一个,不同的 AI 平台使用不同的爬虫标识:
- GPTBot —— OpenAI 的爬虫,ChatGPT 搜索功能使用
- OAI-SearchBot —— OpenAI 的搜索专用爬虫
- ChatGPT-User —— ChatGPT 在对话中实时抓取网页时的标识
- ClaudeBot —— Anthropic 的 Claude 使用的爬虫
- PerplexityBot —— Perplexity AI 搜索引擎的爬虫
- Baiduspider —— 百度的爬虫(同时服务于传统搜索和 AI 搜索)
- Bytespider —— 字节跳动的爬虫(豆包的数据来源之一)
- Google-Extended —— Google 用于 Gemini 训练数据的爬虫
每一个 AI 爬虫都有独立的 User-agent 标识,你的 robots.txt 需要对每一个都明确允许或禁止。漏配一个,就少一个平台的可见度。
而且这个列表还在不断增长。半年前你配置好的 robots.txt,今天可能已经缺少了新出现的 AI 爬虫的规则。
AI 可抓取性检测:输入域名,逐一排查
GeoBok 的”AI 可抓取性检测”工具帮你一键完成这个排查。
操作方式:输入你的域名(比如 www.example.com),点击”开始检测”。
系统会做三件事:
第一,抓取 robots.txt 原文。 请求 https://你的域名/robots.txt,把完整内容展示出来。很多网站管理员自己都不记得 robots.txt 里写了什么,特别是几年前设置后就没改过的。先看原文,知道现状。
第二,逐一检测 AI 爬虫准入状态。 对每一个主流 AI 爬虫,系统会分析 robots.txt 的规则,给出三种状态:
- ✅ Allowed(允许):该爬虫可以正常抓取你的网站。
- ⚠️ Warning(警告):该爬虫被部分限制,可以抓取某些页面但不能抓取全部。
- ❌ Blocked(被封锁):该爬虫被禁止抓取你的网站,并注明是被哪条规则封锁的。
第三,给出修复建议和配置代码。 如果检测到有 AI 爬虫被封锁,系统会直接生成一段修复后的 robots.txt 配置代码。你不需要自己研究语法,复制粘贴到你的 robots.txt 文件里就行。
比如检测结果显示 ClaudeBot 和 PerplexityBot 被封锁了,系统会建议你添加:
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /两分钟的操作,就能让你的网站对两个新的 AI 搜索平台可见。
允许抓取 ≠ 允许训练
很多人犹豫的点是:允许 AI 爬虫抓取我的网站,是不是等于允许它们拿我的内容去训练模型?
这是两件不同的事。
目前主流 AI 公司已经把”搜索抓取”和”训练抓取”分成了不同的爬虫。比如 OpenAI 的 GPTBot 用于搜索功能,它抓取你的内容是为了在 ChatGPT 搜索中引用你;而 Google 的 Google-Extended 用于 Gemini 的训练数据抓取。你可以允许 GPTBot(让你的内容出现在 AI 搜索结果里),同时禁止 Google-Extended(不让你的内容被用于模型训练)。
当然,各家 AI 公司的爬虫策略在不断变化,边界也不总是清晰。但至少在当下,”允许搜索抓取、禁止训练抓取”是一个可行的策略,你可以根据自己的需求逐个配置。
关键是:做出这个决策的前提是你先知道自己的 robots.txt 里目前是什么状态。如果你都不知道哪些 AI 爬虫被允许、哪些被封锁,你就不是在做决策,而是在靠运气。
所有 GEO 优化的第一步
如果你只有时间做一件 GEO 优化的事,我建议你先检查 robots.txt。
原因很简单:这是整个 GEO 链路的第一道门。门开着,后面的内容优化、语义对齐、答案块构建才有意义。门关着,一切白费。
而且这是修复成本最低的一项。不需要改内容,不需要调页面结构,不需要学习新概念。就是在 robots.txt 里加几行代码的事。
花两分钟检测一下。如果所有 AI 爬虫都是绿色的”Allowed”,恭喜你,这一关过了,可以专注于内容和技术层面的优化。如果有红色的”Blocked”——赶紧改,每多一天就多一天在 AI 搜索里隐身。
