你的网站可能亲手把 AI 爬虫关在了门外

如果你问一个做了五年 SEO 的人：”你网站的 robots.txt 文件里写了什么？”

大概率他能说出个大概——允许百度蜘蛛抓取、禁止某些目录被索引。这是 SEO 的基本功。

但如果你接着问：”你的 robots.txt 对 GPTBot 是什么策略？ClaudeBot 呢？Bytespider 呢？”

他很可能一脸茫然。

这不怪他。两三年前，”AI 爬虫”这个概念还不存在。robots.txt 是给 Googlebot、Baiduspider 这些传统搜索引擎爬虫设置规则的。没有人会想到，有一天需要为 AI 搜索引擎的爬虫单独配置准入策略。

但现在，这件事已经变得至关重要。如果你的 robots.txt 没有正确配置，AI 爬虫可能根本无法抓取你的页面——你在 AI 搜索中不可见，不是因为内容不好，而是因为大门是锁着的。

robots.txt 里一行代码，就能让你从 AI 搜索中消失

robots.txt 是放在网站根目录下的一个纯文本文件。搜索引擎的爬虫在抓取你网站之前，会先读这个文件，看看你允许它抓什么、不允许抓什么。

问题出在哪？

很多网站的 robots.txt 里有这样一条规则：

User-agent: *
Disallow: /

这两行的意思是：禁止所有爬虫抓取整个网站。

当初设置这条规则的人可能只是想禁止某些不知名的爬虫，同时为百度和谷歌单独开了允许规则。对传统搜索引擎来说，因为有专门的 User-agent: Baiduspider / Allow: / 规则，所以百度蜘蛛不受影响。

但 GPTBot、ClaudeBot、Bytespider 这些 AI 爬虫呢？如果你的 robots.txt 里没有为它们单独设置允许规则，它们就会被 User-agent: * 的 Disallow: / 规则挡住。

结果就是：百度传统搜索能抓到你的页面，百度 AI 搜索用的爬虫却进不来。你在百度自然搜索的排名没变，但在 AI 搜索的回答里消失了。

还有一种常见情况：有些网站的技术团队在看到 AI 爬虫的异常流量后，主动把它们屏蔽了——担心 AI 公司拿自己的内容去训练模型。这种担忧可以理解，但屏蔽 AI 爬虫的副作用是：你的内容在 AI 搜索中也不会出现了。

你知道有多少种 AI 爬虫吗？

这也是很多人没想过的问题。AI 爬虫不是只有一个，不同的 AI 平台使用不同的爬虫标识：

GPTBot —— OpenAI 的爬虫，ChatGPT 搜索功能使用
OAI-SearchBot —— OpenAI 的搜索专用爬虫
ChatGPT-User —— ChatGPT 在对话中实时抓取网页时的标识
ClaudeBot —— Anthropic 的 Claude 使用的爬虫
PerplexityBot —— Perplexity AI 搜索引擎的爬虫
Baiduspider —— 百度的爬虫（同时服务于传统搜索和 AI 搜索）
Bytespider —— 字节跳动的爬虫（豆包的数据来源之一）
Google-Extended —— Google 用于 Gemini 训练数据的爬虫

每一个 AI 爬虫都有独立的 User-agent 标识，你的 robots.txt 需要对每一个都明确允许或禁止。漏配一个，就少一个平台的可见度。

而且这个列表还在不断增长。半年前你配置好的 robots.txt，今天可能已经缺少了新出现的 AI 爬虫的规则。

AI 可抓取性检测：输入域名，逐一排查

GeoBok 的”AI 可抓取性检测”工具帮你一键完成这个排查。

操作方式：输入你的域名（比如 www.example.com），点击”开始检测”。

系统会做三件事：

第一，抓取 robots.txt 原文。 请求 https://你的域名/robots.txt，把完整内容展示出来。很多网站管理员自己都不记得 robots.txt 里写了什么，特别是几年前设置后就没改过的。先看原文，知道现状。

第二，逐一检测 AI 爬虫准入状态。 对每一个主流 AI 爬虫，系统会分析 robots.txt 的规则，给出三种状态：

✅ Allowed（允许）：该爬虫可以正常抓取你的网站。
⚠️ Warning（警告）：该爬虫被部分限制，可以抓取某些页面但不能抓取全部。
❌ Blocked（被封锁）：该爬虫被禁止抓取你的网站，并注明是被哪条规则封锁的。

第三，给出修复建议和配置代码。 如果检测到有 AI 爬虫被封锁，系统会直接生成一段修复后的 robots.txt 配置代码。你不需要自己研究语法，复制粘贴到你的 robots.txt 文件里就行。

比如检测结果显示 ClaudeBot 和 PerplexityBot 被封锁了，系统会建议你添加：

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

两分钟的操作，就能让你的网站对两个新的 AI 搜索平台可见。

允许抓取 ≠ 允许训练

很多人犹豫的点是：允许 AI 爬虫抓取我的网站，是不是等于允许它们拿我的内容去训练模型？

这是两件不同的事。

目前主流 AI 公司已经把”搜索抓取”和”训练抓取”分成了不同的爬虫。比如 OpenAI 的 GPTBot 用于搜索功能，它抓取你的内容是为了在 ChatGPT 搜索中引用你；而 Google 的 Google-Extended 用于 Gemini 的训练数据抓取。你可以允许 GPTBot（让你的内容出现在 AI 搜索结果里），同时禁止 Google-Extended（不让你的内容被用于模型训练）。

当然，各家 AI 公司的爬虫策略在不断变化，边界也不总是清晰。但至少在当下，”允许搜索抓取、禁止训练抓取”是一个可行的策略，你可以根据自己的需求逐个配置。

关键是：做出这个决策的前提是你先知道自己的 robots.txt 里目前是什么状态。如果你都不知道哪些 AI 爬虫被允许、哪些被封锁，你就不是在做决策，而是在靠运气。

所有 GEO 优化的第一步

如果你只有时间做一件 GEO 优化的事，我建议你先检查 robots.txt。

原因很简单：这是整个 GEO 链路的第一道门。门开着，后面的内容优化、语义对齐、答案块构建才有意义。门关着，一切白费。

而且这是修复成本最低的一项。不需要改内容，不需要调页面结构，不需要学习新概念。就是在 robots.txt 里加几行代码的事。

花两分钟检测一下。如果所有 AI 爬虫都是绿色的”Allowed”，恭喜你，这一关过了，可以专注于内容和技术层面的优化。如果有红色的”Blocked”——赶紧改，每多一天就多一天在 AI 搜索里隐身。