你的网站可能亲手把 AI 爬虫关在了门外

Contents

    如果你问一个做了五年 SEO 的人:”你网站的 robots.txt 文件里写了什么?”

    大概率他能说出个大概——允许百度蜘蛛抓取、禁止某些目录被索引。这是 SEO 的基本功。

    但如果你接着问:”你的 robots.txt 对 GPTBot 是什么策略?ClaudeBot 呢?Bytespider 呢?”

    他很可能一脸茫然。

    这不怪他。两三年前,”AI 爬虫”这个概念还不存在。robots.txt 是给 Googlebot、Baiduspider 这些传统搜索引擎爬虫设置规则的。没有人会想到,有一天需要为 AI 搜索引擎的爬虫单独配置准入策略。

    但现在,这件事已经变得至关重要。如果你的 robots.txt 没有正确配置,AI 爬虫可能根本无法抓取你的页面——你在 AI 搜索中不可见,不是因为内容不好,而是因为大门是锁着的。

    robots.txt 里一行代码,就能让你从 AI 搜索中消失

    robots.txt 是放在网站根目录下的一个纯文本文件。搜索引擎的爬虫在抓取你网站之前,会先读这个文件,看看你允许它抓什么、不允许抓什么。

    问题出在哪?

    很多网站的 robots.txt 里有这样一条规则:

    User-agent: *
    Disallow: /

    这两行的意思是:禁止所有爬虫抓取整个网站。

    当初设置这条规则的人可能只是想禁止某些不知名的爬虫,同时为百度和谷歌单独开了允许规则。对传统搜索引擎来说,因为有专门的 User-agent: Baiduspider / Allow: / 规则,所以百度蜘蛛不受影响。

    但 GPTBot、ClaudeBot、Bytespider 这些 AI 爬虫呢?如果你的 robots.txt 里没有为它们单独设置允许规则,它们就会被 User-agent: *Disallow: / 规则挡住。

    结果就是:百度传统搜索能抓到你的页面,百度 AI 搜索用的爬虫却进不来。你在百度自然搜索的排名没变,但在 AI 搜索的回答里消失了。

    还有一种常见情况:有些网站的技术团队在看到 AI 爬虫的异常流量后,主动把它们屏蔽了——担心 AI 公司拿自己的内容去训练模型。这种担忧可以理解,但屏蔽 AI 爬虫的副作用是:你的内容在 AI 搜索中也不会出现了。

    你知道有多少种 AI 爬虫吗?

    这也是很多人没想过的问题。AI 爬虫不是只有一个,不同的 AI 平台使用不同的爬虫标识:

    • GPTBot —— OpenAI 的爬虫,ChatGPT 搜索功能使用
    • OAI-SearchBot —— OpenAI 的搜索专用爬虫
    • ChatGPT-User —— ChatGPT 在对话中实时抓取网页时的标识
    • ClaudeBot —— Anthropic 的 Claude 使用的爬虫
    • PerplexityBot —— Perplexity AI 搜索引擎的爬虫
    • Baiduspider —— 百度的爬虫(同时服务于传统搜索和 AI 搜索)
    • Bytespider —— 字节跳动的爬虫(豆包的数据来源之一)
    • Google-Extended —— Google 用于 Gemini 训练数据的爬虫

    每一个 AI 爬虫都有独立的 User-agent 标识,你的 robots.txt 需要对每一个都明确允许或禁止。漏配一个,就少一个平台的可见度。

    而且这个列表还在不断增长。半年前你配置好的 robots.txt,今天可能已经缺少了新出现的 AI 爬虫的规则。

    AI 可抓取性检测:输入域名,逐一排查

    GeoBok 的”AI 可抓取性检测”工具帮你一键完成这个排查。

    操作方式:输入你的域名(比如 www.example.com),点击”开始检测”。

    系统会做三件事:

    第一,抓取 robots.txt 原文。 请求 https://你的域名/robots.txt,把完整内容展示出来。很多网站管理员自己都不记得 robots.txt 里写了什么,特别是几年前设置后就没改过的。先看原文,知道现状。

    第二,逐一检测 AI 爬虫准入状态。 对每一个主流 AI 爬虫,系统会分析 robots.txt 的规则,给出三种状态:

    • Allowed(允许):该爬虫可以正常抓取你的网站。
    • ⚠️ Warning(警告):该爬虫被部分限制,可以抓取某些页面但不能抓取全部。
    • Blocked(被封锁):该爬虫被禁止抓取你的网站,并注明是被哪条规则封锁的。

    第三,给出修复建议和配置代码。 如果检测到有 AI 爬虫被封锁,系统会直接生成一段修复后的 robots.txt 配置代码。你不需要自己研究语法,复制粘贴到你的 robots.txt 文件里就行。

    比如检测结果显示 ClaudeBot 和 PerplexityBot 被封锁了,系统会建议你添加:

    User-agent: ClaudeBot
    Allow: /
    
    User-agent: PerplexityBot
    Allow: /

    两分钟的操作,就能让你的网站对两个新的 AI 搜索平台可见。

    允许抓取 ≠ 允许训练

    很多人犹豫的点是:允许 AI 爬虫抓取我的网站,是不是等于允许它们拿我的内容去训练模型?

    这是两件不同的事。

    目前主流 AI 公司已经把”搜索抓取”和”训练抓取”分成了不同的爬虫。比如 OpenAI 的 GPTBot 用于搜索功能,它抓取你的内容是为了在 ChatGPT 搜索中引用你;而 Google 的 Google-Extended 用于 Gemini 的训练数据抓取。你可以允许 GPTBot(让你的内容出现在 AI 搜索结果里),同时禁止 Google-Extended(不让你的内容被用于模型训练)。

    当然,各家 AI 公司的爬虫策略在不断变化,边界也不总是清晰。但至少在当下,”允许搜索抓取、禁止训练抓取”是一个可行的策略,你可以根据自己的需求逐个配置。

    关键是:做出这个决策的前提是你先知道自己的 robots.txt 里目前是什么状态。如果你都不知道哪些 AI 爬虫被允许、哪些被封锁,你就不是在做决策,而是在靠运气。

    所有 GEO 优化的第一步

    如果你只有时间做一件 GEO 优化的事,我建议你先检查 robots.txt。

    原因很简单:这是整个 GEO 链路的第一道门。门开着,后面的内容优化、语义对齐、答案块构建才有意义。门关着,一切白费。

    而且这是修复成本最低的一项。不需要改内容,不需要调页面结构,不需要学习新概念。就是在 robots.txt 里加几行代码的事。

    花两分钟检测一下。如果所有 AI 爬虫都是绿色的”Allowed”,恭喜你,这一关过了,可以专注于内容和技术层面的优化。如果有红色的”Blocked”——赶紧改,每多一天就多一天在 AI 搜索里隐身。

    最近更新:2026年4月2日👁 15  ·  👍 0  ·  👎 0
    这篇内容对你有帮助吗?
    简体中文 ▾