robots.txt 的一行配置,可能让你从 AI 搜索彻底消失

Contents

    robots.txt 是网站根目录下的一个文本文件,用于告诉爬虫哪些页面可以抓取、哪些不可以。一行错误的配置就能让你的整个网站从 AI 搜索中彻底消失——而你可能完全不知情。

    为什么 robots.txt 是 GEO 排查的第一优先级

    你可以花三个月优化内容、打磨答案块、构建语义场覆盖——但如果 robots.txt 挡住了 AI 爬虫,所有工作都白费。这是三分钟就能检查的事,但出了问题就是全盘皆输。

    中文市场需要关注的 AI 爬虫

    做中文 GEO,你需要确保以下爬虫能访问你的网站:

    检索类爬虫(RAG 通道入口——必须放行)

    爬虫标识 所属产品 用途
    Baiduspider 百度 AI 搜索 百度生成式搜索的内容检索,中文市场覆盖面最广
    OAI-SearchBot ChatGPT 联网搜索 ChatGPT 实时搜索引用
    ClaudeBot Claude Claude 搜索引用
    PerplexityBot Perplexity Perplexity AI 搜索检索

    训练类爬虫(按企业策略决定)

    爬虫标识 所属公司 用途 建议
    GPTBot OpenAI 训练数据收集 允许 = 有机会进入参数化记忆;屏蔽 = 保护知识产权
    Bytespider 字节跳动 豆包等产品的数据采集 同上
    Google-Extended Google Gemini 训练数据 同上

    关键区分:OAI-SearchBot(检索)和 GPTBot(训练)是 OpenAI 的两个不同爬虫。 大多数企业希望被 AI 引用但不希望内容被用于训练——需要分别配置。

    常见的致命配置错误

    错误一:无差别屏蔽所有爬虫

    User-agent: *
    Disallow: /
    

    这会同时屏蔽搜索引擎和所有 AI 爬虫。你的网站对百度 AI 搜索、豆包、ChatGPT 全部不可见。

    错误二:WordPress 安全插件自动屏蔽
    一些安全插件(如 Wordfence、iThemes Security)可能自动添加屏蔽规则。你可能不知道 Baiduspider 或 GPTBot 已经被拦在门外——定期检查 robots.txt 的实际内容。

    错误三:只开放了 Googlebot

    User-agent: Googlebot
    Allow: /
    User-agent: *
    Disallow: /
    

    Google 能抓到你,但百度 AI 搜索、豆包、ChatGPT、Perplexity 全部被屏蔽。

    推荐配置(中文站点)

    # 检索类爬虫——必须放行
    User-agent: Baiduspider
    Allow: /
    User-agent: OAI-SearchBot
    Allow: /
    User-agent: ClaudeBot
    Allow: /
    User-agent: PerplexityBot
    Allow: /
    # 训练类爬虫——按企业策略决定
    # 如需允许训练采集(有利于参数化记忆建设):
    User-agent: GPTBot
    Allow: /
    User-agent: Bytespider
    Allow: /
    # 如需屏蔽训练采集(保护知识产权):
    # User-agent: GPTBot
    # Disallow: /
    

    检查方法

    1. 浏览器直接访问 https://你的域名/robots.txt
    2. 搜索 Baiduspider、GPTBot、ClaudeBot、PerplexityBot、Bytespider
    3. 检查 User-agent: * 下是否有大范围 Disallow
    4. 如果发现屏蔽,立即修改——AI 爬虫下次访问时就会读取更新后的规则,通常数天内生效

    服务器日志验证

    修改 robots.txt 后,用服务器日志确认效果:

    grep 'Baiduspider|GPTBot|ClaudeBot|PerplexityBot|Bytespider' access.log | awk '{print $9}' | sort | uniq -c
    

    如果返回的状态码从 403 变成了 200,说明修复成功。

    这和 GEO 有什么关系

    robots.txt 是《让AI替你说话:GEO权威指南》第四章 4.5 节的核心内容,属于公式三(内隐权威 ≈ 实体显著性 ×(可抓取性 + 可提取性))中”可抓取性”的第一道关卡。robots.txt 配置错误意味着可抓取性为零——后续所有 GEO 优化都是空中楼阁。

    延伸阅读

    • 《让AI替你说话:GEO权威指南》第四章 4.5 节”robots.txt 配置”
    • 《让AI替你说话:GEO权威指南》第四章 4.6 节”AI 爬虫识别与管理”
    • GEOBOK 免费工具:AI 可抓取性检测

    常见问题 FAQ

    • 屏蔽 AI 爬虫有好处吗?
      目前弊大于利。意味着放弃 AI 搜索中的可见性——一个快速增长的流量渠道。除非有特殊版权需求,建议保持开放。
    • robots.txt 配置影响 SEO 吗?
      不直接影响排名算法。但错误配置意外屏蔽 Google 爬虫会严重影响 SEO。
    • 怎么只允许特定 AI 爬虫?
      在 robots.txt 中为每个爬虫单独设置 User-agent 规则。但一般建议对所有 AI 爬虫保持一致策略。
    最近更新:2026年4月12日👁 42  ·  👍 0  ·  👎 0
    这篇内容对你有帮助吗?