你在浏览器里打开自己的产品页,看到的是精心设计的页面:大图轮播、品牌 LOGO、产品参数表格、客户评价、底部导航。一切看起来都没问题。
但 AI 爬虫来到这个页面时,它看到的可能是另一番景象。
也许你的 robots.txt 文件里有一行 Disallow: /,把所有 AI 爬虫都挡在了门外——它根本进不来。也许你的页面严重依赖 JavaScript 渲染,AI 爬虫拿到的是一堆空的 <div> 标签,产品信息一个字都没有。也许你的页面确实能被抓取,但导航栏、侧边栏、页脚、广告位的文字加起来比正文还多,AI 在这堆噪声里找不到有价值的内容。
这些问题你在浏览器里看不到。因为浏览器是为人类设计的,它会执行 JavaScript、渲染样式、隐藏代码层的混乱。但 AI 爬虫不是浏览器。它能看到的和你看到的,差距可能大得惊人。
如果你从来没有从 AI 的视角审视过自己的网页,你不知道 AI 看到的是什么。
GEO 的技术层:容易忽视,却能一票否决
很多人谈 GEO 优化,第一反应是内容——写好答案块、做语义对齐、用具体数据替代套话。这些确实重要。但内容优化有一个前提:AI 得先能抓到你的内容。
如果技术层出了问题,内容写得再好也没用。这就像你精心准备了一场演讲,但话筒是关着的。
技术层的问题通常有几类:
AI 爬虫被拦截。 你的 robots.txt 可能在几年前由技术团队设置,当时根本没有”AI 爬虫”这个概念。很多网站的 robots.txt 里写着 User-agent: * / Disallow: /(禁止所有爬虫抓取全站),或者没有单独为 GPTBot、ClaudeBot、Bytespider 等 AI 爬虫设置允许规则。结果就是:百度传统搜索能抓到你(因为 Baiduspider 有单独的允许规则),但百度 AI 搜索用的爬虫可能被挡在外面了。
JavaScript 渲染依赖过重。 现代网站大量使用前端框架(Vue、React、Angular),页面内容通过 JavaScript 动态生成。人类用浏览器访问时一切正常,但很多 AI 爬虫不执行 JavaScript——它们拿到的只是一个空壳 HTML。如果你的产品信息全靠 JavaScript 渲染,AI 爬虫看到的就是一个空页面。
Schema 结构化数据缺失。 Schema 是一种写在 HTML 里的结构化标记,帮助搜索引擎和 AI 理解页面内容的类型和结构。比如 FAQPage Schema 告诉 AI”这个页面上有一组问答”,Article Schema 告诉 AI”这是一篇文章,作者是谁,发布时间是什么”。有了这些标记,AI 能更高效地提取和引用你的内容。没有的话,AI 只能靠自己猜。
页面性能太差。 页面加载时间超过 5 秒,AI 爬虫可能等不及就放弃了。Lighthouse 性能评分低于 50 分的页面,在各种搜索引擎(包括 AI 搜索)里都处于劣势。
Token 信噪比过低。 你的页面总共有 5000 个 Token,但其中 3000 个是导航栏、页脚、侧边栏、Cookie 弹窗、广告代码。真正的正文内容只有 2000 个 Token。AI 在处理你的页面时要从 5000 个 Token 里筛选出有用的部分,噪声越多,有效内容被注意到的概率越低。
这些问题,每一个都可能导致你的内容对 AI 完全不可见——不管内容本身写得多好。
页面 GEO 体检报告:一个 URL,七项检测
GeoBok 的”页面 GEO 体检报告”把这些技术层的检测全部整合在一起了。
操作方式:输入一个 URL,点击”开始体检”。系统会用 Playwright(无头浏览器)渲染你的页面,同时并行执行七项检测,大约 1-2 分钟后生成一份完整的体检报告。
七项检测分别是:
Lighthouse 性能评分。 和 Google 的 PageSpeed Insights 用的是同一套引擎,给出性能、可访问性等维度的评分。低于 50 分的页面需要优先处理性能问题。
robots.txt AI 爬虫准入。 系统抓取你网站的 robots.txt 文件,逐一检测 GPTBot、ClaudeBot、Bytespider、Baiduspider、Google-Extended 等主流 AI 爬虫的准入状态。哪些被允许、哪些被封锁、封锁的原因是什么——一目了然。
Schema 结构化数据。 解析页面的 JSON-LD 和 Microdata 标注,列出你已有的 Schema 类型,对照 GEO 推荐部署的 10 种类型(FAQPage、Article、HowTo、Product 等),告诉你缺了哪些、建议怎么加。
Meta 信息质量。 检查页面的 Title 标签和 Meta Description——长度是否合适、有没有包含品牌名、信息密度是高还是低。一个写着”首页-XX公司”的 Title,和一个写着”家用净水器选购指南:RO反渗透vs超滤对比,2024年十大品牌推荐”的 Title,AI 能从后者提取到的信息多得多。
JS 渲染依赖度。 系统先用普通 HTTP 请求获取页面(不执行 JavaScript),看能拿到多少文本;再用 Playwright 完整渲染页面,看渲染后有多少文本。两者的差值就是你的 JS 依赖度。如果超过 50%,意味着页面一半以上的内容需要 JavaScript 才能显示——对不执行 JS 的 AI 爬虫来说,你的页面约等于空白。
Token 信噪比。 计算页面清洗后(去掉导航、页脚、侧边栏、脚本代码等)的有效文本 Token 数与原始页面总 Token 数的比值。信噪比低于 40% 的页面,噪声太多,需要精简非正文元素。
语义切片质量。 把页面正文按 AI 的切片逻辑切成若干块,展示前 5 个核心切片(AI 最有可能检索到的)和后面的溢出切片。你能看到首屏内容被切成了什么样,核心信息在第几个切片里。
怎么读这份报告?
七项检测同时出结果,信息量很大。建议按影响程度从高到低来看:
先看有没有”一票否决”的问题。 robots.txt 封锁了 AI 爬虫?这是最高优先级——门都没开,后面的一切优化都白费。JS 依赖度超过 80%?也是致命问题——AI 看到的是空页面。这两类问题不解决,其他项再好都没意义。
再看 Schema 和 Meta。 这两项的修复成本很低——加几行 JSON-LD 代码、改一下 Title 和 Description——但对 AI 理解你页面内容的帮助很大。属于投入产出比最高的优化项。
然后看信噪比和切片质量。 这两项反映的是内容层面的问题。信噪比低说明页面非正文元素太多,需要精简模板。切片质量差说明首屏内容的信息密度不够,需要重写首屏。
最后看 Lighthouse 性能。 性能影响的是整体加载速度和用户体验,对 GEO 有影响但不是决定性的。除非评分特别低(低于 30),否则可以放在最后处理。
一份报告就够了吗?
一份报告能让你看到一个页面的全貌。但你的网站不止一个页面。
建议你至少对以下页面各跑一次体检:
- 首页
- 3-5 个最重要的产品或服务页面
- 流量最高的博客文章或资讯页面
- 用户最可能通过 AI 搜索找到的落地页
不同页面的问题可能完全不同。首页可能 robots.txt 没问题但信噪比很低(因为首页通常模板元素多、正文少)。产品页可能信噪比还行但 Schema 缺失。博客文章可能技术层都没问题但首屏是一张大图、文字从页面中部才开始。
逐个体检,逐个修复。修复完再回来跑一次,看七项评分的变化。
把它当作你网站的 GEO 年检——至少每个季度做一次,确保技术层面没有在你不知道的情况下出问题。
