TTFB(Time to First Byte,首字节时间)是从爬虫发出请求到收到服务器返回的第一个字节的时间。AI 爬虫对延迟比浏览器更敏感——TTFB 过高时,爬虫可能直接放弃你的页面,对 AI 来说你的页面在物理上不存在。
通俗理解
你打电话给一家餐厅预约。电话响了 2 秒就有人接——你觉得这家店挺靠谱。电话响了 30 秒才接——你可能已经挂掉换下一家了。
AI 爬虫的”耐心”比你还差。它们一次要抓取成千上万个页面,每个页面只给有限的等待时间。如果你的服务器在限定时间内没有开始返回数据,爬虫会直接标记”超时”然后去抓下一个页面。
你的页面不是被”降权”,而是被”跳过”——对 AI 来说,这个页面在物理上不存在。
参考标准
| TTFB 范围 | 评估 | 建议 |
|---|---|---|
| < 200ms | 理想 | 保持现状 |
| 200-500ms | 可接受 | 有优化空间 |
| 500ms-1s | 需排查 | 可能影响抓取 |
| > 1s | 严重 | AI 爬虫大概率跳过 |
需要注意的是,具体阈值因 AI 系统而异,目前没有公开的统一标准。以上区间是基于实际项目经验的参考值。
为什么 AI 爬虫比浏览器更敏感
浏览器是为单个用户服务的——等 2 秒加载一个页面,用户还能接受。AI 爬虫是批量作业——它需要在有限时间内抓取尽可能多的页面。TTFB 慢 0.5 秒,对单个页面影响不大,但如果要抓取 10 万个页面,累积起来就是额外 14 小时的等待时间。
所以 AI 爬虫的策略是:快速判断,快速放弃。 响应慢的页面被直接跳过,把资源留给响应快的页面。
检测方法
方法一:Chrome 开发者工具
按 F12 → 切到 Network 面板 → 刷新页面 → 点击第一个请求(HTML 文档)→ 查看 Timing 选项卡中的 “Waiting for server response”(即 TTFB)。
方法二:在线工具
访问 pagespeed.web.dev 输入你的 URL,在性能报告中找到 TTFB 相关指标。
方法三:命令行
curl -o /dev/null -s -w "TTFB: %{time_starttransfer}sn" https://你的域名/
建议测试首页和最重要的 3 个内容页面。
优化方向
服务器和 CDN: 国内用户优先使用国内 CDN(阿里云、腾讯云),避免服务器在境外导致的延迟。海外站点选择靠近目标用户的服务器节点。
服务器端缓存: 对静态内容页面缓存 HTML 响应。WordPress 用户可以使用 WP Rocket、W3 Total Cache 等插件实现页面缓存,TTFB 通常能从几百毫秒降到几十毫秒。
数据库查询优化: 动态页面的 TTFB 高通常源于慢查询。使用 Redis 或 Memcached 做查询缓存可以显著改善。
这和 GEO 有什么关系
TTFB 是《让AI替你说话:GEO权威指南》第四章 4.2 节的核心内容,属于公式三(内隐权威 ≈ 实体显著性 ×(可抓取性 + 可提取性))中”可抓取性”的基础组件。TTFB 过高意味着可抓取性为零——地基不存在,上面的建筑再漂亮也没用。
延伸阅读
- 《让AI替你说话:GEO权威指南》第四章 4.2 节”TTFB:首字节时间决定 AI 爬虫的第一印象”
- GEOBOK 免费工具:AI 可抓取性检测
常见问题 FAQ
-
TTFB 多少算快?200ms 以下优秀,200-500ms 正常,500ms 以上需优化。超过 1 秒可能导致 AI 爬虫放弃抓取。
-
CDN 能解决 TTFB 问题吗?能显著改善。将内容缓存到更近的节点减少延迟。对静态内容为主的网站是最简单有效的方法。
-
AI 爬虫对 TTFB 容忍度和 Google 一样吗?不完全清楚。但从日志分析看 AI 爬虫容忍度可能更低——Google 有更成熟的重试机制。
