AI 爬虫抓到你的页面后,下一个挑战是从一堆 HTML 代码中分清哪些是正文、哪些是导航栏和广告。正确使用语义标签(main、article、nav、footer)是解决这个问题最直接的手段。把所有内容都塞在 div 里,对 AI 来说正文和噪音混在一起,信噪比极低。
核心解释
语义标签的核心作用
HTML5 语义标签不只是让代码”规范”——它们在帮助 AI 爬虫区分正文和非正文区域。
main 标签: 包裹主要内容区域,这是告诉 AI “这里面是核心内容”最清晰的信号。
article 标签: 包裹文章正文。
nav 标签: 标识导航区域,AI 在提取正文时会降低这些区域的权重。
footer 标签: 标识页脚。aside 标签: 标识侧边栏。
很多网站把所有内容都放在 div 里——导航是 div,正文是 div,广告也是 div。人类通过视觉排版能区分这些区域,但 AI 爬虫看到的全是无差别的 div。
H 标签层级:帮助 AI 理解内容结构
H 标签(H1-H6)是 AI 理解页面内容结构最重要的信号之一。在 RAG 系统中,H 标签经常被用作切片的切割点——每个 H2 小节可能被切成一个独立切片。
核心规则: 每个页面只有一个 H1,对应页面主标题。H2 用于主要章节标题,H3 用于子标题,严格按层级嵌套不跳级。H 标签的内容应该能概括该节的核心意思——因为当 AI 切片时,H 标签往往是切片的”标题”,直接影响切片在向量空间中的语义定位。
图片表格:可提取性的最大杀手之一
很多企业官网把产品参数做成精美的图片表格。在当前主流抓取流程中,图片里的文字和数字几乎不会被提取和索引。核心参数必须以 HTML 原生表格或纯文本形式存在于页面中。
实操要点
- 检查页面源代码:正文是否被 main 或 article 包裹,导航、页脚、侧边栏是否各自有正确的语义标签
- 每个页面只有一个 H1,H2/H3 按层级嵌套不跳级
- 核心产品参数如果是图片形式,标记为需整改——替换为 HTML 原生表格
- H 标签的文字应该是该节内容的摘要,不要用”更多信息””详情介绍”这种空洞标题
常见问题 FAQ
-
我的网站全是 div,改动量大吗?如果只改语义标签(把外层 div 换成 main、article 等),对页面外观没有任何影响,纯粹是 HTML 层面的标签替换。工作量取决于页面模板的数量——如果用的是统一模板,改一次就全站生效。
-
H1 可以不止一个吗?HTML5 规范允许多个 H1,但从 GEO 角度强烈建议每页只有一个。多个 H1 会模糊页面的主题焦点,影响 AI 对页面核心主题的判断。
-
表格数据用 CSV 下载链接行不行?不行。AI 爬虫不会点击下载链接。核心参数必须以 HTML 形式直接展示在页面中——可以同时提供下载链接作为用户的补充选项,但页面上必须有可被直接读取的文本版本。
