HTML 语义标签与页面信噪比:让 AI 分清正文和噪音

Contents

    AI 爬虫抓到你的页面后,下一个挑战是从一堆 HTML 代码中分清哪些是正文、哪些是导航栏和广告。正确使用语义标签(main、article、nav、footer)是解决这个问题最直接的手段。把所有内容都塞在 div 里,对 AI 来说正文和噪音混在一起,信噪比极低。

    核心解释

    语义标签的核心作用

    HTML5 语义标签不只是让代码”规范”——它们在帮助 AI 爬虫区分正文和非正文区域。

    main 标签: 包裹主要内容区域,这是告诉 AI “这里面是核心内容”最清晰的信号。

    article 标签: 包裹文章正文。

    nav 标签: 标识导航区域,AI 在提取正文时会降低这些区域的权重。

    footer 标签: 标识页脚。aside 标签: 标识侧边栏。

    很多网站把所有内容都放在 div 里——导航是 div,正文是 div,广告也是 div。人类通过视觉排版能区分这些区域,但 AI 爬虫看到的全是无差别的 div。

    H 标签层级:帮助 AI 理解内容结构

    H 标签(H1-H6)是 AI 理解页面内容结构最重要的信号之一。在 RAG 系统中,H 标签经常被用作切片的切割点——每个 H2 小节可能被切成一个独立切片。

    核心规则: 每个页面只有一个 H1,对应页面主标题。H2 用于主要章节标题,H3 用于子标题,严格按层级嵌套不跳级。H 标签的内容应该能概括该节的核心意思——因为当 AI 切片时,H 标签往往是切片的”标题”,直接影响切片在向量空间中的语义定位。

    图片表格:可提取性的最大杀手之一

    很多企业官网把产品参数做成精美的图片表格。在当前主流抓取流程中,图片里的文字和数字几乎不会被提取和索引。核心参数必须以 HTML 原生表格或纯文本形式存在于页面中。

    实操要点

    • 检查页面源代码:正文是否被 main 或 article 包裹,导航、页脚、侧边栏是否各自有正确的语义标签
    • 每个页面只有一个 H1,H2/H3 按层级嵌套不跳级
    • 核心产品参数如果是图片形式,标记为需整改——替换为 HTML 原生表格
    • H 标签的文字应该是该节内容的摘要,不要用”更多信息””详情介绍”这种空洞标题

    常见问题 FAQ

    • 我的网站全是 div,改动量大吗?
      如果只改语义标签(把外层 div 换成 main、article 等),对页面外观没有任何影响,纯粹是 HTML 层面的标签替换。工作量取决于页面模板的数量——如果用的是统一模板,改一次就全站生效。
    • H1 可以不止一个吗?
      HTML5 规范允许多个 H1,但从 GEO 角度强烈建议每页只有一个。多个 H1 会模糊页面的主题焦点,影响 AI 对页面核心主题的判断。
    • 表格数据用 CSV 下载链接行不行?
      不行。AI 爬虫不会点击下载链接。核心参数必须以 HTML 形式直接展示在页面中——可以同时提供下载链接作为用户的补充选项,但页面上必须有可被直接读取的文本版本。
    最近更新:2026年4月12日👁 38  ·  👍 0  ·  👎 0
    这篇内容对你有帮助吗?