关键词堆砌在向量检索中不仅无效,反而有害:重复同一个词只会让内容向量在语义空间中过度集中在一个点上,无法覆盖用户的多样化提问方式,同时稀释了内容的信息密度。
通俗理解
传统 SEO 时代有一个朴素的信念:一个关键词在页面中出现得越多,搜索引擎就越认为这个页面和这个关键词相关。
这个逻辑在向量检索中完全反转了。
打个比方:你在一张城市地图上标注自己的位置。关键词堆砌相当于在同一个坐标点上反复插了 50 面旗子——你的位置没有变,只是旗子变多了。但用户从不同方向进城(不同的提问方式),你需要的不是在一个点上插更多旗子,而是在多个路口都有标识。
向量检索看的是你覆盖了多大的语义区域,不是你在一个点上重复了多少次。
技术层面:为什么堆砌会适得其反
向量被”钉死”在一个点
当你的页面反复出现”实验室天平”这个词,页面向量会被强烈拉向”实验室天平”这个语义点。表面上看,搜”实验室天平”时你应该排名很高。
但问题是:用户的提问方式远不止这一种。”分析天平怎么选””精密称量设备推荐””0.01mg 精度的秤”——这些查询的向量都在”实验室天平”附近但不完全重叠。你的向量被钉死在一个点上,和这些相邻查询的距离反而不如那些语义覆盖更广的竞品页面。
信息密度被稀释
一段 300 字的切片里,如果”实验室天平”出现了 8 次,真正有效的信息(参数、价格、场景、对比结论)的占比就被大幅压缩。在 RAG 的重排序阶段,信息密度是重要的竞争维度——一个充满重复词汇的切片,和一个每句话都是新信息的切片竞争同一个引用位置,后者几乎必胜。
切片后更加暴露
关键词堆砌在整篇文章的视角下可能还不太明显,但一旦被切成独立切片,问题就被放大了。一个 200 字的切片里同一个词出现 5 次,这个切片的语义纯度极低,向量方向也不够精准。
正确做法:语义场覆盖
替代关键词堆砌的策略是语义场覆盖——围绕核心主题,用不同的表达方式覆盖同一语义区域的不同角落。
以”实验室天平”为例:
❌ 堆砌式写法:
“实验室天平是实验室常用的实验室天平设备。选购实验室天平时,实验室天平的精度是最重要的实验室天平参数。”
✅ 语义场覆盖式写法:
“实验室天平是精密称量的核心设备。选购时重点关注分析天平的读数精度(建议 0.01mg 及以上)、电子天平的量程范围(常见 220g/320g/520g 三档)、以及微量天平在痕量分析中的适用性。”
第二种写法覆盖了”实验室天平””分析天平””电子天平””微量天平””精密称量””读数精度””量程范围””痕量分析”等多个语义点,在向量空间中占据了远大于第一种写法的区域。
关键词到底还要不要写
要写,但策略完全不同。
在混合检索体系中(大多数 RAG 系统同时使用向量检索和 BM25 关键词检索),核心关键词仍然需要出现——确保 BM25 通道不漏掉你。
但出现方式应该是:
- 核心关键词在标题、H1、首段各出现一次——确保被索引
- 正文中用近义词和相关表达自然替换——扩大语义覆盖
- 每个切片中至少有一个核心实体的完整名称——确保切片后仍可识别
一句话总结:关键词负责”入场”,语义场负责”竞争”。
这和 GEO 有什么关系
关键词堆砌失效的技术原因,在《让AI替你说话:GEO权威指南》35 条策略中有两条直接对应:
- 策略 01(Tokenization·BPE 分词): 核心术语要用高频自然词汇表达,避免生僻缩写和造词
- 策略 02(词嵌入·语义场覆盖): 内容围绕主题构建完整语义场,让页面 Embedding 向量最大化覆盖目标查询
《让AI替你说话:GEO权威指南》公式二中的”语义相关性”变量,衡量的正是你的内容向量与用户查询向量之间的距离——这个距离不是靠重复关键词来缩短的,而是靠语义场覆盖来实现的。
延伸阅读
- 《让AI替你说话:GEO权威指南》第二章 2.3 节”Embedding:语义的数字坐标”
- 《让AI替你说话:GEO权威指南》第三章 3.5 节”向量检索”
- GEOBOK 免费工具:AI 语义对齐分析、Token 密度检测器
常见问题 FAQ
-
关键词堆砌在传统 SEO 中也过时了吗?是的。Google 2012 年就开始惩罚。AI 时代更严重——向量检索看语义不看词频,堆砌只会缩小覆盖面。
-
适当重复和堆砌的界限在哪?适当:同一词在标题、首段、H2、总结中各自然出现一次。堆砌:一段话中出现 5 次以上或强行插入不自然位置。
-
语义覆盖就是换说法重复同一件事吗?不只是换说法,是从不同角度和场景覆盖同一主题。不同表达代表不同的用户搜索意图。
