向量检索：AI 不看关键词，看语义距离

向量检索是 RAG 系统通过计算查询向量与内容切片向量之间的语义距离来匹配信息的方式，它不依赖关键词完全匹配，而是比较”意思有多像”。

通俗理解

传统搜索引擎像图书馆的卡片目录——你搜”装修公司”，它去找所有包含”装修公司”这四个字的页面。一个字都不差才能匹配。

向量检索像一个理解语义的图书管理员——你说”我想找人帮我装修房子”，他不只找”装修公司”，还会把”家装服务””室内设计施工””旧房翻新”相关的页面也找出来，因为他理解这些说法的意思是一样的。

向量检索匹配的不是字面，是语义。

向量检索的工作过程分三步：

第一步：内容向量化。 你的每个内容切片被转化为一组高维数字向量（通常几百到上千维）。这组数字代表这个切片在语义空间中的”坐标”。语义相近的切片，坐标距离更近。

第二步：查询向量化。 用户的问题也被转化为同样格式的向量。

第三步：距离计算。 系统计算查询向量与所有切片向量之间的距离（通常用余弦相似度），返回距离最近的 Top N 个切片。

整个过程中没有”关键词匹配”这一步。”装修公司”和”家装服务”在向量空间中距离很近，即使没有任何字面重叠，也能被匹配到。

传统 SEO 讲究关键词密度——同一个词出现的次数越多，排名越高。在向量检索中，这个逻辑不成立。

重复同一个关键词 10 次，只会让你的向量在一个点上过度集中。但用户的提问方式是多样的——有人搜”装修公司”，有人搜”家装服务”，有人搜”找人帮我装修房子”。你的内容需要覆盖这些不同表达，才能在向量空间中占据更大的语义区域，匹配到更多查询。

GEO 动作： 围绕核心主题自然覆盖 5-10 个近义表达。不是堆砌，是在不同段落中用不同角度描述同一件事。

“这款产品性能很好”——这句话在向量空间中的位置非常模糊，离任何具体查询都不够近。

“这款产品的检测精度达到 0.01mg，量程 0-220g，重复性 RSD<0.5%”——这句话在向量空间中精准锚定在”精度””量程””重复性”等多个具体维度上。

当用户问”哪款天平精度能到 0.01mg”时，第二句话的向量和查询向量的距离远近于第一句。

GEO 动作： 核心信息必须具体化。能写数字的不写形容词，能写具体型号的不写”该产品”，能写确切价格区间的不写”价格面议”。

虽然向量检索是语义匹配，但很多 RAG 系统实际使用的是”混合检索”——同时进行向量检索和传统的 BM25 关键词匹配，然后合并结果。

这意味着：

最佳策略是两者兼顾： 核心关键词必须出现（确保 BM25 不漏掉你），同时围绕主题构建完整的语义场（确保向量检索给你高分）。

向量检索返回的是 Top N——不是”达标就上”，而是”排名前 N 才有资格”。

这意味着你的内容不是在和一个绝对标准竞争，而是在和所有已索引的同主题内容竞争。如果竞品的切片比你的更精准、更具体、更信息密集，它的向量和查询向量的距离就比你更近——你就被挤出 Top N。

GEO 不是达标游戏，是排名游戏。

向量检索是《让AI替你说话：GEO权威指南》公式二（RAG 命中率 ≈ 语义相关性 × 信息独特性 × 引用便利性）中”语义相关性”这个变量的技术基础。

它也是 35 条策略中多条策略的底层支撑：
– 策略 02（词嵌入·语义场覆盖）→ 覆盖多种近义表达
– 策略 07（向量检索·语义块组织）→ 每个块自包含、可独立检索
– 策略 08（多路召回·多检索路径）→ 同时覆盖关键词和语义