混合检索是大多数 RAG 系统采用的检索方式,同时使用传统的 BM25 关键词匹配和向量语义检索,然后合并结果排序——这意味着你的内容必须在两个通道上都有竞争力。
通俗理解
你在一个城市找餐厅。同时用两种方式搜:
方式一(BM25): 打开地图,搜”川菜馆”三个字。只有店名或描述里包含”川菜馆”的才会出现。
方式二(向量检索): 告诉一个美食顾问”我想吃辣的、有花椒味道的中餐”。顾问根据语义理解,可能推荐川菜馆、湘菜馆、甚至一家做麻辣火锅的店——虽然这些店名里可能没有”川菜馆”三个字。
混合检索就是同时用这两种方式搜,然后把两份结果合在一起排序。
只做关键词优化,向量检索通道会漏掉你。只做语义覆盖,BM25 通道会漏掉你。两个都做,才能在合并排序中拿到最高分。
技术原理
BM25:经典的关键词匹配
BM25(Best Matching 25)是信息检索领域的经典算法,核心逻辑是:查询中的关键词在文档中出现得越多(但有递减效应)、在其他文档中出现得越少(稀有性加分),文档的 BM25 得分就越高。
BM25 的优势是精确匹配——用户搜”iPhone 16 Pro Max 价格”,包含这个完整短语的页面会获得高分。
BM25 的劣势是无法理解语义——”iPhone 16 Pro Max 售价”和”苹果最新旗舰手机多少钱”在 BM25 看来是两个完全不同的查询。
向量检索:语义匹配
向量检索的原理在上一篇文章中已经详细讲过:通过比较查询向量和内容向量的语义距离来匹配,不依赖字面重叠。
向量检索的优势是语义理解——”装修公司”和”家装服务”能匹配上。
向量检索的劣势是可能遗漏精确查询——用户搜一个非常具体的型号名称时,纯语义匹配可能不如精确关键词匹配准。
混合检索:取两者之长
大多数 RAG 系统同时运行两种检索,用加权方式合并结果。典型的做法是:
- BM25 返回 Top 50 个候选
- 向量检索返回 Top 50 个候选
- 对两份列表的得分做归一化
- 按加权求和排序,输出最终的 Top N
这意味着如果你的内容在两个通道都排名靠前,合并后的得分会远高于只在一个通道排名靠前的竞品。
GEO 的双通道优化策略
确保 BM25 不漏掉你
- 核心关键词在标题、H1、首段各出现至少一次
- 用户最常搜的精确短语必须在页面中完整出现
- 产品型号、品牌名等专有名词不要只用近义词替代
确保向量检索给你高分
- 围绕核心主题覆盖 5-10 种近义表达
- 不同段落从不同角度描述同一话题
- FAQ 用用户真实提问句式
一个实操检查方法
写完一篇内容后,做两个测试:
测试一(模拟 BM25): 用 Ctrl+F 搜索你的核心关键词。标题、H1、首段是否都出现了?如果某个核心关键词全文只出现了一次甚至零次,BM25 通道可能会漏掉你。
测试二(模拟向量检索): 列出用户可能问这个话题的 5 种不同说法。检查你的内容是否覆盖了至少 3 种以上的表达方式。如果全文只用了一种说法,向量覆盖面太窄。
这和 GEO 有什么关系
混合检索对应《让AI替你说话:GEO权威指南》35 条策略中的策略 08(多路召回·多检索路径):让内容在多种检索路径上都能被找到。
它也是策略 01(BPE 分词·核心关键词)和策略 02(Embedding·语义场覆盖)的实操交叉点——两条策略分别优化 BM25 和向量检索两个通道,混合检索是它们协同发挥作用的场景。
延伸阅读
- 《让AI替你说话:GEO权威指南》第三章 3.5 节”向量检索”
- 《让AI替你说话:GEO权威指南》35 条策略·策略 08″多路召回”
- GEOBOK 免费工具:AI 语义对齐分析、Token 密度检测器
常见问题 FAQ
-
BM25 和向量检索结果怎么合并?常见方式有倒数融合(RRF)和加权得分合并。基本逻辑:两个通道都排名靠前的内容综合排名最高。
-
只优化一个通道行吗?可以但不推荐。只优化关键词会错失不同用词的语义查询;只优化语义可能被精确匹配超越。同时覆盖两个通道最优。
-
BM25 对中文效果怎样?BM25 对任何语言有效,基于词频统计不依赖语言特性。中文需先分词但主流系统都内置了。效果和英文相当。
