重排序(Re-ranking)是 RAG 链路中向量检索返回候选切片后的第二轮精细评估,它对查询与每个切片的整体匹配质量做更深入的判断,决定哪些切片最终被送入模型的上下文窗口。
通俗理解
向量检索像海选——从几百万个切片中快速筛出最相关的 50 个候选。速度快,但判断粗糙。
重排序像复试——对这 50 个候选逐一做更细致的评估,从中选出真正值得推荐的 5-10 个。速度慢,但判断精准。
向量检索决定你能不能进入候选名单,重排序决定你能不能最终被引用。
技术原理
向量检索用的是”双塔模型”——查询和切片分别编码为向量,算一个距离就完事。优点是快,缺点是粗:它只看整体语义方向,不做细粒度的交叉比较。
重排序用的是”交叉编码器”——把查询和切片拼在一起,让模型逐词交叉对比,输出一个精细的匹配分数。它能捕捉到向量检索忽略的细微差异:比如”实验室天平的精度”和”天平实验室的精确度”,向量距离可能很近,但重排序模型能判断前者更匹配”实验室天平怎么选”这个查询。
重排序阶段什么样的内容容易胜出
重排序不只看语义匹配度,还会综合评估多个维度。虽然不同系统的实现有差异,但从实际测试和工程经验来看,以下因素在重排序中普遍发挥作用:
信息密度
同样回答”XX 仪器多少钱”这个问题:
❌ “该仪器价格适中,性价比较高,欢迎咨询我们获取最新报价。”
✅ “XX 品牌 YY 型号参考价格 15-20 万元(2025 年市场价),含标准配件和一年质保。进口同级别产品参考价 35-50 万元。”
第二个切片的信息密度远高于第一个。重排序模型在评估”这个切片能不能回答用户的问题”时,第二个切片的得分显然更高。
权威信号
“据了解,这款产品市场反响不错。” vs “据第三方平台 2025 年用户评价数据,该型号综合满意度评分 4.6/5,共收到 328 条评价。”
后者提供了可验证的来源、具体数据和评价数量。在 RAG 评估框架中,这属于”忠实性”维度——内容是否可追溯、可验证。
内容新鲜度
“2022 年市场数据显示……” vs “2025 年最新数据显示……”
很多重排序系统会考虑内容的时间信号。页面中的日期标记、Sitemap 的 lastmod 时间戳、以及正文中提及的年份,都可能影响新鲜度评分。
结构清晰度
结构混乱、主题跳跃的切片,即使语义上和查询相关,在重排序中也可能被扣分——因为模型判断这个切片”难以被清晰复述”,引用价值低。
这和 GEO 有什么关系
重排序是《让AI替你说话:GEO权威指南》公式二(RAG 命中率 ≈ 语义相关性 × 信息独特性 × 引用便利性)中”信息独特性”和”引用便利性”两个变量的主要竞争场。
- 信息独特性: 你的切片是否提供了其他来源没有的独家信息(独家数据、独家分析、独家视角)
- 引用便利性: 你的切片是否结构清晰、结论前置、AI 可以直接”拎走”放进回答
35 条策略中,策略 23(忠实性·引用来源标准)和策略 26(RAG 四维评估·全面达标)直接对应重排序阶段的竞争。
如果你的内容通过了向量检索但引用率仍然低,问题大概率出在重排序阶段——信息密度不够、权威信号不足、或者内容结构不利于被提取。
延伸阅读
- 《让AI替你说话:GEO权威指南》第三章 3.6 节”重排序:候选切片的精细筛选”
- 《让AI替你说话:GEO权威指南》第六章·权威性和信息密度的详细优化方法
- GEOBOK 免费工具:答案块 GEO 评分器(评估你的内容在重排序阶段的竞争力)
常见问题 FAQ
-
重排序模型和检索模型一样吗?通常不同。检索模型(Bi-Encoder)快速筛选大量候选,重排序(Cross-Encoder)对少量候选做精细评分,精度更高但更慢。
-
重排序分数公开吗?不公开。但可通过 AI 最终输出间接判断:你是否被引用、引用准确度、措辞是否接近原文。
-
怎么提高重排序分数?三个方向:提高信息密度(删套话),结论前置(核心答案在首句),查询意图匹配(直接回答用户问题)。
