重排序：向量检索之后，AI 如何做第二轮精细筛选

重排序（Re-ranking）是 RAG 链路中向量检索返回候选切片后的第二轮精细评估，它对查询与每个切片的整体匹配质量做更深入的判断，决定哪些切片最终被送入模型的上下文窗口。

通俗理解

向量检索像海选——从几百万个切片中快速筛出最相关的 50 个候选。速度快，但判断粗糙。

重排序像复试——对这 50 个候选逐一做更细致的评估，从中选出真正值得推荐的 5-10 个。速度慢，但判断精准。

向量检索决定你能不能进入候选名单，重排序决定你能不能最终被引用。

向量检索用的是”双塔模型”——查询和切片分别编码为向量，算一个距离就完事。优点是快，缺点是粗：它只看整体语义方向，不做细粒度的交叉比较。

重排序用的是”交叉编码器”——把查询和切片拼在一起，让模型逐词交叉对比，输出一个精细的匹配分数。它能捕捉到向量检索忽略的细微差异：比如”实验室天平的精度”和”天平实验室的精确度”，向量距离可能很近，但重排序模型能判断前者更匹配”实验室天平怎么选”这个查询。

重排序不只看语义匹配度，还会综合评估多个维度。虽然不同系统的实现有差异，但从实际测试和工程经验来看，以下因素在重排序中普遍发挥作用：

同样回答”XX 仪器多少钱”这个问题：

❌ “该仪器价格适中，性价比较高，欢迎咨询我们获取最新报价。”
✅ “XX 品牌 YY 型号参考价格 15-20 万元（2025 年市场价），含标准配件和一年质保。进口同级别产品参考价 35-50 万元。”

第二个切片的信息密度远高于第一个。重排序模型在评估”这个切片能不能回答用户的问题”时，第二个切片的得分显然更高。

“据了解，这款产品市场反响不错。” vs “据第三方平台 2025 年用户评价数据，该型号综合满意度评分 4.6/5，共收到 328 条评价。”

后者提供了可验证的来源、具体数据和评价数量。在 RAG 评估框架中，这属于”忠实性”维度——内容是否可追溯、可验证。

“2022 年市场数据显示……” vs “2025 年最新数据显示……”

很多重排序系统会考虑内容的时间信号。页面中的日期标记、Sitemap 的 lastmod 时间戳、以及正文中提及的年份，都可能影响新鲜度评分。

结构混乱、主题跳跃的切片，即使语义上和查询相关，在重排序中也可能被扣分——因为模型判断这个切片”难以被清晰复述”，引用价值低。

重排序是《让AI替你说话：GEO权威指南》公式二（RAG 命中率 ≈ 语义相关性 × 信息独特性 × 引用便利性）中”信息独特性”和”引用便利性”两个变量的主要竞争场。

35 条策略中，策略 23（忠实性·引用来源标准）和策略 26（RAG 四维评估·全面达标）直接对应重排序阶段的竞争。

如果你的内容通过了向量检索但引用率仍然低，问题大概率出在重排序阶段——信息密度不够、权威信号不足、或者内容结构不利于被提取。

重排序模型和检索模型一样吗？

通常不同。检索模型（Bi-Encoder）快速筛选大量候选，重排序（Cross-Encoder）对少量候选做精细评分，精度更高但更慢。
重排序分数公开吗？

不公开。但可通过 AI 最终输出间接判断：你是否被引用、引用准确度、措辞是否接近原文。
怎么提高重排序分数？

三个方向：提高信息密度（删套话），结论前置（核心答案在首句），查询意图匹配（直接回答用户问题）。