RAG 系统评估内容质量时常用四个维度:上下文相关性、忠实性、答案相关性、答案正确性。在这四个维度上表现更好的内容,在竞争同一个引用位置时通常更有机会胜出。
通俗理解
把 AI 想象成一个需要写报告的分析师。他从一堆资料中选参考文献时,会问自己四个问题:
- 这份资料跟我要回答的问题有关吗?(上下文相关性)
- 这份资料本身靠谱吗?数据可追溯吗?(忠实性)
- 这份资料直接回答了问题,还是说了一堆相关但不回答问题的话?(答案相关性)
- 这份资料里的事实是对的吗?(答案正确性)
四个问题全部过关的资料,才会被选为参考文献放进报告。
四个维度详解
维度一:上下文相关性——你的内容跟问题有关吗
衡量的是你的内容切片与用户查询的语义匹配度。
一个页面混杂了五个不相关的话题,切片后每个块的 Embedding 向量是所有话题的”平均值”——离任何一个具体查询都不够近。
GEO 动作: 一个主题一个页面。每个 H2 小节聚焦一个子话题。不在产品页里插公司新闻,不在技术文档里夹营销广告。
维度二:忠实性——你的信息可验证吗
衡量的是内容是否可追溯、可验证。AI 基于你的内容生成回答后,这个回答是否忠实于你提供的事实。
如果你的内容本身就不精确——数据没有来源、结论没有依据、标题承诺和正文不一致——模型基于它生成的回答也不会精确。
GEO 动作:
– 事实陈述附参考来源(”据 XX 机构 2025 年报告”)
– 标题和正文严格一致,不做标题党
– 数据标注时间、来源和适用范围
维度三:答案相关性——你直接回答问题了吗
衡量的是你的内容是否直接回答了用户的问题,而不是说了一堆相关但不直接回答的信息。
用户问”XX 仪器多少钱”,你的内容说了 500 字的行业背景和技术原理,最后一句才提到”具体价格请咨询销售”——答案相关性极低。
GEO 动作: 首段即答案。用户问什么就在首段直接回答什么,然后再展开背景和细节。结论前置不是风格偏好,是在答案相关性维度上的硬性要求。
维度四:答案正确性——你的事实对吗
衡量的是内容中事实性信息的准确度。
一个看似微小的错误(比如把某个产品的参数写错了)在 AI 时代的影响被放大了:AI 可能会把你的错误信息复述给大量用户,如果后续被其他来源交叉验证发现,不仅这次引用会被撤回,你的内容在未来的可信度也会下降。
GEO 动作: 事实性信息零容忍。发布前逐条核实数据、参数、价格、日期。定期审查旧内容中的过时信息。
四个维度的优先级
如果资源有限,优先确保:
- 答案正确性 — 错了比没有更糟糕
- 答案相关性 — 不回答问题等于白写
- 上下文相关性 — 主题聚焦才能被精准匹配
- 忠实性 — 可验证性建立长期信任
这和 GEO 有什么关系
四维度评估对应《让AI替你说话:GEO权威指南》35 条策略中的策略 26(RAG 四维评估·全面达标),也贯穿了第六章”内容三支柱”的全部内容:
- 上下文相关性 → 第六章·相关性
- 忠实性 → 第六章·权威性
- 答案相关性 → 第五章·答案块工程(结论前置)
- 答案正确性 → 第六章·权威性(事实准确)
《让AI替你说话:GEO权威指南》公式二(RAG 命中率 ≈ 语义相关性 × 信息独特性 × 引用便利性)中的三个变量,本质上就是这四个维度的另一种表达。
延伸阅读
- 《让AI替你说话:GEO权威指南》第三章 3.6 节”重排序”
- 《让AI替你说话:GEO权威指南》第六章”内容三支柱”
- GEOBOK 免费工具:答案块 GEO 评分器、页面 GEO 体检报告
常见问题 FAQ
-
RAG 评估四个维度权重一样吗?不完全一样。通常答案相关性和正确性权重较高。忠实度和上下文利用率是辅助指标。
-
能直接测试四个维度的表现吗?可间接测试:在不同 AI 产品中提问目标问题,观察引用情况、准确度和忠实度。虽非量化但能直观反映综合表现。
-
四个维度会互相冲突吗?有可能。极高忠实度(完全照搬)可能降低答案相关性(AI 需要按问题调整措辞)。平衡策略:准确事实+简洁句式方便灵活复述。
