AI 在引用你的内容时会用自回归方式重新表述。如果你的原文结构复杂、句式拗口、逻辑跳跃,AI 在逐词预测过程中的”累积偏离”会很大——复述出来的内容可能偏离原意。结果是 AI 更倾向引用那些简洁清晰、容易被忠实复述的内容,而跳过复杂绕口的内容。
“接龙偏离”的累积效应
自回归生成是逐词预测。每一步预测都有一定概率偏离正确方向。
如果你的句子只有 10 个 Token,每步偏离概率 2%,最终偏离概率 ≈ 18%。
如果你的句子有 50 个 Token,每步偏离概率 2%,最终偏离概率 ≈ 64%。
句子越长,累积偏离越大。这就是为什么长句在 AI 复述时比短句更容易”走样”。
低温度设置会降低每一步的偏离概率,但不会消除它。最安全的策略仍然是缩短每句话的 Token 数——给偏离留的空间越小,复述的忠实度越高。
什么样的内容”复述友好”
| 特征 | 复述友好 ✅ | 复述不友好 ❌ |
|---|---|---|
| 句式 | 短句、主动语态 | 长句、被动语态、多层嵌套 |
| 信息量 | 每句一个事实 | 一句话三个论点 |
| 结构 | 结论→证据→示例 | 背景→铺垫→绕回→终于到结论 |
| 用词 | 精确术语 | 模糊形容词、委婉表达 |
| 逻辑 | 显式连接(因此/例如) | 隐式跳跃(读者自己猜关系) |
RLHF 的偏好加成
除了自回归的技术原因,还有一层更底层的因素:RLHF 对齐训练。
大模型在训练后期经过了人类偏好对齐——标注员给”客观、直接、有数据支撑”的回答打高分,给”模糊、浮夸、信源不明”的回答打低分。模型学会了偏好前者的风格。
当 AI 在多个候选内容中选择引用来源时,风格更接近”高质量回答”的内容更容易被流畅整合进回答。营销软文、官方废话、委婉绕弯的表述——在 RLHF 训练出的偏好体系中天然处于劣势。
一个自测方法
写完一段内容后,大声读一遍。如果你自己读起来都磕磕绊绊,需要回头重读才能理解——AI 的”接龙”在这段内容上的阻力一定更大。
简单标准:如果一段话不需要回读就能一次理解,它就是复述友好的。
这和 GEO 有什么关系
复述失真是《让AI替你说话:GEO权威指南》第六章”易读性”维度的技术根源。易读性不是审美偏好——它是工程问题:你的内容写成什么句式,直接决定了 AI 在复述时的失真程度。
35 条策略中策略 25(RLHF 对齐·HHH 原则)解释了为什么”有帮助、无害、诚实”的内容风格被 AI 系统性偏好。
延伸阅读
- 《让AI替你说话:GEO权威指南》第二章 2.5 节”AI 怎么把你的内容说出来”
- 《让AI替你说话:GEO权威指南》第六章 6.4 节”易读性”
- 《让AI替你说话:GEO权威指南》35 条策略·策略 25″RLHF 对齐·HHH 原则”
常见问题 FAQ
-
什么句式最容易被 AI 准确复述?短句、主动语态、主谓宾结构清晰的句式。例如”该产品支持 5G,续航 12 小时”比复杂长句更容易被准确复述。
-
复述失真和是否被引用是同一问题吗?不是。是否被引用取决于检索和重排序;复述失真发生在生成阶段——内容被选中后 AI 重新表述时偏离原意。
-
专业术语会增加复述阻力吗?术语本身不会——AI 对标准术语很熟练。增加阻力的是句式复杂度:嵌套从句、被动语态、多重修饰。
