主流大语言模型的训练分三个阶段:预训练(从海量文本中学习语言规律)、SFT 监督微调(学习怎么回答问题)、RLHF 人类偏好对齐(学习什么样的回答是”好”的)。理解这三个阶段,你就知道为什么 AI 对不同类型的内容有不同的偏好。
三阶段解析
阶段一:预训练——”博览群书”
模型在数万亿 Token 的文本上训练,学会了语言的基本规律:语法、语义、事实知识、推理模式。
GEO 含义: 这个阶段决定了参数化记忆。你的品牌信息如果在预训练数据中频繁出现且来源权威,模型就”认识”你。→ 对应《让AI替你说话:GEO权威指南》第三章参数化记忆
阶段二:SFT(监督微调)——”学会回答问题”
用精心标注的”问题-回答”数据对训练模型,让它学会以对话的方式回答问题,而不是简单地续写文本。
GEO 含义: SFT 数据通常以”定义→解释→示例→总结”的结构组织。你的内容越接近这种结构,模型引用时的”阻力”越小。→ 对应策略 05
阶段三:RLHF(人类偏好对齐)——”学会什么是好回答”
人类标注员给模型的多个回答做偏好排序,模型据此学习”人类喜欢什么样的回答”。核心偏好:有帮助(直接回答问题)、无害(不传播错误信息)、诚实(承认不确定性)。
GEO 含义: 经过 RLHF 的模型系统性偏好”客观、直接、有数据支撑”的内容,排斥”模糊、浮夸、信源不明”的内容。→ 对应策略 25
为什么营销软文越来越不好使
三个阶段的训练层层叠加,最终效果是:
- 预训练让模型”认识”权威来源
- SFT 让模型偏好结构化回答
- RLHF 让模型排斥夸大和模糊
营销软文在这三层筛选中每一层都吃亏。 这不是某个 AI 产品的故意设计,而是训练过程的自然结果。
延伸阅读
- 《让AI替你说话:GEO权威指南》第二章 2.5 节
- 《让AI替你说话:GEO权威指南》35 条策略·策略 05/25
常见问题 FAQ
-
预训练数据包括我的网站吗?有可能。预训练数据通常包含 Common Crawl。如果你的网站被收录就可能进入训练数据,但你无法确认也无法控制。
-
SFT 阶段对 GEO 有什么影响?SFT 塑造了 AI 的回答风格偏好——符合这种风格(结构化、事实导向)的内容更容易被整合进回答。
-
RLHF 和 AI 审美偏好什么关系?直接关系。RLHF 通过人类评分训练奖励模型——”客观直接有数据”得高分。这变成了 AI 的内容偏好。
