预训练→SFT→RLHF：一个 AI 模型是怎么被"教育"出来的

主流大语言模型的训练分三个阶段：预训练（从海量文本中学习语言规律）、SFT 监督微调（学习怎么回答问题）、RLHF 人类偏好对齐（学习什么样的回答是”好”的）。理解这三个阶段，你就知道为什么 AI 对不同类型的内容有不同的偏好。

三阶段解析

模型在数万亿 Token 的文本上训练，学会了语言的基本规律：语法、语义、事实知识、推理模式。

GEO 含义： 这个阶段决定了参数化记忆。你的品牌信息如果在预训练数据中频繁出现且来源权威，模型就”认识”你。→ 对应《让AI替你说话：GEO权威指南》第三章参数化记忆

用精心标注的”问题-回答”数据对训练模型，让它学会以对话的方式回答问题，而不是简单地续写文本。

GEO 含义： SFT 数据通常以”定义→解释→示例→总结”的结构组织。你的内容越接近这种结构，模型引用时的”阻力”越小。→ 对应相关策略

人类标注员给模型的多个回答做偏好排序，模型据此学习”人类喜欢什么样的回答”。核心偏好：有帮助（直接回答问题）、无害（不传播错误信息）、诚实（承认不确定性）。

GEO 含义： 经过 RLHF 的模型系统性偏好”客观、直接、有数据支撑”的内容，排斥”模糊、浮夸、信源不明”的内容。→ 对应相关策略

三个阶段的训练层层叠加，最终效果是：

营销软文在这三层筛选中每一层都吃亏。 这不是某个 AI 产品的故意设计，而是训练过程的自然结果。

预训练数据包括我的网站吗？

外部通常无法确认某个具体网站是否进入某次训练、使用了哪个版本或产生了什么影响。应以模型提供方公开的数据说明和许可机制为准，不用模型能否说出品牌来反推训练来源。
SFT 阶段对 GEO 有什么影响？

SFT 会影响模型遵循指令和组织回答的方式，但不能据此推出模型偏爱某种网页文风或来源。内容结构建议仍应由用户任务和实际产品测试支持。
RLHF 和 AI 审美偏好什么关系？

RLHF 等对齐方法训练的是模型回答行为，不是直接给网页打分。无法从公开资料断言它专门惩罚某类营销文案；应独立审查内容是否真实、有帮助、清楚并符合产品安全要求。