Logits 与 Softmax：AI 选择下一个词的概率计算过程

Logits 是模型为每个候选 Token 计算的原始分数，Softmax 函数将这些分数转化为概率分布（总和为 1），用于决定下一个 Token 是什么。这两步是 AI 生成每一个词的基础机制。

通俗理解

AI 写回答的每一步，都是一场”候选词选举”。

Logits 是每个候选的”原始得票数”。 有的候选得了 8.5 分，有的得了 3.2 分，有的得了 -1.0 分。但这些分数没有统一标准——8.5 和 3.2 之间的差距到底意味着什么？

Softmax 是”计票规则”。 它把所有原始分数转化成百分比——8.5 分变成 72%，3.2 分变成 18%，-1.0 分变成 0.3%。所有百分比加起来正好等于 100%。

现在你知道了：72% 的候选有绝对优势。Temperature 和 Top-K/Top-P 就是在这个百分比分布上做手脚——低温度让 72% 变成 95%（赢者通吃），高温度让 72% 变成 45%（竞争更激烈）。

Softmax 的”赢者通吃”特性

Softmax 函数有一个关键的数学特性：它不是线性缩放，而是指数缩放。 这意味着分数差距会被放大——原始分数差 2 分，Softmax 后概率可能差 7 倍。

在 AI 的注意力机制中，Softmax 同样被使用——决定每个 Token”关注”哪些其他 Token。这就是为什么与核心主题最相关的内容会获得压倒性的注意力权重，而不太相关的内容几乎被忽略（策略 27：Softmax 注意力·主题聚焦）。

这和 GEO 有什么关系

理解 Logits → Softmax → 概率分布这条链路，你就理解了 AI 生成行为的数学基础。《让AI替你说话：GEO权威指南》35 条策略中策略 27（Softmax 注意力·主题聚焦）直接基于 Softmax 的”赢者通吃”特性：页面上每个信息点都要与核心主题建立强关联——因为 Softmax 会放大最相关和最不相关之间的差距，无关内容会被指数级压低权重。

常见问题 FAQ

Logits 和输出文字什么关系？

Logits 是对所有候选 Token 的原始评分，经 Softmax 转为概率分布，最高概率的被选中输出。
Softmax 每个 Token 都要计算吗？

是。每个生成的 Token 都经过一次完整 Softmax 计算——对词表中所有候选做概率分布计算。
理解 Logits 对 GEO 有帮助吗？

直接帮助有限，但理解它能帮你分析”为什么 AI 选择了某个表述”——对分析引用行为和调整策略有间接价值。

Logits 与 Softmax：AI 选择下一个词的概率计算过程

通俗理解

Softmax 的”赢者通吃”特性

这和 GEO 有什么关系

延伸阅读

常见问题 FAQ