Logits 与 Softmax:AI 选择下一个词的概率计算过程

Contents

    Logits 是模型为每个候选 Token 计算的原始分数,Softmax 函数将这些分数转化为概率分布(总和为 1),用于决定下一个 Token 是什么。这两步是 AI 生成每一个词的基础机制。

    通俗理解

    AI 写回答的每一步,都是一场”候选词选举”。

    Logits 是每个候选的”原始得票数”。 有的候选得了 8.5 分,有的得了 3.2 分,有的得了 -1.0 分。但这些分数没有统一标准——8.5 和 3.2 之间的差距到底意味着什么?

    Softmax 是”计票规则”。 它把所有原始分数转化成百分比——8.5 分变成 72%,3.2 分变成 18%,-1.0 分变成 0.3%。所有百分比加起来正好等于 100%。

    现在你知道了:72% 的候选有绝对优势。Temperature 和 Top-K/Top-P 就是在这个百分比分布上做手脚——低温度让 72% 变成 95%(赢者通吃),高温度让 72% 变成 45%(竞争更激烈)。

    Softmax 的”赢者通吃”特性

    Softmax 函数有一个关键的数学特性:它不是线性缩放,而是指数缩放。 这意味着分数差距会被放大——原始分数差 2 分,Softmax 后概率可能差 7 倍。

    在 AI 的注意力机制中,Softmax 同样被使用——决定每个 Token”关注”哪些其他 Token。这就是为什么与核心主题最相关的内容会获得压倒性的注意力权重,而不太相关的内容几乎被忽略(策略 27:Softmax 注意力·主题聚焦)。

    这和 GEO 有什么关系

    理解 Logits → Softmax → 概率分布这条链路,你就理解了 AI 生成行为的数学基础。《让AI替你说话:GEO权威指南》35 条策略中策略 27(Softmax 注意力·主题聚焦)直接基于 Softmax 的”赢者通吃”特性:页面上每个信息点都要与核心主题建立强关联——因为 Softmax 会放大最相关和最不相关之间的差距,无关内容会被指数级压低权重。

    延伸阅读

    • 《让AI替你说话:GEO权威指南》第二章 2.4-2.5 节
    • 《让AI替你说话:GEO权威指南》35 条策略·策略 27″Softmax 注意力·主题聚焦”

    常见问题 FAQ

    • Logits 和输出文字什么关系?
      Logits 是对所有候选 Token 的原始评分,经 Softmax 转为概率分布,最高概率的被选中输出。
    • Softmax 每个 Token 都要计算吗?
      是。每个生成的 Token 都经过一次完整 Softmax 计算——对词表中所有候选做概率分布计算。
    • 理解 Logits 对 GEO 有帮助吗?
      直接帮助有限,但理解它能帮你分析”为什么 AI 选择了某个表述”——对分析引用行为和调整策略有间接价值。
    最近更新:2026年4月12日👁 2  ·  👍 0  ·  👎 0
    这篇内容对你有帮助吗?