上下文窗口(Context Window)是大语言模型一次能处理的最大 Token 数量,它决定了 AI 在生成回答时能”看到”多少信息——超出窗口的内容会被截断,就像从未存在过一样。
通俗理解
上下文窗口就像 AI 的”工作台”。工作台只有这么大,能同时摊开的资料有限。
如果你给 AI 一本 500 页的书让它回答问题,它不是把整本书装进脑子——它只能在工作台上摊开其中几十页。你的内容如果不在这几十页之内,对 AI 来说等于不存在。
主流模型的上下文窗口
| 模型 | 上下文窗口 | 约相当于 |
|---|---|---|
| GPT-4o | 128K Token | 约 10 万字中文 |
| Claude 3.5 | 200K Token | 约 15 万字中文 |
| Gemini 1.5 Pro | 2M Token | 约 150 万字中文 |
| 百度文心 | 约 128K Token | 约 10 万字中文 |
看起来很大?但在 RAG 场景中,实际注入上下文的内容通常只有几百到几千 Token——因为上下文窗口要分配给系统指令、对话历史、检索到的多个切片等多项内容。
为什么你的核心信息会被”截断”
截断发生在两个层面:
RAG 层面: 你的页面被切成切片后,只有排名靠前的几个切片会被注入上下文。如果你的核心结论在第五个 H2 小节,而前四个小节的切片已经占满了注入配额,你的结论就被”截断”了——不是物理截断,而是”没被选上”。
注意力层面: 即使你的切片被注入了上下文,如果位于中间位置,模型的注意力利用率可能低于开头和结尾位置(”中间迷失”效应)。你的内容在物理上”在”上下文里,但在效果上”不在”。
这和 GEO 有什么关系
上下文窗口的限制是”结论前置”这个 GEO 铁律的技术根源之一。《让AI替你说话:GEO权威指南》35 条策略中的策略 04(位置编码·信息前置)直接源于此:
- 核心答案放在页面最前面——确保在任何截断点都能被保留
- 每个 H2 标题紧跟一句核心回答——确保切片的首句就是关键信息
- Meta Description 开头就说明页面主题——它往往是 AI 最先看到的内容
你的内容被读到的概率与它的位置成反比。越靠前,越安全。
延伸阅读
- 《让AI替你说话:GEO权威指南》第二章 2.4 节”注意力机制”
- 《让AI替你说话:GEO权威指南》35 条策略·策略 04″位置编码·信息前置”
- 《让AI替你说话:GEO权威指南》第五章”答案块工程”
常见问题 FAQ
-
上下文窗口越大越好吗?不一定。窗口越大你的内容需要和更多竞争者共享空间,且 Lost in the Middle 效应更明显。关键是你的排位而非窗口大小。
-
窗口满了会怎样?超出限制的内容被截断——最先截掉的通常是排在后面的内容。这是重排序分数高(排前面)的内容更安全的原因。
-
RAG 内容占窗口多大比例?通常只占一小部分。系统提示、对话历史和其他指令也要占空间。你的内容在有限空间里和其他来源竞争。
