Token(词元)是大语言模型处理文本的最小单位——AI 不按”字”或”词”阅读,而是把文本切成 Token。一个中文字约 1-2 个 Token,一个英文单词约 1-3 个 Token。Token 是 AI “理解”你内容的起点,也是 GEO 信息密度计算的基础单位。
通俗理解
人类阅读时以”词”为单位理解句子。AI 不是。
AI 把所有文字先切成一块块更小的碎片——这些碎片就是 Token。有些 Token 是一个完整的词(”the”),有些是一个词的一部分(”un” + “believe” + “able”),中文的一个字可能是一个 Token,也可能被拆成两个。
你可以把 Token 想象成乐高积木。人类看到的是一个完整的城堡(句子),AI 看到的是一堆积木块(Token)——它需要先理解每个积木块是什么,再理解它们怎么拼在一起。
为什么 Token 对 GEO 重要
信息密度的基础单位
《让AI替你说话:GEO权威指南》第二章 2.6 节的核心判断是:”让每个 Token 都承载有效信息。”
一段 200 Token 的内容,如果 100 个 Token 是套话(”随着行业的快速发展””众所周知”),只有 100 个 Token 是有效信息(数据、结论、事实)——信息密度只有 50%。竞品如果同样 200 Token 但信息密度 80%,在向量检索和重排序中就会胜出。
上下文窗口的计量单位
AI 的上下文窗口以 Token 为单位。RAG 注入的内容通常只有几百到几千 Token。你的每个 Token 都在和其他来源的 Token 争夺这个有限的空间。浪费 Token 就是浪费被引用的机会。
切片的基本尺度
RAG 系统按 Token 数量或语义边界切片。理解 Token 才能理解为什么”每段控制在一定范围内”——太长的段落 Token 数过多,切片后语义分散;太短的段落 Token 数太少,信息不足以独立支撑一个回答。
Token 的实际计算
| 内容 | 大约 Token 数 |
|---|---|
| 一个英文单词 | 1-3 Token |
| 一个中文字 | 1-2 Token |
| 一段 300 字中文 | 约 400-600 Token |
| 一段 300 词英文 | 约 400 Token |
| 一个标点符号 | 通常 1 Token |
不同模型的 Token 化方式略有差异,但数量级一致。
实操建议
- 检查核心段落的信息密度——数一数有多少 Token 是有效信息,多少是铺垫和套话。套话超过三分之一,需要精简
- 用 Token 思维评估内容长度——不是”字数够不够”,而是”每个 Token 是否都在传递价值”
- 了解你的答案块大概多少 Token——150-300 字的中文答案块约 200-400 Token,恰好在一个切片范围内
延伸阅读
- 《让AI替你说话:GEO权威指南》第二章 2.2 节”Token:AI 的阅读单位”
- 《让AI替你说话:GEO权威指南》第二章 2.6 节”让每个 Token 都承载有效信息”
- GEOBOK 免费工具:Token 计算器、Token 密度检测器
常见问题 FAQ
-
Token 和汉字是一一对应的吗?不是。一个中文汉字可能被切成 1-2 个 Token,具体取决于分词器。常见字通常 1 个 Token,生僻字可能拆成多个。
-
Token 数量多是不是意味着内容质量高?不是。Token 数量只代表长度。GEO 关注信息密度——每个 Token 是否传递有效信息。200 个高密度 Token 的竞争力远高于 500 个充满套话的 Token。
-
我需要自己计算 Token 数吗?日常写作不需要精确计算。大致感觉:300 中文字约 400-600 Token,答案块控制在 200-400 字即可。需要精确计算可用 OpenAI Tokenizer 工具。
