Chunk(切片/分块)是 RAG 系统将网页内容拆分成的独立信息单元,AI 不以整篇文章为单位检索和引用,而是以切片为最小操作单位。
通俗理解
你写了一篇 3000 字的产品选型指南。你以为 AI 会从头读到尾,然后决定引不引用。
实际上不是。
AI 做的第一件事是把你的文章”切碎”——按照段落、标题、语义边界等规则,拆成若干个独立的小块。每个块大约几百个 Token(粗略对应几百字)。然后 AI 对每个块单独建立索引,用户提问时也是按块去匹配。
这就像你写了一本书,但 AI 不是翻书看,而是把书拆成一页一页的活页纸,打乱顺序放进一个巨大的档案柜。用户来查资料时,AI 从档案柜里抽出最相关的几页——而不是整本书。
你的文章不是一个整体。在 AI 眼里,它是一堆独立的切片。
技术原理
RAG 系统的切片方式因平台而异,但常见的策略包括:
按固定长度切分。 每隔一定数量的 Token 切一刀,简单粗暴。缺点是可能从一句话中间截断。
按语义段落切分。 以 HTML 标签(H2、H3、p 等)为切割参考点,按段落或小节拆分。这是网页场景中更常见的方式。
按滑动窗口切分。 相邻切片之间有一定重叠,避免边界信息丢失。
不管哪种方式,结果是一样的:你的页面被拆成了若干个独立的块,每个块单独被向量化、单独被检索、单独被评分。
切片机制对内容写作的直接影响
这个机制对 GEO 内容写作有一个非常具体的要求:每段必须语义自洽。
举个例子。假设你经营一家连锁烘焙店,官网有一篇”生日蛋糕定制指南”:
❌ 段落 A: “我们提供两种尺寸的定制蛋糕。”
❌ 段落 B: “前者适合 4-6 人的小型聚会,后者适合 10 人以上的宴会。”
当段落 B 被单独切出来时,”前者”和”后者”失去了指代对象。AI 无法理解这段话在说什么。
✅ 正确写法: “8 寸蛋糕适合 4-6 人的小型聚会,12 寸蛋糕适合 10 人以上的宴会,价格分别为 298 元和 498 元起。”
这段话即使被单独切出来,仍然完整、可理解、可引用。
GEO 内容写作的切片友好规则:
- 每段不依赖上下文就能独立表达完整意思
- 不用”它””前者””后者””如上所述”等依赖上下文的代词
- 用完整名称替代代词(”该产品” → “XX 品牌 YY 型号”)
- 每段开头第一句话是该段的核心信息
- 核心数据和结论不要跨段落拆分
HTML 标签是切片的重要信号
在网页场景中,H2、H3 标签经常被用作切片的切割点。这意味着:
你的 H2 标题结构直接影响 AI 怎么切你的内容。
如果你的 H2 划分合理——每个 H2 小节聚焦一个独立子话题——AI 的切片就会比较”整齐”,每个块都是一个完整的信息单元。
如果你的 H2 划分混乱——一个 H2 下面堆了七八个不相关的话题——切出来的块语义杂乱,在向量检索中的匹配精度会下降。
这和 GEO 有什么关系
切片机制是《让AI替你说话:GEO权威指南》第三章 3.4 节的核心内容,也是 35 条策略中策略 07(向量检索·语义块组织)和策略 22(RAG 分块·页面结构适配)的技术基础。
理解切片,你就理解了 GEO 中这些看似”规矩”的写作要求背后的技术原因:
- 为什么每段要控制在一定字数范围内 → 因为太长的段落切片后信息过于分散
- 为什么要用完整名称替代代词 → 因为切片后代词失去指代对象
- 为什么每段首句要是结论 → 因为首句往往成为该切片的”语义标签”
- 为什么 H2 结构要清晰 → 因为 H2 是切片的主要切割点
延伸阅读
- 《让AI替你说话:GEO权威指南》第三章 3.4 节”切片机制:你的内容如何被化整为零”
- GEOBOK 免费工具:切片模拟器(输入你的页面 URL,预览 AI 会怎么切分你的内容)
常见问题 FAQ
-
Chunk 大小有标准值吗?没有统一标准,从 256 到 1024 Token 不等。答案块推荐 200-400 中文字是基于多数系统的适用区间。
-
Chunk 按字数切还是语义切?两种都有。简单系统按固定 Token 数,高级系统结合段落边界和标题标记做语义切割。用好 H2/H3 可以引导更合理的切割。
-
我能控制 AI 怎么切内容吗?不能直接控制,但可间接引导。用 H2/H3 建立清晰段落边界,每段控制合理长度,确保每段语义自洽。
