你花了半天时间写了一段精心组织的产品介绍:
“XX品牌 Pro 系列智能锁采用半导体指纹识别模块,识别速度 0.3 秒,拒真率低于 0.001%。它支持指纹、密码、NFC 卡、机械钥匙四种开锁方式,其中密码支持虚位输入(在正确密码前后添加任意数字),有效防止旁人窥探。该产品通过了公安部 GA 认证和 C 级锁芯标准,适用于大多数防盗门,安装无需改门。”
作为一段产品介绍,这写得不错——信息密集、数据具体、结构清晰。你把它放在产品页首屏,期待 AI 搜索引擎能引用它。
但你没有想过一个问题:AI 在”读”这段内容之前,会先把它切开。
切开之后,你精心组织的信息结构,可能就散了。
AI 不是读文章,是读”碎片”
这是理解 GEO 必须知道的一个机制。
当 AI 搜索引擎处理你的网页内容时,第一步不是”阅读”,而是”切片”。它会把你的长文本按照一定的规则切成若干小块,每一块叫做一个 Chunk(切片)。每个切片通常几百个 Token(大约 200-500 个汉字),然后 AI 对每个切片独立做语义匹配,找出和用户问题最相关的那几块。
注意”独立”这个词。切片之间是断开的。AI 在评估第 3 个切片的时候,不会回头去看第 1 个切片里写了什么。每个切片必须能独立传达有用的信息,否则就是一个废片。
这就引出了两个问题。
第一个问题:句子被切断了
回到刚才那段智能锁的介绍。假设 AI 的切片大小设为 200 个 Token,这段内容会被切成两块。切在哪里取决于算法,但大致可能是这样:
切片 1:”XX品牌 Pro 系列智能锁采用半导体指纹识别模块,识别速度 0.3 秒,拒真率低于 0.001%。它支持指纹、密码、NFC 卡、机械钥匙四种开锁方式,其中密码支持虚位输入”
切片 2:”(在正确密码前后添加任意数字),有效防止旁人窥探。该产品通过了公安部 GA 认证和 C 级锁芯标准,适用于大多数防盗门,安装无需改门。”
看到问题了吗?关于虚位输入的解释被切成了两半。切片 1 说”密码支持虚位输入”但没解释是什么意思,切片 2 以一个括号开头解释了虚位输入,但缺少上下文。
更严重的问题在切片 2——它以”该产品”开头。”该产品”是什么?在切片 2 的范围内,没有出现过任何产品名。AI 看到的就是一段不知道在说谁的信息。
第二个问题:代词断裂
这是切片带来的最常见问题,也是最容易被忽视的。
人类写作追求”文气连贯”,习惯用”它””该产品””这款””本公司”这类代词来避免重复。在一篇连贯的文章里,这些代词读起来很自然。
但在切片之后,代词和它指代的名词经常不在同一个片段里。AI 看到一个切片写着”它的续航时间达到 8 小时,充电仅需 1.5 小时”——它是谁?这条信息对 AI 来说就是不完整的,它没法确定这段话在描述哪个产品,自然也不会引用。
把”它”换成完整的产品名——”XX品牌 Pro 无线吸尘器的续航时间达到 8 小时,充电仅需 1.5 小时”——这样即使这句话被单独切出来,AI 也能知道在说什么,也就敢引用了。
切片模拟器:让你亲眼看到 AI 怎么切你的内容
GeoBok 的”切片模拟器”做的就是把 AI 的切片过程可视化。
操作方式:粘贴你的文本(或者输入 URL 让系统自动提取网页内容),调整两个参数——chunk_size(切片大小)和 overlap(重叠大小),点击模拟。
chunk_size 决定每个切片有多大。设成 300 Token,你的内容就会被切成若干个 300 Token 左右的小块。不同的 AI 平台用的切片大小不同,常见范围在 200-500 Token。
overlap 决定相邻切片之间有多少重叠。如果 overlap 是 50 Token,那第 1 个切片的最后 50 个 Token 和第 2 个切片的开头 50 个 Token 是相同的。重叠是为了缓解切断问题——即使一句话被切在了边界上,重叠部分可能把完整的句子保留下来。
系统会展示每个切片的内容、Token 数量,以及两个关键标记:
红色高亮:被切断的句子。 如果一句话的前半段在切片 A、后半段在切片 B,这句话会被标红。被切断的句子在两个切片里都是残缺的,AI 很难从中提取完整信息。
橙色高亮:代词断裂。 如果某个切片里出现了”它””该产品””这款”等代词,但这个切片的范围内没有出现过对应的名词,系统会标记出来。这意味着 AI 在读这个切片时,无法确定代词指的是什么。
如果你填写了可选的目标查询词,系统还会计算每个切片和查询词的语义匹配度。这样你能看到:哪些切片是”有效片段”(匹配度高,AI 可能引用),哪些是”废片”(匹配度低,不会被引用)。
你能用这个工具做什么?
检查关键信息有没有被切断。 你最想让 AI 引用的那句话——产品的核心卖点、价格区间、独特优势——有没有恰好被切在了边界上?如果被切断了,要么调整这句话的位置,要么把它写得更短更独立,确保它能完整地存在于一个切片内。
发现代词问题。 用这个工具跑一遍你的内容,看看有多少个切片存在代词断裂。每一处代词断裂都是一个潜在的信息丢失点。改法很简单:把代词替换成完整的品牌名或产品名。是的,读起来可能有点”啰嗦”,但 AI 需要这种啰嗦。
调整内容结构。 如果你发现前两个切片全是公司介绍(语义匹配度低),核心产品信息从第三个切片才开始,说明你的内容结构需要调整——把产品信息前置,公司介绍后移或精简。
对比不同切片参数的效果。 把 chunk_size 从 200 调到 400,看看切片结果有什么变化。切得小,每个片段更精准但容易切断句子;切得大,句子完整性好但每个片段里可能混入无关内容。没有完美的参数,但通过对比你能理解不同设置下你的内容会被怎么处理。
一个反直觉的写作建议
用过切片模拟器之后,你可能会得出一个和传统写作习惯相反的结论:
为 AI 写作,不要追求行文的”连贯”和”流畅”。要追求每一段独立可理解、独立有价值。
传统写作讲究起承转合,一段铺垫下一段的结论,前面提到的概念后面用代词指代。这种写法对人类读者很友好,对 AI 很不友好——因为切片之后,”起”和”承”可能不在同一个片段里,”转”和”合”也不在。
更好的做法是:每一段都自带上下文。每一段都能独立回答一个问题。每一段里涉及的品牌名、产品名、关键参数都写全,不要依赖上文。
这不是要你把文章写成一条一条的问答列表,而是要你在保持自然阅读体验的同时,让每一段具备”切出来也能用”的独立性。
切片模拟器帮你验证这一点——你的内容被切开之后,每一块是不是还能独立传达有用的信息。
