GEO 术语表 - GEOBOK

GEO 核心术语速查表，涵盖答案块、RAG、Token、嵌入、Schema、E-E-A-T 等关键概念，帮你快速建立 GEO 的底层认知框架。

B

BPE: 一种分词算法，将高频子词组合作为词表基础，稀有词被拆为更小的碎片。高频自然表达通常获得更紧凑的切分。

C

参数化记忆: AI 在训练阶段从海量文本中学到的知识，被固化在模型参数里。像一个人多年积累的”常识底座”。参数化记忆的建设以月和年为单位。

重排序: 向量检索返回候选切片后，对这些切片进行更精细评分和筛选的步骤。是 GEO 在内容层面最直接的发力环节。

ClaudeBot: Anthropic 的 Claude 使用的爬虫标识。

Core Web Vitals: Google 衡量页面用户体验的三个核心指标：LCP（最大内容绘制）、CLS（累积布局偏移）、INP（交互到下一次绘制）。

D

答案块: 为了最大化 AI 可提取性而构建的内容单元。特征：语义自洽、结论前置、长度可控（经验区间 200-400 中文字）、静态直出。是 GEO 内容优化最核心的概念。

多源印证: 同一信息在多个独立来源中被一致引用的信号。不同作者独立引用同一个来源，比同一作者在不同平台发同样内容的可信度高得多。

E

E-E-A-T: Google 的内容质量评估框架（Experience, Expertise, Authoritativeness, Trustworthiness）。GEO 的权威性维度可理解为 E-E-A-T 在 AI 时代的机器可读化延伸。

F

FAQPage Schema: Schema.org 结构化数据的一种类型，用于标注”问题-回答”结构。高度适配 AI 的提取模式。

G

GEO: 生成式引擎优化。通过优化内容的结构、语义和权威性，提升内容在生成式 AI 回答中被引用概率的方法论。

GEO 可见性公式: 公式一（结果层）：GEO 可见性 ≈（内隐权威 × 外显可检索性）× 意图匹配权重。品牌在 AI 回答中出现的概率，取决于品牌权威度、内容可检索性和与用户意图的匹配程度三者的综合作用。

Google-Extended: Google 用于 Gemini 训练数据的爬虫标识。可以单独屏蔽以阻止训练使用，同时保留 Googlebot 的搜索抓取。

GPTBot: OpenAI 用于训练数据收集的爬虫标识。与 OAI-SearchBot 是不同的爬虫，robots.txt 中需分别配置。

H

幻觉: AI 生成看似合理但实际上不正确或虚构的信息。AI 的底层逻辑是引用错误信息的代价高于不引用，因此倾向引用有证据的内容。

I

IndexNow: 微软和 Yandex 推动的实时 URL 提交协议。页面更新时主动通知搜索系统，比等待爬虫自己发现更快。

J

结论前置: 答案块的第一句话必须是结论，不是铺垫。AI 的抽取逻辑更接近”倒金字塔”：结论在最前，支撑数据在中间，背景在最后。

JSON-LD: 一种在 HTML 中嵌入结构化数据的格式，是部署 Schema.org 标注的推荐方式。

K

可抓取性: AI 爬虫能否访问和读取你的页面内容。受 robots.txt 配置、JavaScript 渲染、页面速度等因素影响。是 GEO 的技术前提。

L

零点击搜索: 用户提问后直接在 AI 回答中获得答案，全程没有点击任何链接。品牌曝光通过被 AI 引用直接进入用户认知。

lastmod: Sitemap 中标注页面最后修改时间的字段。AI 搜索场景下是爬虫判断内容新鲜度的重要参考信号。

N

内容三支柱: GEO 内容优化的三个核心维度：权威性（Authority）、相关性（Relevance）、易读性（Readability）。三者缺一不可。

内隐权威: 品牌在 AI 认知中的潜在可信度。不直接体现在排名中，但影响 AI 在 RAG 检索阶段对你内容的信任度和采用意愿。

内隐权威公式: 公式三（基础层）：内隐权威 ≈ 实体显著性 ×（可抓取性 + 可提取性）。品牌的潜在权威性由品牌实体关联强度和技术层面的可抓取、可提取能力共同决定。

O

OAI-SearchBot: OpenAI 用于 ChatGPT 联网搜索实时检索的爬虫标识。允许它可以被 ChatGPT 引用，屏蔽 GPTBot 则不会被用于训练。

P

PerplexityBot: Perplexity AI 搜索引擎的爬虫标识。

Q

嵌入: 将文本（Token）转化为高维向量（一组数字坐标）的过程。意思相近的词在向量空间中距离也相近，这是语义匹配的技术基础。

切片/分块: AI 把长文本按规则切成若干小块的过程。每个切片通常几百个 Token，AI 对每个切片独立做语义匹配。切片之间是断开的。

全域分发: 在多个独立平台和渠道系统性地发布和分发内容，建立多源一致性信号，增强品牌在 AI 认知中的可信度。

R

RAG: 检索增强生成。AI 在回答问题时实时检索外部信息，再基于检索结果生成回答的机制。是 GEO 优化的主战场。

RAG 命中率公式: 公式二（过程层）：RAG 命中率 ≈ 语义相关性 × 信息独特性 × 引用便利度。内容在 RAG 检索中被选中的概率，取决于与查询的语义匹配度、信息的独特价值和被 AI 提取引用的便利程度。

RLHF: 基于人类反馈的强化学习。训练后期的对齐技术，塑造模型偏好客观、直接、有证据支撑的输出风格。

robots.txt: 网站根目录下的纯文本文件，告诉爬虫哪些页面可以抓取、哪些不可以。配置不当可能把 AI 爬虫拦在门外。

S

上下文窗口: 模型能同时”看到”的 Token 总数上限。超过上限的内容模型就处理不了。通常约 16,000 Token。

实体显著性: 一段内容中，核心知识点与某个品牌或机构实体的关联强度。如果没有清晰的品牌归属标注，AI 会把知识点记住但不会和你的品牌绑定。

收租型内容资产: 具有长期引用价值的内容资产（如年度行业报告、数据工具、标准对照表），发布后持续被 AI 和其他来源引用。

双轨分发模型: GEO 的分发策略框架：专业内容轨（推理层）负责在行业平台建立专业权威，媒体轨（信任层）通过媒体报道和数据报告建立公众可信度。

Schema.org 结构化数据: 一套标准化的语义标注体系，告诉 AI 和搜索引擎页面内容”是什么”。GEO 优先部署的类型：FAQPage 和 Article。

SSG: 静态站点生成。在构建阶段就生成完整的 HTML 页面。解决 JavaScript 渲染问题的方案之一。

SSR: 服务器端渲染。在服务器端生成完整的 HTML 再发送给客户端。解决 JavaScript 渲染问题的主要方案。

T

Token: AI 模型处理文本的最小单位，不等于字也不等于词，是介于两者之间的文本片段。模型有上下文窗口上限（能同时”看到”的 Token 总数）。

Token 信噪比: 页面有效内容 Token 数占总页面 Token 数的比例。信噪比低说明导航、页脚等噪声元素占比过高。目标至少 60%。

TTFB: 首字节时间。从爬虫发出请求到收到服务器返回的第一个字节的时间。目标值约 200ms，超过 500ms 需排查。

W

外显可检索性: 内容能够被 AI 发现和检索到的程度。取决于技术可抓取性（robots.txt、JS 渲染、页面速度）和内容的语义可匹配性。

温度: 控制 AI 生成文本随机性的参数。温度越低，模型越倾向选择高概率 Token。生产级应用普遍使用偏低温度设置。

X

向量: 一组由数百到数千个数字组成的坐标，代表一个 Token 或一段文本在语义空间中的位置。意思相近的文本，向量距离也相近。

信任锚点: 在内容中嵌入的高可信度参照点（如权威机构数据、标准认证、第三方评测），帮助 AI 判断内容的可信度。

信息密度: 一段内容中有效信息（数字、品牌名、技术参数、地名、机构名等）的 Token 占比。信息密度越高，AI 引用的概率越大。

Y

意图匹配权重: 用户查询意图与内容语义的匹配程度在 GEO 可见性公式中的权重系数。

引用覆盖率: 在标准问题库中，品牌或内容被 AI 引用的问题比例。相当于 GEO 中的”关键词排名”。

引用质量得分: 对每次 AI 引用按 A/B/C/D 四级评分后的加权平均分。A 级为品牌被正面引用且附链接，D 级为完全未被引用。

语义缓存: AI 系统缓存常见查询的回答结果，相同或语义相似的问题直接返回缓存结果而不重新生成。影响 FAQ 类内容的优化策略。

语义自洽: 一段内容在被单独抽出、脱离页面其余内容后，仍然能完整表达一个意思，不依赖任何上下文。是答案块的首要特征。

Z

知识图谱: 以实体和关系为核心的结构化知识库。AI 通过知识图谱理解品牌、产品、行业之间的关联关系。

中间迷失: 多项研究观察到的现象：在长上下文场景中，模型对位于中间位置的信息利用效果弱于开头和结尾。是”结论前置”重要的技术原因之一。

注意力机制: AI 理解 Token 之间关系的核心机制。决定模型在处理文本时如何分配”注意力”——哪些信息被重点关注，哪些被忽略。

自回归生成: AI 生成回答的方式：一个 Token 一个 Token 地”接龙”，每次预测下一个最可能的 Token。内容结构复杂会增加”接龙阻力”。