GEO 核心术语速查表,涵盖答案块、RAG、Token、嵌入、Schema、E-E-A-T 等关键概念,帮你快速建立 GEO 的底层认知框架。
B
- BPE
- 一种分词算法,将高频子词组合作为词表基础,稀有词被拆为更小的碎片。高频自然表达通常获得更紧凑的切分。
C
- 参数化记忆
- AI 在训练阶段从海量文本中学到的知识,被固化在模型参数里。像一个人多年积累的”常识底座”。参数化记忆的建设以月和年为单位。
- 重排序
- 向量检索返回候选切片后,对这些切片进行更精细评分和筛选的步骤。是 GEO 在内容层面最直接的发力环节。
- ClaudeBot
- Anthropic 的 Claude 使用的爬虫标识。
- Core Web Vitals
- Google 衡量页面用户体验的三个核心指标:LCP(最大内容绘制)、CLS(累积布局偏移)、INP(交互到下一次绘制)。
D
- 答案块
- 为了最大化 AI 可提取性而构建的内容单元。特征:语义自洽、结论前置、长度可控(经验区间 200-400 中文字)、静态直出。是 GEO 内容优化最核心的概念。
- 多源印证
- 同一信息在多个独立来源中被一致引用的信号。不同作者独立引用同一个来源,比同一作者在不同平台发同样内容的可信度高得多。
E
- E-E-A-T
- Google 的内容质量评估框架(Experience, Expertise, Authoritativeness, Trustworthiness)。GEO 的权威性维度可理解为 E-E-A-T 在 AI 时代的机器可读化延伸。
F
- FAQPage Schema
- Schema.org 结构化数据的一种类型,用于标注”问题-回答”结构。高度适配 AI 的提取模式。
G
- GEO
- 生成式引擎优化。通过优化内容的结构、语义和权威性,提升内容在生成式 AI 回答中被引用概率的方法论。
- GEO 可见性公式
- 公式一(结果层):GEO 可见性 ≈(内隐权威 × 外显可检索性)× 意图匹配权重。品牌在 AI 回答中出现的概率,取决于品牌权威度、内容可检索性和与用户意图的匹配程度三者的综合作用。
- Google-Extended
- Google 用于 Gemini 训练数据的爬虫标识。可以单独屏蔽以阻止训练使用,同时保留 Googlebot 的搜索抓取。
- GPTBot
- OpenAI 用于训练数据收集的爬虫标识。与 OAI-SearchBot 是不同的爬虫,robots.txt 中需分别配置。
H
- 幻觉
- AI 生成看似合理但实际上不正确或虚构的信息。AI 的底层逻辑是引用错误信息的代价高于不引用,因此倾向引用有证据的内容。
I
- IndexNow
- 微软和 Yandex 推动的实时 URL 提交协议。页面更新时主动通知搜索系统,比等待爬虫自己发现更快。
J
- 结论前置
- 答案块的第一句话必须是结论,不是铺垫。AI 的抽取逻辑更接近”倒金字塔”:结论在最前,支撑数据在中间,背景在最后。
- JSON-LD
- 一种在 HTML 中嵌入结构化数据的格式,是部署 Schema.org 标注的推荐方式。
K
- 可抓取性
- AI 爬虫能否访问和读取你的页面内容。受 robots.txt 配置、JavaScript 渲染、页面速度等因素影响。是 GEO 的技术前提。
L
- 零点击搜索
- 用户提问后直接在 AI 回答中获得答案,全程没有点击任何链接。品牌曝光通过被 AI 引用直接进入用户认知。
- lastmod
- Sitemap 中标注页面最后修改时间的字段。AI 搜索场景下是爬虫判断内容新鲜度的重要参考信号。
N
- 内容三支柱
- GEO 内容优化的三个核心维度:权威性(Authority)、相关性(Relevance)、易读性(Readability)。三者缺一不可。
- 内隐权威
- 品牌在 AI 认知中的潜在可信度。不直接体现在排名中,但影响 AI 在 RAG 检索阶段对你内容的信任度和采用意愿。
- 内隐权威公式
- 公式三(基础层):内隐权威 ≈ 实体显著性 ×(可抓取性 + 可提取性)。品牌的潜在权威性由品牌实体关联强度和技术层面的可抓取、可提取能力共同决定。
O
- OAI-SearchBot
- OpenAI 用于 ChatGPT 联网搜索实时检索的爬虫标识。允许它可以被 ChatGPT 引用,屏蔽 GPTBot 则不会被用于训练。
P
- PerplexityBot
- Perplexity AI 搜索引擎的爬虫标识。
Q
- 嵌入
- 将文本(Token)转化为高维向量(一组数字坐标)的过程。意思相近的词在向量空间中距离也相近,这是语义匹配的技术基础。
- 切片/分块
- AI 把长文本按规则切成若干小块的过程。每个切片通常几百个 Token,AI 对每个切片独立做语义匹配。切片之间是断开的。
- 全域分发
- 在多个独立平台和渠道系统性地发布和分发内容,建立多源一致性信号,增强品牌在 AI 认知中的可信度。
R
- RAG
- 检索增强生成。AI 在回答问题时实时检索外部信息,再基于检索结果生成回答的机制。是 GEO 优化的主战场。
- RAG 命中率公式
- 公式二(过程层):RAG 命中率 ≈ 语义相关性 × 信息独特性 × 引用便利度。内容在 RAG 检索中被选中的概率,取决于与查询的语义匹配度、信息的独特价值和被 AI 提取引用的便利程度。
- RLHF
- 基于人类反馈的强化学习。训练后期的对齐技术,塑造模型偏好客观、直接、有证据支撑的输出风格。
- robots.txt
- 网站根目录下的纯文本文件,告诉爬虫哪些页面可以抓取、哪些不可以。配置不当可能把 AI 爬虫拦在门外。
S
- 上下文窗口
- 模型能同时”看到”的 Token 总数上限。超过上限的内容模型就处理不了。通常约 16,000 Token。
- 实体显著性
- 一段内容中,核心知识点与某个品牌或机构实体的关联强度。如果没有清晰的品牌归属标注,AI 会把知识点记住但不会和你的品牌绑定。
- 收租型内容资产
- 具有长期引用价值的内容资产(如年度行业报告、数据工具、标准对照表),发布后持续被 AI 和其他来源引用。
- 双轨分发模型
- GEO 的分发策略框架:专业内容轨(推理层)负责在行业平台建立专业权威,媒体轨(信任层)通过媒体报道和数据报告建立公众可信度。
- Schema.org 结构化数据
- 一套标准化的语义标注体系,告诉 AI 和搜索引擎页面内容”是什么”。GEO 优先部署的类型:FAQPage 和 Article。
- SSG
- 静态站点生成。在构建阶段就生成完整的 HTML 页面。解决 JavaScript 渲染问题的方案之一。
- SSR
- 服务器端渲染。在服务器端生成完整的 HTML 再发送给客户端。解决 JavaScript 渲染问题的主要方案。
T
- Token
- AI 模型处理文本的最小单位,不等于字也不等于词,是介于两者之间的文本片段。模型有上下文窗口上限(能同时”看到”的 Token 总数)。
- Token 信噪比
- 页面有效内容 Token 数占总页面 Token 数的比例。信噪比低说明导航、页脚等噪声元素占比过高。目标至少 60%。
- TTFB
- 首字节时间。从爬虫发出请求到收到服务器返回的第一个字节的时间。目标值约 200ms,超过 500ms 需排查。
W
- 外显可检索性
- 内容能够被 AI 发现和检索到的程度。取决于技术可抓取性(robots.txt、JS 渲染、页面速度)和内容的语义可匹配性。
- 温度
- 控制 AI 生成文本随机性的参数。温度越低,模型越倾向选择高概率 Token。生产级应用普遍使用偏低温度设置。
X
- 向量
- 一组由数百到数千个数字组成的坐标,代表一个 Token 或一段文本在语义空间中的位置。意思相近的文本,向量距离也相近。
- 信任锚点
- 在内容中嵌入的高可信度参照点(如权威机构数据、标准认证、第三方评测),帮助 AI 判断内容的可信度。
- 信息密度
- 一段内容中有效信息(数字、品牌名、技术参数、地名、机构名等)的 Token 占比。信息密度越高,AI 引用的概率越大。
Y
- 意图匹配权重
- 用户查询意图与内容语义的匹配程度在 GEO 可见性公式中的权重系数。
- 引用覆盖率
- 在标准问题库中,品牌或内容被 AI 引用的问题比例。相当于 GEO 中的”关键词排名”。
- 引用质量得分
- 对每次 AI 引用按 A/B/C/D 四级评分后的加权平均分。A 级为品牌被正面引用且附链接,D 级为完全未被引用。
- 语义缓存
- AI 系统缓存常见查询的回答结果,相同或语义相似的问题直接返回缓存结果而不重新生成。影响 FAQ 类内容的优化策略。
- 语义自洽
- 一段内容在被单独抽出、脱离页面其余内容后,仍然能完整表达一个意思,不依赖任何上下文。是答案块的首要特征。
Z
- 知识图谱
- 以实体和关系为核心的结构化知识库。AI 通过知识图谱理解品牌、产品、行业之间的关联关系。
- 中间迷失
- 多项研究观察到的现象:在长上下文场景中,模型对位于中间位置的信息利用效果弱于开头和结尾。是”结论前置”重要的技术原因之一。
- 注意力机制
- AI 理解 Token 之间关系的核心机制。决定模型在处理文本时如何分配”注意力”——哪些信息被重点关注,哪些被忽略。
- 自回归生成
- AI 生成回答的方式:一个 Token 一个 Token 地”接龙”,每次预测下一个最可能的 Token。内容结构复杂会增加”接龙阻力”。
