GEO 核心术语速查表,涵盖答案块、RAG、Token、嵌入、Schema、E-E-A-T 等关键概念,帮你快速建立 GEO 的底层认知框架。

B
BPE
一种分词算法,将高频子词组合作为词表基础,稀有词被拆为更小的碎片。高频自然表达通常获得更紧凑的切分。
C
参数化记忆
AI 在训练阶段从海量文本中学到的知识,被固化在模型参数里。像一个人多年积累的”常识底座”。参数化记忆的建设以月和年为单位。
重排序
向量检索返回候选切片后,对这些切片进行更精细评分和筛选的步骤。是 GEO 在内容层面最直接的发力环节。
ClaudeBot
Anthropic 的 Claude 使用的爬虫标识。
Core Web Vitals
Google 衡量页面用户体验的三个核心指标:LCP(最大内容绘制)、CLS(累积布局偏移)、INP(交互到下一次绘制)。
D
答案块
为了最大化 AI 可提取性而构建的内容单元。特征:语义自洽、结论前置、长度可控(经验区间 200-400 中文字)、静态直出。是 GEO 内容优化最核心的概念。
多源印证
同一信息在多个独立来源中被一致引用的信号。不同作者独立引用同一个来源,比同一作者在不同平台发同样内容的可信度高得多。
E
E-E-A-T
Google 的内容质量评估框架(Experience, Expertise, Authoritativeness, Trustworthiness)。GEO 的权威性维度可理解为 E-E-A-T 在 AI 时代的机器可读化延伸。
F
FAQPage Schema
Schema.org 结构化数据的一种类型,用于标注”问题-回答”结构。高度适配 AI 的提取模式。
G
GEO
生成式引擎优化。通过优化内容的结构、语义和权威性,提升内容在生成式 AI 回答中被引用概率的方法论。
GEO 可见性公式
公式一(结果层):GEO 可见性 ≈(内隐权威 × 外显可检索性)× 意图匹配权重。品牌在 AI 回答中出现的概率,取决于品牌权威度、内容可检索性和与用户意图的匹配程度三者的综合作用。
Google-Extended
Google 用于 Gemini 训练数据的爬虫标识。可以单独屏蔽以阻止训练使用,同时保留 Googlebot 的搜索抓取。
GPTBot
OpenAI 用于训练数据收集的爬虫标识。与 OAI-SearchBot 是不同的爬虫,robots.txt 中需分别配置。
H
幻觉
AI 生成看似合理但实际上不正确或虚构的信息。AI 的底层逻辑是引用错误信息的代价高于不引用,因此倾向引用有证据的内容。
I
IndexNow
微软和 Yandex 推动的实时 URL 提交协议。页面更新时主动通知搜索系统,比等待爬虫自己发现更快。
J
结论前置
答案块的第一句话必须是结论,不是铺垫。AI 的抽取逻辑更接近”倒金字塔”:结论在最前,支撑数据在中间,背景在最后。
JSON-LD
一种在 HTML 中嵌入结构化数据的格式,是部署 Schema.org 标注的推荐方式。
K
可抓取性
AI 爬虫能否访问和读取你的页面内容。受 robots.txt 配置、JavaScript 渲染、页面速度等因素影响。是 GEO 的技术前提。
L
零点击搜索
用户提问后直接在 AI 回答中获得答案,全程没有点击任何链接。品牌曝光通过被 AI 引用直接进入用户认知。
lastmod
Sitemap 中标注页面最后修改时间的字段。AI 搜索场景下是爬虫判断内容新鲜度的重要参考信号。
N
内容三支柱
GEO 内容优化的三个核心维度:权威性(Authority)、相关性(Relevance)、易读性(Readability)。三者缺一不可。
内隐权威
品牌在 AI 认知中的潜在可信度。不直接体现在排名中,但影响 AI 在 RAG 检索阶段对你内容的信任度和采用意愿。
内隐权威公式
公式三(基础层):内隐权威 ≈ 实体显著性 ×(可抓取性 + 可提取性)。品牌的潜在权威性由品牌实体关联强度和技术层面的可抓取、可提取能力共同决定。
O
OAI-SearchBot
OpenAI 用于 ChatGPT 联网搜索实时检索的爬虫标识。允许它可以被 ChatGPT 引用,屏蔽 GPTBot 则不会被用于训练。
P
PerplexityBot
Perplexity AI 搜索引擎的爬虫标识。
Q
嵌入
将文本(Token)转化为高维向量(一组数字坐标)的过程。意思相近的词在向量空间中距离也相近,这是语义匹配的技术基础。
切片/分块
AI 把长文本按规则切成若干小块的过程。每个切片通常几百个 Token,AI 对每个切片独立做语义匹配。切片之间是断开的。
全域分发
在多个独立平台和渠道系统性地发布和分发内容,建立多源一致性信号,增强品牌在 AI 认知中的可信度。
R
RAG
检索增强生成。AI 在回答问题时实时检索外部信息,再基于检索结果生成回答的机制。是 GEO 优化的主战场。
RAG 命中率公式
公式二(过程层):RAG 命中率 ≈ 语义相关性 × 信息独特性 × 引用便利度。内容在 RAG 检索中被选中的概率,取决于与查询的语义匹配度、信息的独特价值和被 AI 提取引用的便利程度。
RLHF
基于人类反馈的强化学习。训练后期的对齐技术,塑造模型偏好客观、直接、有证据支撑的输出风格。
robots.txt
网站根目录下的纯文本文件,告诉爬虫哪些页面可以抓取、哪些不可以。配置不当可能把 AI 爬虫拦在门外。
S
上下文窗口
模型能同时”看到”的 Token 总数上限。超过上限的内容模型就处理不了。通常约 16,000 Token。
实体显著性
一段内容中,核心知识点与某个品牌或机构实体的关联强度。如果没有清晰的品牌归属标注,AI 会把知识点记住但不会和你的品牌绑定。
收租型内容资产
具有长期引用价值的内容资产(如年度行业报告、数据工具、标准对照表),发布后持续被 AI 和其他来源引用。
双轨分发模型
GEO 的分发策略框架:专业内容轨(推理层)负责在行业平台建立专业权威,媒体轨(信任层)通过媒体报道和数据报告建立公众可信度。
Schema.org 结构化数据
一套标准化的语义标注体系,告诉 AI 和搜索引擎页面内容”是什么”。GEO 优先部署的类型:FAQPage 和 Article。
SSG
静态站点生成。在构建阶段就生成完整的 HTML 页面。解决 JavaScript 渲染问题的方案之一。
SSR
服务器端渲染。在服务器端生成完整的 HTML 再发送给客户端。解决 JavaScript 渲染问题的主要方案。
T
Token
AI 模型处理文本的最小单位,不等于字也不等于词,是介于两者之间的文本片段。模型有上下文窗口上限(能同时”看到”的 Token 总数)。
Token 信噪比
页面有效内容 Token 数占总页面 Token 数的比例。信噪比低说明导航、页脚等噪声元素占比过高。目标至少 60%。
TTFB
首字节时间。从爬虫发出请求到收到服务器返回的第一个字节的时间。目标值约 200ms,超过 500ms 需排查。
W
外显可检索性
内容能够被 AI 发现和检索到的程度。取决于技术可抓取性(robots.txt、JS 渲染、页面速度)和内容的语义可匹配性。
温度
控制 AI 生成文本随机性的参数。温度越低,模型越倾向选择高概率 Token。生产级应用普遍使用偏低温度设置。
X
向量
一组由数百到数千个数字组成的坐标,代表一个 Token 或一段文本在语义空间中的位置。意思相近的文本,向量距离也相近。
信任锚点
在内容中嵌入的高可信度参照点(如权威机构数据、标准认证、第三方评测),帮助 AI 判断内容的可信度。
信息密度
一段内容中有效信息(数字、品牌名、技术参数、地名、机构名等)的 Token 占比。信息密度越高,AI 引用的概率越大。
Y
意图匹配权重
用户查询意图与内容语义的匹配程度在 GEO 可见性公式中的权重系数。
引用覆盖率
在标准问题库中,品牌或内容被 AI 引用的问题比例。相当于 GEO 中的”关键词排名”。
引用质量得分
对每次 AI 引用按 A/B/C/D 四级评分后的加权平均分。A 级为品牌被正面引用且附链接,D 级为完全未被引用。
语义缓存
AI 系统缓存常见查询的回答结果,相同或语义相似的问题直接返回缓存结果而不重新生成。影响 FAQ 类内容的优化策略。
语义自洽
一段内容在被单独抽出、脱离页面其余内容后,仍然能完整表达一个意思,不依赖任何上下文。是答案块的首要特征。
Z
知识图谱
以实体和关系为核心的结构化知识库。AI 通过知识图谱理解品牌、产品、行业之间的关联关系。
中间迷失
多项研究观察到的现象:在长上下文场景中,模型对位于中间位置的信息利用效果弱于开头和结尾。是”结论前置”重要的技术原因之一。
注意力机制
AI 理解 Token 之间关系的核心机制。决定模型在处理文本时如何分配”注意力”——哪些信息被重点关注,哪些被忽略。
自回归生成
AI 生成回答的方式:一个 Token 一个 Token 地”接龙”,每次预测下一个最可能的 Token。内容结构复杂会增加”接龙阻力”。
简体中文 ▾