多模态 AI 能同时处理文字、图片、音频和视频。随着 AI 从”只读文字”演进到”看图听音”,图片的 ALT 标签、视频的结构化描述、图表的文字标注正在成为新的 GEO 优化维度。
通俗理解
过去的 AI 是一个”只会读书”的学生——你给它一张图片,它看不懂。
现在的多模态 AI 是一个”能读能看”的学生——你给它一张产品参数表的截图,它不仅能看懂,还能提取里面的数据。
但”能看懂”不等于”总是看”。在大规模检索场景中,AI 系统通常不会为每张图片都调用视觉模型——计算成本太高。 所以文字描述仍然是主通道,图片的 ALT 标签和周围的文字上下文是 AI 理解图片内容的主要信号。
对 GEO 的三个具体影响
影响一:图片 ALT 标签从”SEO 常识”升级为”GEO 必做项”
传统 SEO 里,ALT 标签主要影响图片搜索排名。在 GEO 语境下,ALT 标签是 AI 理解你页面中非文字内容的关键信号。
❌ alt="图片1"
❌ alt="产品图"
✅ alt="XX品牌YY型号气相色谱仪正面外观图,配备FID检测器和自动进样器"
好的 ALT 标签应该包含:产品名称、型号、关键特征——让 AI 即使”不看图”也能通过 ALT 标签理解图片传达的信息。
影响二:图片中的文字对 AI 可能不可见
很多企业把产品参数做成精美的图片表格。对人类来说看得清楚,但对 AI 来说这些文字不在 HTML 源代码中——等于不存在。
这是《让AI替你说话:GEO权威指南》第四章反复强调的”图片表格:可提取性的最大杀手”。核心产品参数必须用 HTML 原生表格呈现,不要用图片。
影响三:视频内容需要结构化描述
AI 目前还无法大规模”观看”视频。但如果你为视频提供了结构化的文字描述(标题、章节时间戳、内容摘要、关键引言),这些文字信息可以被 AI 检索和引用。
YouTube 的视频描述和章节标记、网页中的 VideoObject Schema 标注,都是让视频内容进入 AI 检索通道的方式。
这和 GEO 有什么关系
多模态对应《让AI替你说话:GEO权威指南》35 条策略中的策略 28(多头注意力·多维度信号):内容要在多个维度上都提供有价值信号,包括文字、图表、代码、视频等多媒体信号。
当前阶段,文字仍然是 GEO 的绝对主通道。但图片 ALT 标签和视频结构化描述是低成本高收益的补充动作——做了不会立刻看到效果,但不做可能在未来的多模态检索中落后。
延伸阅读
- 《让AI替你说话:GEO权威指南》第四章”可提取性”·图片表格问题
- 《让AI替你说话:GEO权威指南》35 条策略·策略 28″多头注意力·多维度信号”
常见问题 FAQ
-
AI 已经能理解图片内容了吗?部分可以(GPT-4V、Gemini)。但 RAG 检索中图片的文字描述(ALT、图注)仍是主要索引依据。纯图片没有文字描述很难被检索到。
-
视频内容对 GEO 影响多大?目前有限但在增长。YouTube 字幕已被部分 AI 检索。当前确保视频有完整文字摘要和结构化描述。
-
ALT 标签应该写多长?10-30 个词,描述图片核心内容和上下文。太短没语义价值,太长可能被截断。
