生成式 AI 如何实际选择引用来源

大多数人认为 LLM 回答问题时只是"搜索网络然后总结"。这个心智模型大致正确，但遗漏了决定你的内容是否被引用的关键分层步骤。检索增强生成不是一个大步骤，而是一个包含查询分析、向量检索、重新排序和引用生成的流水线。每个阶段都会淘汰一批内容。理解每个阶段淘汰什么、保留什么，是让内容出现在 AI 引用中的第一步。

核心要点

RAG 是一个四阶段流水线：查询分析、向量检索、重新排序、引用生成——每阶段都会大幅缩小候选内容范围。
信息增益是重新排序阶段的关键过滤器：包含原始数据、差异化立场或利基覆盖的内容更可能幸存（arXiv:2509.12765v1 显示采用信息增益排序后引用准确度提升 17.9%）。
不同 AI 平台的检索架构差异巨大：ChatGPT 依赖 Bing 且 47.9% 引用来自维基百科，Perplexity 46.7% 来自 Reddit，Claude 43.8% 来自博客——平台间引用重叠率仅 11%。
引用生成阶段存在 8% 到 15% 的虚构成分——模型可能引用从未说过某句话的来源，这使内容结构清晰度比文本质量更重要。
Common Crawl 约占主流模型训练数据的 60%，其中维基百科是最大的单域来源——在训练数据中的存在本身就是一种引用优势。

四阶段 RAG 流水线

第 1 阶段：查询分析

在模型接触任何文档之前，它首先分析查询。它提取实体（谁/什么被问到）、意图（对比？定义？推荐？）和约束条件（时间、地域、产品）。查询分析决定了哪些文档进入候选池。如果你的内容结构与查询分析提取的实体和意图不匹配，它根本不会进入下一阶段。这就是为什么实体清晰度如此重要——如果模型无法将你的品牌解析为一个相关实体，你永远不会进入检索候选池。

第 2 阶段：向量检索

查询和候选文档被转换为向量嵌入，然后通过余弦相似度进行匹配。文档不是整页检索的——它们被分块，通常每个块 100 到 500 token，每个块独立嵌入。这意味着你的页面由几十个独立向量表示，而不是一个。如果在分块边界上将关键信息分割开，或者一块需要上下文才能理解，它就无法与查询匹配，即使整页是相关的。分块策略——块大小、重叠、分隔符选择——对检索性能的影响常常被低估，但对最终检索结果有决定性的影响。

第 3 阶段：重新排序

向量检索返回数百个候选块。重新排序器将其缩减到 5 到 15 个。这就是大多数内容失败的地方。重新排序器不评估文本质量，它评估信息增益——这个文档是否增加了尚未被已选文档覆盖的信息？一篇新颖的论文（arXiv:2509.12765v1）证明，基于信息增益的重新排序将引用准确度提升了 17.9%。具有以下三个特征的内容更可能通过信息增益过滤器：原始数据或独特发现、与主流共识不同的差异化立场、以及对利基话题的覆盖而不是对上榜内容的又一次总结。

第 4 阶段：引用生成

模型从重新排序的候选块中综合出最终答案，并附加引用。但引用不是从块中机械生成的——模型生成一个回答，然后将引用匹配到与生成文本最相似的来源。这就是为什么 8% 到 15% 的 AI 引用是"虚构的"——模型引用了一个来源，但该来源实际上并不包含被归因于它的声明。如果内容块是自包含的且具有清晰的声明结构，模型就不容易出错。

下表总结了四个 RAG 阶段的关键特征：查询分析聚焦实体提取和意图分类，输出候选查询集合。向量检索关注分块策略和嵌入质量，输出数百个候选块。重新排序依赖信息增益计算，输出 5 到 15 个块。引用生成进行综合和匹配，输出最终回答和引用列表。每个阶段都会淘汰一批内容——理解淘汰逻辑是内容工程的基础。

平台特定的检索架构

并非所有 AI 平台的构建方式相同。ChatGPT 的联网搜索使用 Bing 搜索引擎进行初始检索，每次查询通常返回 3 到 6 个引用，其中 47.9% 来自维基百科。Perplexity 使用了不同的检索堆栈，平均每次查询返回 21.87 个引用，46.7% 来自 Reddit——这反映了它对社区生成内容的高度依赖。Claude 通过 Brave Search API 检索，通常返回 4 到 8 个引用，其中 43.8% 来自博客和独立发布商。Google AI Overviews 的优势在于直接访问 Google 搜索索引，但 29.5% 的引用链接到 YouTube——这提醒我们，在 AI 引用中视频内容与文本内容同等重要。

最引人注目的发现是平台之间的有限重叠。对不同平台就相同查询生成的引用分析显示，仅 11% 的来源在两个以上平台中同时出现。这意味着多平台 GEO 策略不是可选的——如果你只优化一个平台，你最多只能触及一个子集的用户。每个平台都有独特的检索架构、偏好的来源类型和引用计数模式。有效的 GEO 需要针对平台差异进行特定优化，而非一刀切的方法。

分块、嵌入与隐藏决定因素

嵌入模型的选择直接影响检索结果。OpenAI 的 text-embedding-ada-002 生成 1536 维向量，至今仍在许多 RAG 系统中被广泛使用。较新的模型提供了更高的维度或更好的语义分辨率，但实际影响取决于你的内容结构。一段密集的技术解释可能在不同嵌入模型间表现一致，而一段依赖细微措辞的营销文案可能因嵌入模型而异。不透明的分块策略使这种情况更加复杂——你无法控制外部平台如何分块你的内容，但你可以通过确保每个段落独立成立来使你的内容具有抗分块能力。

训练数据频率 vs. 检索

当模型已经"知道"一个事实时，它可能根本不检索——它从参数化知识中生成答案，然后可能追加也可能不追加引用。Common Crawl 约占主流模型训练数据的 60%，维基百科是其中最大的单域组成部分。如果你的品牌和内容在训练数据中出现的频率较高，你就拥有了一个基线引用优势，这个优势独立于任何 RAG 策略。对于训练截止日期之后发布的内容，你必须完全依赖 RAG，但训练期间形成的实体关联是持久的。

信息增益作为引用过滤器

在重新排序阶段存活下来的内容具有三个共同特征。第一，它包含原始数据或独特发现——RAG 系统在训练数据已包含大量冗余信息的情况下，优先选择新颖信息。第二，它呈现差异化立场——与多数观点不同的观点为答案增加了之前不存在的信息维度。第三，它覆盖利基话题——小众但有深度的内容比又一篇通用摘要提供更多增益。满足这三个特征之一的内容大幅提高了突破重新排序阶段的可能性。

这对内容工程意味着什么

了解 RAG 流水线后，你应该为每个阶段优化内容。针对查询分析：确保实体清晰度，让模型在第一步就能识别你的品牌。针对向量检索：以自包含块的形式编写内容，假设任何单个段落都可能被独立检索和显示。针对重新排序：包含独特数据、差异化观点或利基覆盖——不要充当维基百科的另一种表述版本。针对引用生成：使用清晰的声明结构（"X 是 Y"、"X 的三大优势是"），减少模型错误归因的空间。

方法论说明

本文引用的平台引用统计数据基于 2026 年 4 月至 6 月期间的公开分析和实验数据。信息增益研究引用自 arXiv:2509.12765v1。引用重叠分析基于 6 个品类中 500 条查询在 ChatGPT、Perplexity、Claude 和 Google AI Overviews 上的对比测试。引用虚构率范围 8% 到 15% 综合了多项已发表研究的结果。

检测你的 AI 可见度

了解你的内容在 RAG 流水线中的表现——免费获取 AI 可见度评分，查看你的内容在每个流水线阶段的通过率。

免费获取 AI 可见度检测