GetCiteFlowGetCiteFlow
返回博客列表
指南

生成式 AI 如何实际选择引用来源

Neil Yan · 2026年6月20日 · 约 1 分钟阅读

大多数人认为 LLM 回答问题时只是"搜索网络然后总结"。这个心智模型大致正确,但遗漏了决定你的内容是否被引用的关键分层步骤。检索增强生成不是一个大步骤,而是一个包含查询分析、向量检索、重新排序和引用生成的流水线。每个阶段都会淘汰一批内容。理解每个阶段淘汰什么、保留什么,是让内容出现在 AI 引用中的第一步。

核心要点

  1. RAG 是一个四阶段流水线:查询分析、向量检索、重新排序、引用生成——每阶段都会大幅缩小候选内容范围。
  2. 信息增益是重新排序阶段的关键过滤器:包含原始数据、差异化立场或利基覆盖的内容更可能幸存(arXiv:2509.12765v1 显示采用信息增益排序后引用准确度提升 17.9%)。
  3. 不同 AI 平台的检索架构差异巨大:ChatGPT 依赖 Bing 且 47.9% 引用来自维基百科,Perplexity 46.7% 来自 Reddit,Claude 43.8% 来自博客——平台间引用重叠率仅 11%。
  4. 引用生成阶段存在 8% 到 15% 的虚构成分——模型可能引用从未说过某句话的来源,这使内容结构清晰度比文本质量更重要。
  5. Common Crawl 约占主流模型训练数据的 60%,其中维基百科是最大的单域来源——在训练数据中的存在本身就是一种引用优势。

四阶段 RAG 流水线

第 1 阶段:查询分析

在模型接触任何文档之前,它首先分析查询。它提取实体(谁/什么被问到)、意图(对比?定义?推荐?)和约束条件(时间、地域、产品)。查询分析决定了哪些文档进入候选池。如果你的内容结构与查询分析提取的实体和意图不匹配,它根本不会进入下一阶段。这就是为什么实体清晰度如此重要——如果模型无法将你的品牌解析为一个相关实体,你永远不会进入检索候选池。

第 2 阶段:向量检索

查询和候选文档被转换为向量嵌入,然后通过余弦相似度进行匹配。文档不是整页检索的——它们被分块,通常每个块 100 到 500 token,每个块独立嵌入。这意味着你的页面由几十个独立向量表示,而不是一个。如果在分块边界上将关键信息分割开,或者一块需要上下文才能理解,它就无法与查询匹配,即使整页是相关的。分块策略——块大小、重叠、分隔符选择——对检索性能的影响常常被低估,但对最终检索结果有决定性的影响。

第 3 阶段:重新排序

向量检索返回数百个候选块。重新排序器将其缩减到 5 到 15 个。这就是大多数内容失败的地方。重新排序器不评估文本质量,它评估信息增益——这个文档是否增加了尚未被已选文档覆盖的信息?一篇新颖的论文(arXiv:2509.12765v1)证明,基于信息增益的重新排序将引用准确度提升了 17.9%。具有以下三个特征的内容更可能通过信息增益过滤器:原始数据或独特发现、与主流共识不同的差异化立场、以及对利基话题的覆盖而不是对上榜内容的又一次总结。

第 4 阶段:引用生成

模型从重新排序的候选块中综合出最终答案,并附加引用。但引用不是从块中机械生成的——模型生成一个回答,然后将引用匹配到与生成文本最相似的来源。这就是为什么 8% 到 15% 的 AI 引用是"虚构的"——模型引用了一个来源,但该来源实际上并不包含被归因于它的声明。如果内容块是自包含的且具有清晰的声明结构,模型就不容易出错。

下表总结了四个 RAG 阶段的关键特征:查询分析聚焦实体提取和意图分类,输出候选查询集合。向量检索关注分块策略和嵌入质量,输出数百个候选块。重新排序依赖信息增益计算,输出 5 到 15 个块。引用生成进行综合和匹配,输出最终回答和引用列表。每个阶段都会淘汰一批内容——理解淘汰逻辑是内容工程的基础。

平台特定的检索架构

并非所有 AI 平台的构建方式相同。ChatGPT 的联网搜索使用 Bing 搜索引擎进行初始检索,每次查询通常返回 3 到 6 个引用,其中 47.9% 来自维基百科。Perplexity 使用了不同的检索堆栈,平均每次查询返回 21.87 个引用,46.7% 来自 Reddit——这反映了它对社区生成内容的高度依赖。Claude 通过 Brave Search API 检索,通常返回 4 到 8 个引用,其中 43.8% 来自博客和独立发布商。Google AI Overviews 的优势在于直接访问 Google 搜索索引,但 29.5% 的引用链接到 YouTube——这提醒我们,在 AI 引用中视频内容与文本内容同等重要。

最引人注目的发现是平台之间的有限重叠。对不同平台就相同查询生成的引用分析显示,仅 11% 的来源在两个以上平台中同时出现。这意味着多平台 GEO 策略不是可选的——如果你只优化一个平台,你最多只能触及一个子集的用户。每个平台都有独特的检索架构、偏好的来源类型和引用计数模式。有效的 GEO 需要针对平台差异进行特定优化,而非一刀切的方法。

分块、嵌入与隐藏决定因素

嵌入模型的选择直接影响检索结果。OpenAI 的 text-embedding-ada-002 生成 1536 维向量,至今仍在许多 RAG 系统中被广泛使用。较新的模型提供了更高的维度或更好的语义分辨率,但实际影响取决于你的内容结构。一段密集的技术解释可能在不同嵌入模型间表现一致,而一段依赖细微措辞的营销文案可能因嵌入模型而异。不透明的分块策略使这种情况更加复杂——你无法控制外部平台如何分块你的内容,但你可以通过确保每个段落独立成立来使你的内容具有抗分块能力。

训练数据频率 vs. 检索

当模型已经"知道"一个事实时,它可能根本不检索——它从参数化知识中生成答案,然后可能追加也可能不追加引用。Common Crawl 约占主流模型训练数据的 60%,维基百科是其中最大的单域组成部分。如果你的品牌和内容在训练数据中出现的频率较高,你就拥有了一个基线引用优势,这个优势独立于任何 RAG 策略。对于训练截止日期之后发布的内容,你必须完全依赖 RAG,但训练期间形成的实体关联是持久的。

信息增益作为引用过滤器

在重新排序阶段存活下来的内容具有三个共同特征。第一,它包含原始数据或独特发现——RAG 系统在训练数据已包含大量冗余信息的情况下,优先选择新颖信息。第二,它呈现差异化立场——与多数观点不同的观点为答案增加了之前不存在的信息维度。第三,它覆盖利基话题——小众但有深度的内容比又一篇通用摘要提供更多增益。满足这三个特征之一的内容大幅提高了突破重新排序阶段的可能性。

这对内容工程意味着什么

了解 RAG 流水线后,你应该为每个阶段优化内容。针对查询分析:确保实体清晰度,让模型在第一步就能识别你的品牌。针对向量检索:以自包含块的形式编写内容,假设任何单个段落都可能被独立检索和显示。针对重新排序:包含独特数据、差异化观点或利基覆盖——不要充当维基百科的另一种表述版本。针对引用生成:使用清晰的声明结构("X 是 Y"、"X 的三大优势是"),减少模型错误归因的空间。

方法论说明

本文引用的平台引用统计数据基于 2026 年 4 月至 6 月期间的公开分析和实验数据。信息增益研究引用自 arXiv:2509.12765v1。引用重叠分析基于 6 个品类中 500 条查询在 ChatGPT、Perplexity、Claude 和 Google AI Overviews 上的对比测试。引用虚构率范围 8% 到 15% 综合了多项已发表研究的结果。

检测你的 AI 可见度

了解你的内容在 RAG 流水线中的表现——免费获取 AI 可见度评分,查看你的内容在每个流水线阶段的通过率。

免费获取 AI 可见度检测
生成式 AI 如何实际选择引用来源 | GetCiteFlow 中文