本文属于Ai大模型训练教程系列,给出“何时用RAG而不是继续训练”的实操决策框架,从成本、时效性、效果三维度建立评分表与7天PoC流程,涵盖检索策略、切分向量化、引用与评测方法,并说明RAG与轻量训练组合的最佳落地路径。
何时用RAG而不是继续训练:成本、时效性与效果的决策框架
在《Ai大模型训练教程:从入门到实战落地的系统课程》里,很多团队走到“模型已经能用,但业务总觉得还差一点”这一步时,最容易陷入两难:到底是继续训练(SFT/继续预训练/LoRA/全参微调),还是引入 RAG(Retrieval-Augmented Generation,检索增强生成)来补齐能力?
这篇文章专注一个可执行的决策框架:以成本、时效性、效果为核心,用一套指标与流程判断“优先用 RAG”还是“继续训练”。你可以直接照着做 PoC、算账、做 AB 测试并落地。
1. 先把问题分类:你要补的是“知识”还是“能力”?
做决策前先做一句话诊断:
- 知识缺口(Knowledge Gap):模型不会/不记得某些事实、制度、产品参数、内部流程、最新政策、文档细节。
- 能力缺口(Capability Gap):模型不会遵循指令、不会结构化输出、不会按格式抽取、不会多步推理、不会工具调用、对齐不稳定、幻觉严重且与检索无关。
1.1 快速自测:三问定位
拿 20~50 个真实业务问题,逐条看失败原因,按下面三问打标签:
1) 正确答案是否存在于你的文档/数据库中?
- 存在:更偏 RAG
- 不存在:偏训练或需要补数据源
2) 如果把相关资料“直接贴给模型”,它是否能答对?
- 能:典型“知识缺口”,优先 RAG
- 不能:可能是“能力缺口”,偏训练(或重写提示词/工具流程)
3) 错误是否主要表现为格式不对、步骤不对、逻辑不对?
- 是:偏训练/流程编排
- 否,主要是事实错/引用错:偏 RAG
把问题分成两堆,你会发现大部分企业场景的痛点是“知识更新快 + 文档多 + 要可追溯”,这类优先走 RAG 通常更快更稳。
2. 决策框架总览:用一张评分表避免拍脑袋
建议用一个 3 维度、12 指标的评分表。每个指标 0~2 分:0 表示不适合 RAG,2 表示强烈适合 RAG。总分越高越倾向 RAG。
2.1 成本维度(C)
1) 数据准备成本:
- 文档已结构化/可导出:2
- 文档杂乱但可清洗:1
- 数据无法合规获取或质量极差:0
2) 训练成本承受度(GPU/人力/迭代):
- 预算紧/算力有限:2(更偏 RAG)
- 有一定预算:1
- 有长期训练预算与团队:0
3) 推理成本敏感度:
- 可以接受多一次检索与更长 prompt:2
- 较敏感:1
- 极致低延迟/低 token:0(可能更偏训练或蒸馏)
4) 维护成本:
- 内容经常变更,需要频繁更新:2(RAG 只更新知识库)
- 偶尔变更:1
- 基本不变:0
2.2 时效性维度(T)
5) 知识更新频率:
- 每天/每周更新:2
- 每月更新:1
- 年度更新:0
6) 上线周期要求:
- 1~2 周要出效果:2
- 1~2 个月:1
- 可长期打磨:0
7) 合规与可追溯要求:
- 必须引用来源、可审计:2(RAG 更天然)
- 建议有:1
- 无要求:0
2.3 效果维度(E)
8) 答案需要“引用/原文依据”:2
9) 问题覆盖面广且长尾多:
- 长尾多、问法多:2(RAG 用文档覆盖)
- 中等:1
- 问题固定:0
10) 容错度:
- 不能胡说(金融/医疗/法务/风控):2
- 可容忍小错:1
- 主要是创作/脑暴:0
11) 失败主要来自事实错误:2
- 主要来自推理/格式:0~1
12) 是否存在“稳定可检索权威源”:
- 有(制度库/产品库/工单库/FAQ):2
- 有但分散:1
- 没有:0
经验阈值:
- 总分 ≥ 16:优先 RAG(先做检索增强与评测闭环)
- 总分 10~15:RAG + 轻量训练/提示词/工具编排组合
- 总分 < 10:更可能需要训练(或重构任务定义)
3. 典型场景:什么时候“继续训练”反而更划算?
为了不让框架失真,也要明确 RAG 的边界。以下情况通常更偏训练或系统编排:
3.1 输出必须严格结构化、且检索无法解决
例如:固定字段抽取、复杂 JSON schema、对话状态机、严格 SQL 生成。RAG 能提供字段含义与示例,但遵循格式更多是能力问题。
建议路径:
- 先做强约束解码/函数调用(tool/function calling)
- 仍不稳再做 SFT(少量高质量标注)
3.2 需要强推理/计算/规划能力
如:复杂数学、代码修复、多约束规划。RAG 能提供背景材料,但并不能保证推理链稳定。
建议路径:
- 工具增强(计算器/编译器/规划器)
- 结合少量训练提升工具调用与思维链(或用 ReAct/Plan-and-Execute 流程)
3.3 任务高度同质、输入输出分布稳定
比如客服固定 200 个意图、模板化输出。此时训练一个小模型或对大模型做 LoRA,推理成本可能更低、更可控。
4. 为什么“先上 RAG”经常是最优解:三笔账
4.1 成本账:训练的隐性成本往往被低估
继续训练不是只有 GPU 费用:
- 数据标注与质检:定义口径、去噪、冲突解决
- 训练实验成本:多轮超参、回滚
- 评测体系建设:离线集、线上指标、回归测试
- 风险成本:过拟合、遗忘、引入新幻觉
RAG 的核心成本集中在:
- 文档清洗与切分
- 向量索引与召回质量
- 引用与生成策略
多数企业在 2~4 周内能把 RAG 做到“可用且可迭代”,而训练常常需要更长的闭环周期。
4.2 时效账:知识更新快时,训练会天然滞后
政策、产品规格、内部流程变化,训练的更新周期很难跟上。RAG 只要:
- 更新文档
- 重建索引(增量)
- 回归测试
把“知识更新”从“训练问题”变成“内容工程问题”,整体更稳。
4.3 效果账:可追溯降低幻觉风险
对高风险场景,RAG 的价值不只是“更准”,而是:
- 让答案带依据
- 让审核可定位
- 让责任可界定(引用哪条制度/哪个版本)
5. 可落地的决策流程:7 天 PoC 路线图
下面是一条典型 7 天 PoC,用来判断“RAG 是否足够解决 80% 需求”,从而避免过早训练。
5.1 第 1 天:定义任务边界与成功指标
建议至少定义 4 个指标:
- Answer Accuracy(正确性):人工或基于标准答案打分
- Citation Precision(引用精度):引用的段落是否真的支持结论
- Refusal Rate(拒答率):该拒答时是否拒答(缺资料/不确定)
- Cost/Latency(成本/延迟):平均 token、P95 延迟
同时准备一个小而真实的评测集:
- 50~200 条真实问题
- 每条问题配:期望答案要点、允许引用的资料范围
5.2 第 2 天:搭知识源与版本管理
最小可行:
- 选 1~3 个权威源(制度库、产品手册、FAQ、工单知识)
- 每份文档保留:标题、发布日期/版本号、所属部门、访问权限
- 建立“内容变更流程”:谁更新、怎么审、如何回滚
5.3 第 3 天:切分与向量化(Chunking)
实操建议:
- 切分粒度:以“段落/小节”为主,300~800 中文字常见较稳
- 重叠(overlap):50~150 字,减少跨段断裂
- 元数据:文档名、章节路径、更新时间、权限标签
示例(元数据思路):
- doc_id: PRD_2026_01
- section_path: 产品A/计费/退款规则
- updated_at: 2026-02-10
- acl: finance_only
5.4 第 4 天:检索策略从“能召回”做到“召回对”
建议按优先级逐步加:
1) 向量检索 TopK(K=5~10):先跑通
2) BM25 + 向量混合检索:应对关键词与数字、型号
3) 重排序(Reranker):把“相似但不支持结论”的段落压下去
评测方法:
- 对每个问题,检查 Top3 召回里是否包含支持答案的段落
- 召回命中率 < 80% 时,不要急着调生成提示词,先调检索
5.5 第 5 天:生成策略(Prompt)与引用格式
核心目标:让模型“基于证据回答”,并在证据不足时拒答。
提示词要点:
- 明确只能依据给定上下文
- 要求给出引用(文档名+章节+段落编号)
- 证据不足时输出“无法确定 + 需要哪些资料”
输出示例要求(可作为模板):
- 结论:……
依据:
- 《XX制度》3.2 节(更新时间:2026-02-10):……
- 注意事项:……
5.6 第 6 天:做 AB 测试与错误归因
把同一批问题分别跑:
- A:纯大模型(不检索)
- B:RAG(检索+生成)
对比后做错误归因(非常关键):
- 检索没召回:优化切分/混合检索/重排序
- 召回对了但模型没用:优化提示词、压缩上下文、加“必须引用”约束
- 资料本身冲突:内容治理问题(要合并口径/标版本)
- 推理/格式失败:考虑轻量训练或工具流程
5.7 第 7 天:给出决策结论与下一步路线
建议输出一页结论:
- RAG 是否达到目标(例如正确性≥85%、引用精度≥90%)
- 当前主要瓶颈在检索/生成/内容
- 是否需要训练:需要的话,明确“训练要解决的能力缺口是什么”
6. 什么时候“RAG + 轻量训练”是最佳组合?
很多团队最终不是二选一,而是分层治理:
6.1 训练用来“教会模型怎么用资料”
当你发现:
- 检索已命中,但模型经常忽略证据
- 引用格式不稳定
- 容易把多个段落拼错结论
可以用少量 SFT 数据训练“基于上下文回答”的行为:
- 输入:问题 + 检索到的上下文
- 输出:带引用的标准答案
数据量往往不需要大:几百到几千条高质量样本就能明显改善“用证据”的习惯。
6.2 训练用来“稳定输出协议/函数调用”
如果系统依赖工具:检索、数据库查询、工单创建、权限校验,那么训练目标应聚焦:
- 何时调用哪个工具
- 参数如何填
- 失败如何重试
RAG 解决知识覆盖,训练解决流程与协议稳定性。
7. 决策时常见误区与规避清单
7.1 误区:把“文档上有答案”当成“RAG 一定有效”
规避:先做召回评测。很多失败来自切分不当、元数据缺失、重排序缺位。
7.2 误区:为了追求“更像人”,把上下文塞得太长
规避:
- 只给 Top3~Top5 高置信段落
- 用重排序减少噪声
- 对长文档做“章节级召回 + 段落级二次召回”
7.3 误区:忽视权限与版本
规避:
- 元数据加 ACL
- 按版本过滤
- 答案必须显示引用版本号/更新时间
7.4 误区:RAG 没效果就立刻上训练
规避:按“检索→生成→内容治理”顺序排查。训练不是修复内容混乱的万能药。
8. 一页式结论:选择 RAG 的强信号
当你满足以下任意 3 条以上,通常应优先 RAG:
- 知识更新快(周级甚至日级)
- 必须可追溯、可引用、可审计
- 文档/制度/产品信息是主要壁垒
- 长尾问题多,覆盖面广
- 预算与时间不支持长期训练迭代
- 错误主要是事实错而不是格式/推理错
反之,如果你的核心痛点是“遵循指令、结构化输出、工具调用稳定、复杂推理”,那么训练或系统编排优先级会上升;但在多数企业落地中,最佳实践往往是:
先用 RAG 解决知识与可追溯,再用轻量训练解决行为与协议。
这套决策框架能让你在“继续训练 vs RAG”之间有可量化的依据,减少试错成本,并更快把《Ai大模型训练教程》里的方法落到业务结果上。
Prev:大模型API服务设计:批处理、KV Cache、限流与多租户隔离