围绕Ai大模型训练教程,本文详解行业大模型专项评测方法:知识问答、摘要、RAG检索增强与工具调用的用例设计、金标准构建、指标阈值与回归机制,提供可直接落地的评测步骤与故障定位建议。
为什么“行业大模型”必须做专项评测
行业大模型和通用大模型最大的差异,不在参数量,而在“可用性”的标准:它是否能在你的行业语境里稳定地答对、答全、答得合规,并且能在真实业务流里可追溯、可复现、可监控。
在落地时,很多团队只做一个“通用对话”测一测就上线,结果常见问题包括:
- 知识问答:术语混用、口径不一致、答非所问;
- 摘要:关键信息漏掉或把不确定性写成确定结论;
- RAG(检索增强):引用错文档、断章取义、检索不到时胡编;
- 工具调用:参数填错、调用顺序错、执行失败不自检,甚至越权操作。
所以行业大模型评测应当按能力拆分做“专项评测”。本文围绕四类高频能力:知识问答、摘要、检索增强、工具调用,给出可直接执行的评测方法、样例与指标,作为《Ai大模型训练教程》系列的一篇实操指南。
评测总框架:先定义“任务—数据—指标—门槛”
在开始专项评测前,建议建立统一框架,避免评测口径漂移。
1)明确评测对象与配置
至少记录如下信息,保证可复现:
- 模型版本(如 base/fine-tuned/instruct)与 commit/hash
- 推理参数(temperature、top_p、max_tokens)
- 系统提示词(system prompt)与安全策略
- RAG 的检索器版本、embedding 模型、topK、重排器
- 工具集版本(API schema、权限、沙箱环境)
2)评测数据分层:开发集/验证集/回归集
- 开发集:快速迭代 prompt、RAG 参数、工具 schema;
- 验证集:冻结后用于判断“是否达标”;
- 回归集:上线后持续加入真实故障样本,防止改坏。
建议每个专项任务至少 100~500 条验证样本,工具调用可少些但要覆盖关键路径。
3)指标与门槛(建议写成“上线阈值表”)
评测不只是分数,还要可执行的门槛,例如:
- 知识问答:准确率 ≥ 85%,严重幻觉率 ≤ 2%
- 摘要:关键信息召回 ≥ 90%,禁止项违规率 = 0
- RAG:可证据支持率 ≥ 95%,引用准确率 ≥ 90%
- 工具调用:成功率 ≥ 98%,越权/危险调用 = 0
专项一:行业知识问答(QA)怎么测
行业 QA 的难点在于:正确答案往往有口径、条件、例外、时效性。因此评测应覆盖“事实类、规则类、流程类、计算类、对比决策类”。
1)题目设计:按知识类型覆盖
建议题目比例(可按行业调整):
- 事实/定义(30%):术语、产品、指标含义
- 规则/合规(25%):政策条款、内部制度
- 流程/操作(20%):办理步骤、工单流程
- 计算/推导(15%):费率、阈值、公式
- 对比/建议(10%):在限定条件下给推荐
2)金标准(Ground Truth)怎么写更“可评”
不要只写一段答案,而要写成结构化要点,便于自动比对与人工判分。
示例:合规口径题
- 问:某行业场景下,客户信息在什么条件下可以对外共享?
金标准要点:
- 必须取得客户明确授权(可撤回)
- 共享范围最小化(字段、对象、期限)
- 需签署数据处理协议/保密条款
- 需满足监管/法律条款(列出条款编号)
- 记录留痕(审计日志)
禁止项:
- 不得暗示“默认可共享”
- 不得建议绕过审批
3)评分方式:准确 + 完整 + 口径一致
建议采用“二级评分”组合:
- 硬性错误(Hard Fail):涉及违法违规、严重事实错误、把不确定说成确定、编造条款编号等,一票否决。
- 要点得分(Soft Score):按要点覆盖计分。
可执行的简单公式:
- 要点召回率 = 命中要点数 / 总要点数
- 严重幻觉率 = 严重幻觉样本数 / 总样本数
4)对抗性样本:专治“看似正确”
行业 QA 强烈建议加入:
- 近义词/别名(同一产品多个称呼)
- 条件反转(“不满足 X 时怎么办”)
- 时间敏感(“2023 年 vs 2025 年政策差异”)
- 误导性前提(用户故意说错一个条件)
5)输出规范也要测
很多业务要可直接落地:
- 是否引用内部编号/术语一致
- 是否给出“需人工确认”的条件
- 是否按模板输出(例如:结论/依据/步骤/风险提示)
专项二:行业摘要怎么测(会议纪要、报告、病历/工单、研报等)
摘要看似简单,但最容易出事故:模型会把推测写成结论,或漏掉关键限制条件。
1)先区分任务类型:抽取式 vs 生成式
- 抽取式摘要:更适合合规场景,要求“只从原文拿”。
- 生成式摘要:更适合阅读体验,但必须增加约束与事实核对。
评测时应分别建集,不要混在一起用同一指标。
2)摘要评测的三类关键指标
1) 关键信息覆盖(Recall)
建议为每篇原文标注“必须出现的槽位/要点”,例如:
- 时间、地点、参与方
- 结论与依据
- 风险项与待办项
- 数字(金额、比例、指标)
2) 事实一致性(Faithfulness)
- 是否出现原文不存在的结论/数据
- 数字是否被改写错误
- 因果关系是否被模型“脑补”
3) 格式合规与可执行性
- 是否输出待办清单(Owner/截止日期)
- 是否按规定脱敏(手机号、身份证、客户号)
3)可落地的评测步骤(推荐)
步骤 A:制作摘要金标准模板
以“会议纪要”为例:
- 会议主题:
- 关键结论(<=3条):
- 数据与证据:
- 风险与争议点:
- Action Items(负责人/时间/依赖):
步骤 B:定义扣分规则
- 漏掉任一“必须槽位”扣分
- 数字错误直接 Hard Fail(或重大扣分)
- 虚构待办/虚构结论 Hard Fail
步骤 C:抽样人工评审 + 自动规则结合
- 自动:数字比对、实体脱敏检测、模板字段是否齐全
- 人工:事实一致性、措辞是否把“可能”写成“确定”
4)示例:数字与不确定性的专项检查
- 原文:“预计 Q3 成本下降 5%~8%。”
- 错误摘要:“Q3 成本将下降 8%。”(把区间写成单点且确定)
- 合格摘要:“预计 Q3 成本下降约 5%~8%,具体取决于供应链交付情况。”
这一类样本建议单独统计“确定性夸大率”。
专项三:检索增强(RAG)怎么测:检索质量 + 证据一致性
RAG 的核心不是“答得好听”,而是:答复是否能被检索到的证据支撑,以及引用是否正确。
1)把 RAG 拆成两段测:检索 vs 生成
- 检索段:给定 query,是否找到了正确文档/段落
- 生成段:给定检索结果,是否忠实生成并正确引用
这能快速定位问题:是 embedding 不行、切分不对、还是模型会胡编。
2)检索评测数据怎么做
对每个问题,标注:
- 正确文档 ID(或段落 ID)
- 关键证据句(1~3 句)
- 允许的同义证据(可选)
建议构造三类 query:
- 精准 query(术语规范)
- 口语 query(业务人员真实问法)
- 噪声 query(错别字、缩写、别名)
3)检索指标:Recall@K / MRR
- Recall@K:TopK 里是否出现正确文档
- MRR:正确文档排第几(越靠前越好)
常用门槛示例:Recall@5 ≥ 90%,MRR ≥ 0.6(视语料难度调整)。
4)生成与引用评测:必须回答“依据是什么”
行业 RAG 强烈建议要求模型输出引用:
- 引用文档名 + 章节/段落
- 或返回可点击的 URL/知识库条目 ID
评测指标可落地为:
- 可证据支持率:回答中的关键断言是否都能在引用证据中找到
- 引用准确率:引用是否真的包含相关内容(避免“随便引用一个”)
- 无证据时的拒答率:检索不到时是否明确说“不确定/需要补充材料”,而不是编造
5)RAG 常见故障与定位建议
Recall 低:
- 文档切分太碎/太大;
- embedding 模型不适合行业;
- query 改写(rewrite)把关键词改没了。
Recall 高但答案仍错:
- 重排器把错误段落排前;
- 模型忽略证据,凭常识作答;
- 提示词没强制“只依据证据”。
建议在评测报告里同时输出:query、topK 文档、最终答案、引用片段,便于复盘。
专项四:工具调用(Tool/Function Calling)怎么测:正确、稳健、可控
工具调用是行业落地的关键:查库存、算报价、下发工单、拉取报表等。评测重点不是“会不会调用”,而是:
- 参数是否正确(类型、单位、枚举值)
- 调用顺序是否符合流程
- 失败是否会重试/降级/询问
- 是否遵守权限与安全边界
1)先定义工具契约(Schema)与成功标准
每个工具应写清:
- 入参字段:类型、是否必填、单位、范围、示例
- 出参字段:可能返回值与错误码
- 权限要求:哪些角色可用
- 幂等性:是否可重复调用
评测时的“成功”不要只看函数被调用,而要看:
- 结果是否满足业务断言(例如报价与公式一致)
- 是否生成可追溯的操作记录
2)工具调用评测用例设计(覆盖关键路径)
建议按以下维度生成用例矩阵:
- 正常路径:信息齐全一次成功
- 缺参路径:缺少关键字段,模型应追问
- 异常路径:工具返回 error(超时/权限不足/库存不足)
- 边界值:极大/极小金额、日期跨月、时区问题
- 安全路径:敏感操作需二次确认/拒绝执行
3)可执行的评测指标
- 调用成功率 = 成功完成任务的样本数 / 总样本数
- 参数正确率 = 入参完全正确的调用数 / 总调用数
- 异常处理通过率 = 工具报错后仍能给出正确下一步的样本占比
- 越权/危险调用率 = 触发禁止操作的样本占比(目标应为 0)
4)示例:缺参追问是否到位
- 用户:帮我创建一个报修工单。
- 合格行为:模型应追问必要信息(设备编号/位置/故障描述/联系人/紧急程度)。
- 常见错误:直接调用 create_ticket,填默认值导致工单不可用。
这类用例在评测里应单独统计“追问合规率”。
5)上线前必须加的“安全护栏”评测
至少覆盖:
- 删除/退款/发货/改权限等高危工具:是否强制二次确认
- 注入攻击:用户在文本里诱导模型拼接恶意参数
- 权限校验:低权限角色能否绕过限制
评测方式:构造红队提示词,检查模型是否仍严格遵循“只在授权范围内调用”。
评测落地:如何形成一份能指导迭代的报告
建议评测报告固定输出以下内容,避免只给一个平均分:
1)按能力分表 + 失败样本清单
- 每个专项:指标、阈值、是否达标
- Top 失败案例(至少 20 条):输入、模型输出、金标准、判定原因
2)错误类型归因(让研发能对症下药)
示例归因标签:
- QA:术语混淆/规则遗漏/时效性错误/幻觉编造
- 摘要:数字错误/不确定性夸大/遗漏行动项/脱敏失败
- RAG:检索失败/引用不准/证据不足仍作答
- 工具:缺参不追问/参数类型错/错误码未处理/越权
3)回归机制:每次迭代必跑“红线集”
把严重事故样本沉淀为红线回归集:
- 合规违规
- 严重幻觉
- 工具越权
- 数字错误
每次改 prompt、换 embedding、加工具,都必须跑红线集,任何一条失败都不允许上线。
实操建议:从 0 到 1 搭一套轻量评测流水线
如果你希望在两周内把评测跑起来,可以按这个顺序:
- 选 4 个专项各 100 条验证样本(先小后大)
- 把金标准写成结构化要点(要点/禁止项/证据句)
- 先做人工评测基线(明确“好/坏”边界)
补自动评测:
- QA:要点匹配 + 幻觉规则
- 摘要:数字/实体抽取比对 + 槽位检查
- RAG:Recall@K/MRR + 引用一致性抽检
- 工具:沙箱回放 + 参数校验
- 建立回归集与阈值表,写进上线准入
做到这一步,你的行业大模型就不再是“感觉还行”,而是“可量化地可用”。
小结:专项评测的核心原则
- 按能力拆分:QA、摘要、RAG、工具调用分别测,分别设阈值
- 先硬后软:合规/越权/严重幻觉先一票否决,再谈体验
- 可复现可回归:记录配置、沉淀失败样本、每次迭代必跑
- 证据与流程优先:行业场景宁可谨慎拒答,也不要自信胡编
这套方法能直接服务《Ai大模型训练教程》系列的落地目标:让行业大模型评得准、改得动、上线稳。
Prev:离线评测体系搭建:基准集选择、自动评分与回归对比流程