如何判断 SFT 到什么程度就可以开始做 RL
2026/6/7 1:17:22 网站建设 项目流程

SFT 负责建立基础能力(格式、指令遵循),RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃,过晚做又会浪费算力。

一、做RL的目的是啥,和SFT有啥区别?

强化学习的本质是在已有策略的基础上,通过奖励信号进行局部优化。这意味着:RL 不是用来教会模型"能做什么",而是用来优化"怎么做得更好"。

对比维度

对比维度SFT(监督微调)RL(强化学习/RLHF/DPO)
核心目标让模型听懂指令、按要求输出符合人类使用习惯,优化生成质量,强化安全合规
学习机制token level学习目标内容,复刻指令对应的回答模式以sequence level粒度,依据外界反馈调整生成策略
数据要求需准备“instruction+answer”的高质量配对样本需整理同一问题下“choosen/reject”回答的排序数据
实际效果稳住输出底线,避免模型胡乱作答、脱离指令突破基础baseline,让回答更精准、更符合预期

SFT没训好直接RL会有什么后果

如果 SFT 后的模型连基本任务都完成不了,RL 的探索空间会过大,奖励信号过于稀疏,训练会陷入:

  • 低奖励陷阱:模型几乎拿不到正向奖励,梯度信号微弱
  • 策略崩塌:模型为了避免惩罚,退化到输出安全但无意义的内容
  • KL 散度爆炸:策略更新幅度过大,偏离参考模型太远

二、什么时候可以停止 SFT

1. 格式和能力已对齐了

  • 能按要求输出指定格式(JSON、代码块等),不会答非所问
  • 比如指令理解准确率 > 85%

如果这些还没达到,RL 只会放大问题。

2. 性能达到上限

  • 验证集Loss稳定,不再有波动
  • Pass Rate、准确率等关键指标多轮不再提升
  • 继续加数据出现过拟合(训练集 Loss 降,验证集 Loss 不降甚至反升)

同时SFT 的上限由数据集质量决定,继续堆数据边际收益会越来越低。

3. pass@k 明显高于 pass@1

两者差距大,说明模型知道正确答案的形态,但输出不稳定。RL 可以把"偶尔正确"变成"稳定正确"。也不是pass@1 低就不能做 RL,可以观察pass@k / pass@1 的比值判断RL可以做的程度有多少

三、当前的一些主流训练路径

Deepseek R1训练过程,从 DeepSeek-R1-Zero 的纯 RL 探索,到 DeepSeek-R1 的“冷启动数据 -> 第一阶段 RL -> 拒绝采样与 SFT -> 第二阶段 RL”的pipeline

  • 冷启动 SFT:用几千到几万条高质量样本建立基础。比如数据构成参考这个配比:指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%

  • RL 阶段

  • Reasoning RL(代码、数学):以结果校验为奖励信号,GRPO 或 PPO

  • Preference RL(主观任务、对齐):用 Reward Model 或人类排序数据

  • 循环迭代:收集 RL 筛选出的高质量样本,回头补一轮 SFT,再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。

四、来自不同场景的一些简单经验

1. 代码生成任务

SFT 目标: 模型能生成语法正确、逻辑基本合理的代码

一般判断指标

  • HumanEval / MBPP 上 pass@1 > 30%
  • 语法错误率 < 10%
  • 能正确处理简单的边界条件

RL 切入点

  • 用单元测试作为奖励信号(通过测试 = +1,否则 = 0)
  • 引入过程奖励(如 HCAPO),对关键步骤(如循环条件、递归终止)给予额外奖励

2. 多模态推理任务

SFT 目标: 模型能看懂图片,生成与图像相关的回答

判断指标

  • 简单视觉问答(如"图中有几个苹果")准确率 > 60%
  • 能生成包含视觉细节的描述(不是泛泛而谈)
  • 推理链中会引用图像内容(如"根据图中的三角形")

RL 切入点

  • 结合 GRPO 优化答案准确性

参考案例: Qwen3-VL 的强化微调,SFT 后在 MathVista 上约 45% 准确率,GRPO 后提升到 58%。

3. 长程 Agent 任务

SFT 目标: 模型知道如何调用工具,能完成简单任务

判断指标

  • 单步工具调用成功率 > 70%
  • 5-10步任务完成率 > 30%
  • 能生成合法的工具调用参数(JSON 格式正确)

RL 切入点

  • 引入过程奖励模型(PRM),对每一步动作打分

案例: OpenClaw-RL 在工具调用任务上,SFT 后完成率 17%,引入 PRM 的 RL 后提升到 30%。

写在最后

  • SFT 越久越好:过度 SFT 会让模型失去探索能力
  • RL 能修复 SFT 数据质量差的问题:不能。RL 只能在 SFT 建立的基础上优化,SFT 阶段的问题会被放大,不会被修复。
  • pass@1 低就不能做 RL:观察pass@k / pass@1 的比值判断RL可以做的程度有多少

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询