SFT 负责建立基础能力(格式、指令遵循),RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃,过晚做又会浪费算力。
一、做RL的目的是啥,和SFT有啥区别?
强化学习的本质是在已有策略的基础上,通过奖励信号进行局部优化。这意味着:RL 不是用来教会模型"能做什么",而是用来优化"怎么做得更好"。
对比维度
| 对比维度 | SFT(监督微调) | RL(强化学习/RLHF/DPO) |
|---|---|---|
| 核心目标 | 让模型听懂指令、按要求输出 | 符合人类使用习惯,优化生成质量,强化安全合规 |
| 学习机制 | token level学习目标内容,复刻指令对应的回答模式 | 以sequence level粒度,依据外界反馈调整生成策略 |
| 数据要求 | 需准备“instruction+answer”的高质量配对样本 | 需整理同一问题下“choosen/reject”回答的排序数据 |
| 实际效果 | 稳住输出底线,避免模型胡乱作答、脱离指令 | 突破基础baseline,让回答更精准、更符合预期 |
SFT没训好直接RL会有什么后果
如果 SFT 后的模型连基本任务都完成不了,RL 的探索空间会过大,奖励信号过于稀疏,训练会陷入:
- 低奖励陷阱:模型几乎拿不到正向奖励,梯度信号微弱
- 策略崩塌:模型为了避免惩罚,退化到输出安全但无意义的内容
- KL 散度爆炸:策略更新幅度过大,偏离参考模型太远
二、什么时候可以停止 SFT
1. 格式和能力已对齐了
- 能按要求输出指定格式(JSON、代码块等),不会答非所问
- 比如指令理解准确率 > 85%
如果这些还没达到,RL 只会放大问题。
2. 性能达到上限
- 验证集Loss稳定,不再有波动
- Pass Rate、准确率等关键指标多轮不再提升
- 继续加数据出现过拟合(训练集 Loss 降,验证集 Loss 不降甚至反升)
同时SFT 的上限由数据集质量决定,继续堆数据边际收益会越来越低。
3. pass@k 明显高于 pass@1
两者差距大,说明模型知道正确答案的形态,但输出不稳定。RL 可以把"偶尔正确"变成"稳定正确"。也不是pass@1 低就不能做 RL,可以观察pass@k / pass@1 的比值判断RL可以做的程度有多少
三、当前的一些主流训练路径
Deepseek R1训练过程,从 DeepSeek-R1-Zero 的纯 RL 探索,到 DeepSeek-R1 的“冷启动数据 -> 第一阶段 RL -> 拒绝采样与 SFT -> 第二阶段 RL”的pipeline
冷启动 SFT:用几千到几万条高质量样本建立基础。比如数据构成参考这个配比:指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%
RL 阶段:
Reasoning RL(代码、数学):以结果校验为奖励信号,GRPO 或 PPO
Preference RL(主观任务、对齐):用 Reward Model 或人类排序数据
循环迭代:收集 RL 筛选出的高质量样本,回头补一轮 SFT,再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。
四、来自不同场景的一些简单经验
1. 代码生成任务
SFT 目标: 模型能生成语法正确、逻辑基本合理的代码
一般判断指标:
- HumanEval / MBPP 上 pass@1 > 30%
- 语法错误率 < 10%
- 能正确处理简单的边界条件
RL 切入点:
- 用单元测试作为奖励信号(通过测试 = +1,否则 = 0)
- 引入过程奖励(如 HCAPO),对关键步骤(如循环条件、递归终止)给予额外奖励
2. 多模态推理任务
SFT 目标: 模型能看懂图片,生成与图像相关的回答
判断指标:
- 简单视觉问答(如"图中有几个苹果")准确率 > 60%
- 能生成包含视觉细节的描述(不是泛泛而谈)
- 推理链中会引用图像内容(如"根据图中的三角形")
RL 切入点:
- 结合 GRPO 优化答案准确性
参考案例: Qwen3-VL 的强化微调,SFT 后在 MathVista 上约 45% 准确率,GRPO 后提升到 58%。
3. 长程 Agent 任务
SFT 目标: 模型知道如何调用工具,能完成简单任务
判断指标:
- 单步工具调用成功率 > 70%
- 5-10步任务完成率 > 30%
- 能生成合法的工具调用参数(JSON 格式正确)
RL 切入点:
- 引入过程奖励模型(PRM),对每一步动作打分
案例: OpenClaw-RL 在工具调用任务上,SFT 后完成率 17%,引入 PRM 的 RL 后提升到 30%。
写在最后
- SFT 越久越好:过度 SFT 会让模型失去探索能力
- RL 能修复 SFT 数据质量差的问题:不能。RL 只能在 SFT 建立的基础上优化,SFT 阶段的问题会被放大,不会被修复。
- pass@1 低就不能做 RL:观察pass@k / pass@1 的比值判断RL可以做的程度有多少
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~