后训练 (Post-Training)
后训练 (Post-Training)
DPO:直接偏好优化的对齐革命
DPO(Direct Preference Optimization)将 RLHF 的两阶段流程(训练 Reward Model + PPO 优化)压缩为单阶段。它直接在偏好数据上优化策略,数学上等价于带 KL 约束的 RL,但实现更简单、训练更稳定。无需强化学习,只需监督学习即可完成对齐,大大降低了后训练门槛。
见:DPO 论文 | DPO 详解 - Deep Learning Focus | 2025 DPO 对齐指南
GRPO:DeepSeek-R1 的推理突破关键
GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 实现 reasoning 能力突破的核心技术。与传统 PPO 需要独立的 Critic 模型不同,GRPO 通过组内采样估计 baseline——对同一问题生成多组回答,以组内得分的相对排名作为优势估计,显存开销降低 50%,让超长思维链(Chain-of-Thought)的训练成为可能。
见:DeepSeek-R1 技术报告 | GRPO 数学原理 | Unsloth GRPO 本地训练
ORPO:SFT 与对齐的合并
ORPO(Odds Ratio Preference Optimization)将传统两阶段流程(先 SFT 再 DPO)合并为单阶段。它用一个损失函数同时优化指令跟随和偏好对齐,训练效率提升一倍,且无需参考模型。这是目前最高效的后训练方法之一。
见:ORPO 论文 | Hugging Face ORPO Trainer | Llama 3 ORPO 微调
SimPO:更简单直接的偏好优化
SimPO 进一步简化 DPO,移除参考模型,直接优化响应间的胜率。它引入"长度归一化",避免模型生成冗长但空洞的回复,是对 DPO 的实用改进。
见:SimPO 介绍
TRL:后训练的一站式解决方案
TRL(Transformer Reinforcement Learning)是 Hugging Face 生态中的后训练全栈库,集成 SFT、DPO、PPO、GRPO、Reward Modeling 等方法。它与 transformers、peft、datasets 无缝协作,是入门后训练的首选工具。
见:TRL GitHub | TRL 文档
后训练最佳实践:数据质量 > 数量
偏好对的质量远胜于数量——1000 条精心标注的偏好对 > 10000 条噪声数据。推荐流程:冷启动(高质量 SFT 建立基础指令跟随能力)→ 多轮对齐(SFT → DPO → RL,逐步逼近目标分布)→ 能力保持(定期在基础能力测试集上评估,防止对齐税)。