微调 (Fine-tuning)
微调 (Fine-tuning)
Axolotl:YAML 配置驱动的微调框架
Axolotl 的核心理念是"用 YAML 定义整个训练流程"——从数据预处理、模型加载、训练配置到导出部署,全部收敛在一个配置文件中。这种声明式接口降低了微调门槛,支持 LoRA/QLoRA、全参数微调、多模态微调和持续预训练。2025 年 2 月新增 LoRA 优化,在单 GPU 和多 GPU 训练中进一步降低内存占用并提升训练速度。
见:Axolotl GitHub | Axolotl 官方文档
LLaMA-Factory:一站式 LLM 训练与部署平台
LLaMA-Factory 是目前最全面的开源微调框架,支持 100+ 模型架构,提供 Web UI 界面让非技术人员也能轻松操作。其特色是集成了模型量化、合并、导出等全流程工具,微调完成后可直接生成 GGUF、vLLM 等部署格式。通过可扩展的模块统一了多种高效微调方法,让大模型微调真正普及。
见:LLaMA-Factory GitHub | LLaMA-Factory 使用指南
LoRA:低秩适配的参数高效微调
LoRA(Low-Rank Adaptation)冻结预训练模型权重,注入可训练的秩分解矩阵到每一层:W = W_0 + BA,其中 W_0 冻结,B 和 A 可训练且秩远小于 W。这种方法将训练参数量减少 10000 倍,同时保持与全参数微调相当的性能,是在消费级 GPU 上微调大模型的标准选择。
见:LoRA 论文 | Hugging Face LoRA 教程
QLoRA:量化 + LoRA 的极致内存优化
QLoRA 将 4-bit 量化与 LoRA 结合,实现最大内存效率。全参数微调 70 亿参数模型需要 100-120GB 显存,而 QLoRA 仅需约 10GB,让消费级 GPU 也能微调大模型。量化后的模型权重以低精度存储,计算时动态反量化,配合 LoRA 的可训练适配器,在效率和效果之间取得完美平衡。
见:LoRA vs QLoRA - RedHat | IBM QLoRA 文档
PEFT:Hugging Face 参数高效微调库
PEFT(Parameter-Efficient Fine-Tuning)是 Hugging Face 开源的参数高效微调库,集成了 LoRA、Prefix Tuning、Prompt Tuning、IA³、Adapter 等多种方法。它让研究者可以用统一接口尝试不同微调策略,无需修改模型代码即可切换方法,极大简化了实验流程。
见:PEFT GitHub | PEFT 方法概览
Unsloth:手写 CUDA 内核的极速微调
Unsloth 通过手写 CUDA 内核和算法优化,在保持精度的前提下将微调速度提升 2-5 倍,显存占用降低 50%+。它针对 LLM 训练中的热点操作(RoPE、LayerNorm、Cross-Entropy)定制 CUDA 实现,支持与 PEFT 完全兼容,只需修改几行导入语句即可加速现有 LoRA/QLoRA 训练代码。
见:Unsloth 官网 | Unsloth 博客