开云体育
DeepS开云APP下载eek满血微调秘籍来了全网首发打破低价内卷!解锁升级版全家桶
DeepSeek V3/ R1火爆全网,基于原始模型的解决方案和API服务已随处可见,陷入低价和免费内卷。
如何站在巨人肩膀上,通过后训练(post-training)结合专业领域数据,低成本打造高质量私有模型,提升业务竞争力与价值?
已收获近4万GitHub Star的Colossal-AI,发布开源大模型后训练工具箱,包含:
DeepSeek V3/R1满血版参数高达6710亿,如何低成本进行低成本微调呢?仅需以下几个步骤,即可快速完成。
该脚本与常见SFT脚本类似,且完全兼容HuggingFace PEFT,启动命令:
如果你通过--zero_cpu_offload启用CPU offload,硬件要求可以进一步降低,但会损失一定的训练速度。
对于资金充裕的开发团队,也可以使用上述脚本,将并行度高效扩展至数百及数千卡,快速完成DeepSeek V3/R1 671B全参微调或并行加速。
对于预算有限,又想借助强化学习构建自己的类DeepSeek R1模型, Colossal-AI也提供了解决方案,并利用小模型对算法进行了验证。
同时,在GRPO章节,Colossal-AI团队还提供了验证过程中的部分发现及各种参数的详细描述,可供参考。
代码中设计了可灵活配置奖励函数的模板,因此,用户可根据自己的具体情况设计自己的奖励函数体系。
由下图可以看到,即使是3B的模型,平均奖励与模型回复长度随着时间逐步增长。
随着训练的进行,我们可以看到一些有意思的例子。例如随着训练迭代,模型开始了自我纠正:
Colossal-AI在深耕大模型预训练降本增效的基础上,致力于进一步成为开发者开箱即用的最佳后训练工具,帮助用户基于开源模型,低成本快速构建私有模型。