DeepS开云APP下载eek满血微调秘籍来了全网首发打破低价内卷！解锁升级版全家桶

开云体育NEWS CENTER

您当前位置：首页 > 开云体育

2025-03-26

浏览次数：次

　　DeepSeek V3/ R1火爆全网，基于原始模型的解决方案和API服务已随处可见，陷入低价和免费内卷。

　　如何站在巨人肩膀上，通过后训练（post-training）结合专业领域数据，低成本打造高质量私有模型，提升业务竞争力与价值？

　　已收获近4万GitHub Star的Colossal-AI，发布开源大模型后训练工具箱，包含：

　　DeepSeek V3/R1满血版参数高达6710亿，如何低成本进行低成本微调呢？仅需以下几个步骤，即可快速完成。

　　该脚本与常见SFT脚本类似，且完全兼容HuggingFace PEFT，启动命令：

　　如果你通过--zero_cpu_offload启用CPU offload，硬件要求可以进一步降低，但会损失一定的训练速度。

　　对于资金充裕的开发团队，也可以使用上述脚本，将并行度高效扩展至数百及数千卡，快速完成DeepSeek V3/R1 671B全参微调或并行加速。

　　对于预算有限，又想借助强化学习构建自己的类DeepSeek R1模型， Colossal-AI也提供了解决方案，并利用小模型对算法进行了验证。

　　同时，在GRPO章节，Colossal-AI团队还提供了验证过程中的部分发现及各种参数的详细描述，可供参考。

　　代码中设计了可灵活配置奖励函数的模板，因此，用户可根据自己的具体情况设计自己的奖励函数体系。

　　由下图可以看到，即使是3B的模型，平均奖励与模型回复长度随着时间逐步增长。

　　随着训练的进行，我们可以看到一些有意思的例子。例如随着训练迭代，模型开始了自我纠正：

　　Colossal-AI在深耕大模型预训练降本增效的基础上，致力于进一步成为开发者开箱即用的最佳后训练工具，帮助用户基于开源模型，低成本快速构建私有模型。