开云体育
开云APP下载DeepSeek V3-0324:低调登场代码能力强劲挑战Claude 37 Sonnet
在没有任何宣传声浪的情况下,DeepSeek于3月24日悄然发布了其新版本——V3-0324,此次更新已经在HuggingFace平台上开源,供用户下载与测试。尽管这次更新无法被称为真正的飞跃,但在代码能力上的提升足以吸引众多眼球,甚至有用户指出其性能已接近Claude 3.7 Sonnet。
很多人推测,这一升级版可能会作为未来DeepSeek-R2的基础,而R2预计将在2024年4月或5月发布。此次发布显得异常低调,没有伴随任何附加的介绍资料,增强了它的神秘感。开发者Awni Hannun在本地进行测试后第一时间注意到了这一版本,他在X平台上分享了他的使用感受。他提到,在其配备512GB内存的Mac Studio上运行该模型的量化版本时,推理速度达到了令人惊叹的20 tokens/s,称其为他在笔记本上运行过的最强大模型。
虽然模型页面上提供了配置文件和权重下载,但缺乏正式的文档和性能评估,进一步突显了其低调的独特气质。此外,用户还能通过OpenRouter进行在线测试,与模型直接互动。
早期的使用反馈普遍认为,与前代版本相比,DeepSeek V3-0324在各个指标上都有显著的提升。AI研究员Xeophon在X上分享道:“在我自己的基准测试中,DeepSeek V3在所有测试中均表现卓越,已经成为最佳的非推理类模型,成功替代了Sonnet 3.5。”
需要指出的是,DeepSeek V3-0324并不是全新模型,而是基于DeepSeek V3架构的首个开源权重检查点,这一架构最早于2024年底推出。此次发布使得该架构更加开放,并且内置了FP8量化支持,旨在为内存效率与计算精度之间建立良好的平衡。
该模型采用了混合专家模型(Mixture-of-Experts, MoE)的架构,这意味着尽管其总参数量达到6850亿,但在推理过程中,只有约370亿的参数是活跃的,大大降低了硬件要求。更令人印象深刻的是,DeepSeek V3-0324引入了多项优化技术,其中包括多头潜在注意力(MLA),以增强其处理长距离依赖关系的能力,这对于生成复杂的代码尤为重要。
此外,该模型还实现了多Token预测(MTP),允许在每个推理步骤中生成多个Token来加快输出速度。这些创新使得DeepSeek V3系列在去年12月的原型测试中就取得了显著的成绩,比如在MATH-500测试中以90.2的高分超越了GPT-4o的74.6,在MGSM测试中同样表现强劲,达到79.8,而在HumanEval-Mul编程基准测试中,其表现甚至能与GPT-4o平起平坐。
虽然这些数据并未直接反映V3-0324的最新性能水平,但依然表明了DeepSeek V3架构的潜在实力。此外,AI专家陈云飞(花生)推出了深度解析DeepSeek应用的图书《一本书玩转DeepSeek》,旨在帮助普通读者轻松掌握DeepSeek的核心玩法。书中涵盖了13大场景、90个实用案例及多项技巧,成为了解DeepSeek的良好入门书籍。
总之,DeepSeek V3-0324的默默发布,将其变革性的技术悄然带入了公众视野,尽管没有喧哗和炒作,但其强悍的代码能力无疑让它在行业中占得了一席之地。返回搜狐,查看更多