开云体育

开云体育国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力110细节全公开

2025-07-09
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力110细节全公开

  延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。

  直观地从钱上来对比就是,训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币),而只是训练一个7B的Llama 2,就要花费76万美元(约合555万人民币)。

  Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”:

  首先从模型能力来看,其评测跑分不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,甚至还和一些顶尖闭源模型(如GPT-4o以及Claude-3.5-Sonnet)不分伯仲。

  每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元

  单论价格,正如一开始提到的,它几乎是Claude 3.5 Sonnet的1/53(后者每百万输入3美元、输出15美元)。

  而如果要平衡性能和成本,它成了DeepSeek官方绘图中唯一闯进“最佳性价比”三角区的模型。

  对了,DeepSeek这次还搞了一个45天优惠价格体验期,也就是在2025年2月8日之前,所有用户使用DeepSeek V3 API的价格分别下降了80%(输入命中)、50%(输入未命中),75%(输出)。

  每百万输入tokens 0.1元(缓存命中)/ 1元(缓存未命中),每百万输出tokens 2元

  最后,官方此次一同开源了原生FP8权重,并提供了从FP8到BF16的转换脚本。

  具体而言,SGLang和LMDeploy这两个框架已支持FP8推理,另外两个框架TensorRT-LLM和MindIE则支持BF16推理(适合需要更高精度的场景)。

  目前普通用户可以通过官网(与DeepSeek V3展开对话,API也已同步更新,接口配置无需改动。

  先说结论,按Riley的说法,这几位的回答主打“各不相同”,不过DeepSeek V3完全答对了。

  Claude 3.5 Sonnet也对其版本了如指掌——不仅说对了版本号(许多用户非官方地称这个版本为3.5.1或3.6),还给出了发布月份。

  ChatGPT要么给出模糊答案(基于GPT-4架构),要么直接自信给出错误版本,总之处于比较懵圈的状态。

  而Grok更是独特,理论倒是一套一套,但就是不说自己的版本。(除非直接问它是哪个Grok模型)

  比如这位Tom小哥惊讶表示,DeepSeek V3无需开发者详细解释,就能“诡异”理解整个项目。

  当然,老规矩还是要测一下数草莓中的“r”以及“9.9和9.11哪个大”这种行业难题。(doge)

  唯一值得遗憾的是,当前版本的DeepSeek V3暂不支持多模态输入输出。

  官方介绍,通过在算法、框架和硬件方面的协同优化,DeepSeek V3的训练成本变得非常经济。

  预训练阶段,在每万亿token上训练DeepSeek V3仅需要18万GPU小时,就是说,在官方2048卡集群上,3.7天就能完成这一训练过程。

  研发团队用了不到2个月的时间就完成了DeepSeek V3的预训练,耗费了266.4万GPU小时,再加上上下文长度扩展的11.9万GPU小时,和后训练的5000 GPU小时,总训练成本为278.8万GPU小时。

  假设GPU租赁价格为每GPU小时2美元,那成本换算过来就是557.6万美元。

  首先,架构方面,DeepSeek V3采用了创新的负载均衡策略和训练目标。

  研发团队在DeepSeek-V2架构的基础上,提出了一种无辅助损失的负载均衡策略,能最大限度减少负载均衡而导致的性能下降。

  具体而言,该策略为MoE中的每个专家引入了一个偏置项(bias term),并将其添加到相应的亲和度分数中,以确定top-K路由。

  研发团队还证明,多Token预测目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推测解码。

  预训练方面,DeepSeek V3采用FP8训练。研发团队设计了一个FP8混合精度训练框架,首次验证了FP8训练在极大规模模型上的可行性和有效性。

  论文中还提到了跨节点MoE训练中的通信瓶颈问题。解决策略包括,设计DualPipe高效流水线并行算法:在单个前向和后向块对内,重叠计算和通信。

  这种重叠能确保随着模型的进一步扩大,只要保持恒定的计算和通信比率,就仍然可以跨节点使用细粒度专家,实现接近于0的all-to-all通信开销。

  后训练方面,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型(DeepSeek R1)中,蒸馏到标准模型上。这在显著提高推理性能的同时,保持了DeepSeek V3的输出风格和长度控制。

  其他值得关注的细节还包括,DeepSeek V3的MoE由256个路由专家和1个共享专家组成。在256个路由专家中,每个token会激活8个专家,并确保每个token最多被发送到4个节点。

  DeepSeek V3还引入了冗余专家(redundant experts)的部署策略,即复制高负载专家并冗余部署。这主要是为了在推理阶段,实现MoE不同专家之间的负载均衡。

  可以看到,在各项基准测试中,DeepSeek V3在开源模型中达到SOTA。

  新版本模型引爆热议,更多有关DeepSeek及其背后团队的信息也被关注到。

  当时是2019年,他正打算向团队推荐一个AI云解决方案,并试图说服这群人:

  有意思的是,团队表示这些东西他们早已实践了多年,并转而让他帮忙向一些大学实验室捐赠算力资源。

  DeepSeek团队的伟大成就在某种程度上植根于多年的专业知识,这些专业知识部分被许多人忽视了。

  最最后,除了本次官方公布的测试结果,Imsys匿名竞技场也出来提前预热了。

  家人们,快来用你最难的提示考考DeepSeek V3。(后续发布竞技场榜单)

  原标题:《国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

搜索