开云体育

中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万开云APP下载

2025-09-20
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万开云APP下载

  就在最新的Nature新刊中,DeepSeek一举成为首家登上《Nature》封面的中国大模型公司,创始人梁文锋担任通讯作者。

  纵观全球,之前也只有极少数如DeepMind者,凭借AlphaGo、AlphaFold有过类似荣誉。

  Nature版本的R1论文不仅首次披露了R1的训练成本——仅约29.4万美元(折合人民币约 208 万),还进一步补充了包括模型训练所使用的数据类型及安全性的技术细节。

  评审该论文的Hugging Face机器学习工程师Lewis Tunstall表示,R1是首个经历同行评审的大型语言模型,这是一个非常值得欢迎的先例。

  而俄亥俄州立大学人工智能研究员Huan Sun更是盛赞R1 ,称其自发布以来,几乎影响了所有在大语言模型中使用强化学习的研究。

  不过也是因为DeepSeek,中国AI公司的下一篇工作,恐怕已经不再满足于 CVPR、ICLR、ICML这些AI顶会了,

  在这次的Nature版本中,DeepSeek在其最新的补充材料中对训练成本、数据及安全性进行了进一步的澄清。

  在训练花费方面, R1-Zero和R1都使用了512张H800GPU,分别训练了198个小时和80个小时,以H800每GPU小时2美元的租赁价格换算的线万美元。

  相比之下,它不到30万美元的训练成本,直接让那些动辄烧掉上千万美元的同行们“抬不起头”。

  也难怪它在年初发布时,会在美股掀起一场海啸,让那些关于“巨额投入才能打造顶级AI模型”的传言不再那么漂亮。

  此外,在数据来源方面,DeepSeek也是一举打破了拿彼模型之输出当R1之输入的传闻。

  根据补充材料,DeepSeek-R1的数据集包含数学、编程、stem、逻辑、通用等5个类型的数据。

  通用数据集包含6.6万道题,用于评估模型的有用性,涵盖创意写作、文本编辑、事实问答、角色扮演以及评估无害性等多种类别。

  在安全性方面,虽然开源共享有助于技术在社区中的传播,但同时也可能带来被滥用的潜在风险。因此DeepSeek又一进步发布了详细的安全评估,涵盖以下几个方面;

  评估表明,DeepSeek-R1 模型的固有安全水平总体处于中等水平,与 GPT-4o相当,通过结合风险控制系统可进一步提高模型的安全水平。

  总的来说,DeepSeek-R1(zero)旨在解决大型语言模型在处理复杂问题和对人工数据的依赖,提出了一种纯强化学习(RL)框架来提升大语言模型的推理能力。

  这一方法不依赖人工标注的推理轨迹,而是通过自我演化发展推理能力,核心在于奖励信号仅基于最终答案的正确性,而不对推理过程本身施加限制。

  经过数千步强化学习训练后,DeepSeek-R1-Zero 在推理基准测试上表现出卓越性能。

  例如,在AIME 2024上,pass@1分数从15.6%提升至71.0%,通过多数表决进一步提高至86.7%,与o1的表现相当。

  更进一步,为了解决DeepSeek-R1-Zero 在可读性和语言混合上的问题,研究又引入DeepSeek-R1,采用少量冷启动数据和拒绝采样、强化学习和监督微调相结合的多阶段训练框架。

  具体而言,团队首先收集数千条冷启动数据,对 DeepSeek-V3-Base 模型进行微调。随后,模型进行了类似 DeepSeek-R1-Zero 的面向推理的强化学习训练。

  在强化学习接近收敛时,团队通过在强化学习检查点上进行拒绝采样,结合来自DeepSeek-V3在写作、事实问答、自我认知等领域的监督数据,生成新的SFT数据,并重新训练DeepSeek-V3-Base模型。

  经过新数据微调后,模型还经历了覆盖各种提示场景的额外的强化学习过程,DeepSeek-R1就由此而来。

  此外,将大模型涌现出的推理模式用于指导并提升小模型的推理能力也成为了一种经典方法。

  论文中使用Qwen2.5-32B作为基础模型,结果显示,从DeepSeek-R1蒸馏出的性能,优于直接在该基础模型上应用强化学习。

  当然,在开拓性论文的基础上,更让人津津乐道、也赢得Nature盛赞的,是DeepSeek的透明性与开源精神:

  回想年初DeepSeek在海外爆火时,梁文锋一句“中国AI不可能永远跟随”的豪言壮志令人振奋。

  如今,DeepSeek影响力获得Nature封面认可,如果AI研究机构有S级认可,那DeepSeek毫无疑问已经拿到了S级认证。

  下一个,阿里通义、字节Seed、腾讯混元、百度文心、华为、智谱、Kimi、阶跃……

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

搜索