开云体育

开云APP下载AI奥数大奖出炉英伟达摘桂冠!14B破解34题暴击DeepSeek R1

2025-04-14
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云APP下载AI奥数大奖出炉英伟达摘桂冠!14B破解34题暴击DeepSeek R1

  【新智元导读】AIMO2最终结果出炉了!英伟达团队NemoSkills拔得头筹,凭借14B小模型破解了34道奥数题,完胜DeepSeek R1。

  作为大赛顾问委员会的一员,陶哲轩激动地宣布了最新的结果——英伟达团队AI成功破解了34道题(共50题)。

  这一次,50道测试题保持了与AIMO1相同「数值答案」形式基础上,进一步提升了「抗暴力破解」的难度。

  这场由Kaggle主办的AI竞赛,参赛者必须使用开源LLM,在规定的有限算力条件下,用AI完成解题。

  AIMO2每年都会评选5名获胜者,第一名便是英伟达团队——NemoSkills。

  为了让大家更直观地对这个分数有一个认识:主办方使用了DeepSeek R1 405B在同一个测试数据上,进行了无限计算/时间的测试。

  而英伟达微调出的14B模型,以更小参数规模,以及时间和硬件限制下拿下了惊人的34分。

  这款模型便是Qwen-14B,在数百万合成数学测试集上进行了微调,能够支持CoT推理。

  最大的亮点是高度优化的推理,仅使用了4个L4 GPU,在短短5小时内解决了50个问题中的34个。

  第二名是来自清华和微软的三人团队,分别是清华大学研究助理教授Foxfi Ning、微软的高级研究员Zinan Lin以及清华学子yiyouyc。

  在公开排行榜上, 他们得分34/50(排名第一),在私有排行榜上得分31/50(排名第二)。

  第一部分:推理导向训练 —— 提升模型的推理能力 阶段1 - SFT(监督微调)和阶段2 - DPO(数据增强优化)使用精选数据。

  第二部分:效率优化 —— 提升推理效率 选择合适的推理引擎、权重量化、KV缓存量化。

  第三部分:推理时策略 —— 改善效率与推理性能的权衡 设计有效的提示语、进行自一致性聚合、在样本/问题级别进行早停以及调整一些启发式超参数。

  在本地验证方面,用了AIME 2025测试集(30个问题)以及参考集(10个问题),评估了平均样本准确率和通过自一致性聚合的准确率,以获得参赛团队试验解决方案的初步判断。

  第五名,来自浙江杭州的匿名选手,AI得分29,6年前加入了Kaggle。

  这次竞赛增加了奖金池,提供了全新的题目数据集,为参赛者提供更多算力支持,并更新了关于使用开源大语言模型(LLM)的规则。

  数学推理能力是人工智能发展的一个关键里程碑,是解决许多复杂问题的基石,比如工程奇迹或复杂的金融模型。

  人工智能数学奥林匹克(AIMO)是一个总金额高达1000万美元的基金,旨在激励开发能够与国际数学奥林匹克(IMO)顶尖人类选手表现相当的开源AI模型。

  这些题目还被设计为「对AI来说特别难」,需要较强的数学推理能力,并且已经针对当前开源大语言模型的能力进行了测试。

  为了避免训练数据与测试数据混淆的问题,竞赛采用了由国际解题团队创作的全新数学题目。

  参赛者的提交将根据预测结果与真实答案(ground-truth labels)的准确率进行评估。

  总体进步奖将颁发给在公开和私有测试集上均获得至少47/50分的最高排名团队。

  如果本届竞赛没有团队获得总体进步奖,剩余奖金将滚入下一届竞赛,奖金额度和分配规则保持不变。

  原标题:《AI奥数大奖出炉,英伟达摘桂冠!14B破解34题暴击DeepSeek R1》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

搜索