开云体育
DeepSeek-V3:极低成本的AI巨人力压GPT与OpenAI?开云APP下载
在AI竞争如火如荼的背景下,一家名为DeepSeek的中国初创公司不负众望,推出了被用户称为“真正的‘Open’AI”的DeepSeek-V3模型,标志着开源人工智能的新纪元。去年晚上,DeepSeek正式发布了该模型的首个版本,并开放了源代码,可供广大用户使用。
DeepSeek-V3模型不仅能够高效处理编码、翻译及撰写论文等各种文本任务,更在内部基准测试中表现优于现有的多个主流模型,包括Meta的Llama3.1405B、OpenAI的GPT-4o以及阿里巴巴的Qwen2.572B。在最近的编程竞赛中,DeepSeek表现亮眼,成功超越了多款竞争型号,展现出其强大的技术实力。
该模型拥有6710亿参数,但其训练成本却令人惊叹,仅为600万美元左右,相比起动辄几十亿甚至上百亿的其他大语言模型实属低廉。例如,Llama-3.1的训练投入更是接近5亿美元。DeepSeek-V3所使用的混合专家架构,确保了在处理特定任务时,只激活必要的参数,达到更高的效率。
值得注意的是,DeepSeek-V3引入了辅助无损负载均衡策略和多token预测(MTP)两项创新,这不仅提升了模型的执行速度,达到每秒生成60个token,还大幅缩短了训练成本与时间。在278.8万个H800 GPU小时的训练中,该模型展现出超乎寻常的效率。
在开源大模型领域,DeepSeek-V3的表现相当出色,尤其在中文及数学领域的基准测试中表现优异,得分远高于同类竞争模型。一些用户甚至认为,DeepSeek-V3能够深入理解他们的需求,使其在应用体验上获得了极高的满意度。
虽然训练成本低廉,但DeepSeek-V3依然成为了市场上最强大的开源大模型之一。企业和研发团队都可以通过HuggingFace平台获取到这一模型,并在商业项目中加以利用。“人们不应低估LLM价格合理的重要性,这样它们才能真正为每个人所用”,一位用户如是说。
总之,DeepSeek-V3的发布不仅在技术层面上实现了突破,也在经济性上颠覆了传统观念。不少业内专家对此表示震惊,甚至开始思考,在这种资源限制下,我们是否进入了一个全新的AI时代。返回搜狐,查看更多