开云体育
颠覆AI行业的国产大模型DeepSeek究竟有何魅力?开云体育
蛇年吉祥,各位科技爱好者!在这个中国农历新年期间,科技界却仿佛一场狂欢,热闹非凡。距离OpenAI推出以GPT-3.5为基础的ChatGPT已有两年,期间巨头们与初创企业纷纷在AI大模型领域砸下了巨额投资,算力不断攀升,而训练和推理的成本也随之水涨船高。想当初,ChatGPT Pro会员的月费已然飙升至200美元,让不少用户直呼“吃不消”。难不成我们在将来会迎来2000美元的“ChatGPT Pro Max 限量版”?这时,来自杭州的一家“小公司”DeepSeek却出乎意料地打破了这种沉闷,最近它引发了全网的关注。
DeepSeek在去年底发布的DeepSeek-V3模型,评测结果不断超越其它主流模型,仅与行业领军产品如GPT-4和Claude-3.5分庭抗礼。作为一款开源MoE(混合专家)模型,DeepSeek-V3引起了不少业内人士的关注,不过它似乎还没能真正脱颖而出。在DeepSeek官方手机应用于1月初上线之前,市场上已经出现了一些模仿它的山寨产品。
而在1月20日发布的DeepSeek-R1推理模型,更是首次将自己的性能与OpenAI的o1明确对标。值得一提的是,DeepSeek还贴心地将DeepSeek-R1的训练技术向用户公开,并开源了模型权重。这对普通用户而言简直是个福利,DeepSeek-R1在官网上完全免费开放使用!与此同时,它还可以联网搜索信息,提供极大的灵活性。相比之下,去年上线的ChatGPT Search功能却无法与ChatGPT o1模型协同使用,用户只能退而求其次。
DeepSeek-R1所展现出的成本优势不仅令人瞩目,其官方API服务的定价更是让人感到其亲民,每百万输入tokens的费用仅1元(缓存命中)/4元(缓存未命中),每百万输出tokens也仅需16元,成本竟然仅为ChatGPT o1的约3%。
DeepSeek-R1之所以如此高效,得益于其采用的MoE架构——这意味着它可以将复杂问题细分为更小的部分,通过不同的专家网络来分别处理,令计算效率大幅提升。在实际应用中,当你向这个模型发出请求时,仅激活所需的37B参数,而不是671B全部参数,成功实现“让专业的人干专业的事”。
而且,DeepSeek-R1还使用了强化学习(RL)的方法来进行优化,完全依赖环境反馈来提升模型的推理能力,可以说是一次颠覆性的尝试。其在RL训练中发展出的自我校验、反思推理等复杂行为,已经达到了ChatGPT o1的水平,让我们对未来的AI训练方式有了更多期待。
尽管DeepSeek-V3和DeepSeek-R1的表现相当亮眼,但它们仍局限于“大语言模型”,尚未具备处理图片、音频等多模态信息的能力。直到1月28日,DeepSeek才推出了全新的视觉多模态模型Janus-Pro-7B,采用独特的编码过程,解决了以往框架的局限性,并在许多基准测试中超越了知名的竞争对手。然而,目前Janus-Pro仍然只能处理384x384分辨率的图像,未来的多模态进展值得期待。
DeepSeek的迅速崛起不禁令 AI 行业内的各个竞争者开始重视这家“小公司”。在新年钟声敲响之际,阿里团队亦推出了Qwen2.5-Max模型,共同回应市场热潮。而据OpenAI的CEO阿尔特曼也对DeepSeek-R1做出了肯定评价,透露ChatGPT的后续版本将会更开放,可能是由于DeepSeek等竞争者给予的压力,并且显现出成本向下走的趋势。2025年或许会有更多的惊喜,AGI(通用人工智能)是否真的不再是遥不可及的梦想?让我们共同期待。返回搜狐,查看更多