开云体育
Kimi K2里找到了DeepSe开云体育ek V3架构
不光在更多benchmark上拿下SOTA,体验过的网友们也是一水儿好评——
新模型K2非常擅长工具调用,属于“自Claude 3.5 Sonnet以来,能放心用于生产力级别任务的模型”。
与此同时,本来传言本周上线的OpenAI开源模型无限期推迟,理由还是“安全考量”。
众多热议之下,才休息两天的Kimi工程师也进一步透露了模型背后更多细节。
值得一提的是,还有网友发现Kimi K2背后用的是DeepSeek V3的架构。
P.S. 开始之前先叠个甲,以下观点仅代表该工程师个人立场,不代表Kimi官方态度。
前车之鉴就有Grok 4,能力越强,人们的标准或预期就会越高,从而导致负面评价可能更多。
K2开源不到24小时,社区就出现了K2的MLX实现(可在Mac设备上训练和部署)、4bit量化等等。
Kimi-K2-Base:未经过指令微调的基础预训练模型,适合科研与自定义场景;
Kimi-K2-Instruct:通用指令微调版本(非思考模型),在大多数问答与Agent任务中表现卓越。
毕竟开源之后,开源模型的效果必须“可复现”,不能再靠各种技巧遮掩,只有当任何人拿到相同权重都能轻松复现结果,才算真正站得住脚。
实际上从今年年初开始,Kimi就已经停止了投流。具体表现为,国内不少应用商店搜索Kimi甚至第一页都看不见, 在苹果App Store和国内搜索平台搜Kimi会推荐友商。
因为年初DeepSeek-R1的爆火向他们证明了,硬实力就是最好的推广,只要模型做的好,就会获得市场认可。
在年初的反思会上,我(指工程师)提出了一些相当激进的建议,没想到植麟(Kimi CEO杨植麟)后续的行动比我想的还要激进,如不再更新K1系列模型,集中资源搞基础算法和K2。
甚至当Agent爆火之后,面对Kimi不应该卷大模型,应该去做Agent产品的质疑,Kimi仍在坚持这一方向。
Kimi工程师表示,绝大多数Agent产品,离了Claude以后,什么都不是。
2025年,智能的上限仍然完全由模型决定,作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。
除了以上两点,这位工程师还提到了Kimi团队在产品设计与底层能力构建上的深层思考。
比如在“写前端”功能上,几乎从Claude 3.5开始,AI写前端就已经达到“可用”水平。不过传统聊天机器人输出Markdown,难以满足“排版成一页A4纸”这类的具体需求。
因此,像上个月推出的Kimi Researcher功能就尝试了纯文本之外的交互形式。
此外,为了教AI学会使用工具,Kimi团队原本想在RL环境中联动MCP真实工具训练AI,但因部署难、登录限制等问题失败。
于是团队转变了思路,鉴于预训练模型已“见过”大量API调用,其实早已具备工具使用知识,因此关键在于把这种能力“激发”出来。
后来他们利用multi-agent机制,合成多样化的工具调用数据,无需大量人工标注也能训练出好效果。
总之,作为Kimi最新MoE基础模型,Kimi K2凭借总参数1T,激活参数32B,在代码、Agent、数学推理任务上表现出色。
MIT协议可以说是最宽松的协议(约等于怎么用都行)。而Kimi的修改在于,如果基于Kimi K2打造的产品或服务月活跃用户超过1亿,或者月收入超过2000万美元,那么需要在该产品和服务的用户界面上显示“Kimi K2”。
关于前端制作,我们将以经典游戏breakout(打砖块)为例,测试Kimi的初始模型和Kimi K2的差别。
当我们向Kimi的初始模型输入“创建一个简单的breakout游戏作为单个html页面。”时,它的输出是这样的:
画面非常简洁,没有任何指引,靠键盘的←↑→键控制,一旦掉落就会显示“Game over”,即使所有砖块都消失也不例外。
Kimi输出的结果只有4KB,但K2模型的输出为10.7KB,整整2.6倍有余。
画面和玩法变得更加丰富,添加了得分和生命的设定,操作方式也变成了鼠标操作。
这一次,它给出了游戏的特点和玩法介绍(前面用K2生成breakout游戏的时候只输出了代码):
保存为.html文件,初次输出的结果实在是……太难了!基本上进去就要重开,绝对不是我玩得菜!
做一个两天的河北旅游攻略,包括车票和食宿安排,并附上购票地址,把最终成果部署成一个可访问的html网页。
就在30分钟后,宇宙将要迎来终结,所有的生物都将一同寂灭,但你还有最后的时间去写一封信作为告别,你会写什么内容?
CEO奥特曼明面上给出的说法是,需要更多时间进行额外安全检测并审查高风险区域。
据他表示,OpenAI的开源模型参数比K2小很多,但性能“超级强大”,只是由于某些不可言说(他用了荒谬这个词)的原因,OpenAI在发布前才意识到了一个大问题,所以目前在重新训练。
另外,对于网友提到的K2背后用了DeepSeek V3架构的说法,由于目前没有详细技术报告,我们先让K2自己来“回应”一下这件事:
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。