首页 - 股票 - 公司新闻 - 正文

代码+视觉不再“偏科”,国产模型真正平替Claude还有多远?

(原标题:代码+视觉不再“偏科”,国产模型真正平替Claude还有多远?)

出品 | 创业最前线

作者 | 白华

编辑 | 闪电

美编 | 邢静

审核 | 颂文

过去一年,AI编程工具迈入“军备竞赛”阶段。以Anthropic的Claude系列为代表的闭源模型,凭借领先的代码生成和Agent能力,成为全球主流开发平台的首选。然而,其对中国市场的服务限制、高昂的API成本,以及缺乏本地化支持,正倒逼国内开发者寻找高性能、高性价比的替代方案。

与此同时,国产大模型在纯文本任务上已取得显著进展,但在视觉理解、复杂Agent工具调用等真实工程场景中仍存在明显短板——多数编程模型要么不支持图像输入,要么支持图像的模型编程能力不足。因为图文能力割裂,难以支撑现代软件开发中日益增长的代码+多模态基础需求。

近期,Kimi新发布的K2.5模型在开发者群体中引发广泛关注,因为编程性能的提升与视觉能力的补齐,让开发者终于等到了完整Claude平替的希望。

在全球最大的大模型API聚合平台OpenRouter上,Kimi K2.5模型发布次日就冲上了全球前三。

这份亮眼表现也迅速获得了头部编程工具平台的认可与青睐。Cursor的核心竞品,由GitLab创始人打造的知名编程工具Kilo Code宣布推出Kimi K2.5的首周免费活动后,K2.5也成为该平台上最受欢迎的模型,单日消耗超过380亿Token。

最近很火的Claude Code开源版OpenCode,也宣布限时免费来吸引开发者用户。

国内大厂旗下的编程工具同样第一时间接入了K2.5模型。腾讯CodeBuddy将其设定为首选模型;字节Trae宣布提供免费额度,阿里Qoder、美团CatPaw等据传也在接入中。

1、K2.5代码能力究竟如何?

从知名匿名评测机构大模型竞技场LMarena公布的数据来看,K2.5在Thinking模式下,代码能力以1509分与Claude Sonnet 4.5持平。排在它前面的,只有Claude和Gemini最新的旗舰模型。这应该是开源模型代码能力的新高。

不止代码能力表现亮眼,K2.5在视觉能力上的评测成绩同样令人惊喜。从大模型竞技场的视觉能力匿名评测来看,K2.5模型的视觉能力比Claude更能打。

我们也从开发者社区看到一些真实反馈,K2.5的实际表现和体感,与榜单呈现的结果比较接近,代码能力确实有了提升。

一位Sezxy的网友表示Kimi K2.5+OpenCode感觉很不错,几个需求都用它俩解决。

不过,似乎编程能力的提升,也有一定的“副作用”,部分网友表示,之前K2模型的创意写作能力好像在K2.5模型上减弱了。

2、代码模型为什么需要视觉?

在知乎问题《Kimi发布并开源K2.5模型,哪些信息值得关注?》下,有Kimi的工程师分享了Kimi做多模态的背后思路,其中一段提到了视觉能力对代码模型的价值,其中一个关键场景是模型可以自己发现前端页面的视觉bug,然后有机会在后续的流程中自己进行修正:

其实对于很多任务而言,Agent模型也能去自己debug,去根据Console Log的文本内容去解决问题,但是我们还是会遇到一些没有任何Error或者Warnning,但又不得不再次提出Feedback的时刻,比如:“网站两个组件产生了堆叠遮挡,你修改下”“放在首页的图裂开了,应该是Link失效了,麻烦你check下”“这是一个介绍的网页,配图不应该是工作人员”。

这些问题总是在不断提出,我们总是希望模型能不犯这些错误。是的,模型是有可能one-shot出来没有任何问题的代码,但是,只要我们给模型一双眼睛,这些吐槽的问题或者就有可能会让模型自己形成一个Action-Critic的Refine闭环,而没有Human的工作流水线是有更高效率的理想上限。

这可能是K2.5模型上线后,立即受到开发者群体欢迎的关键原因之一。此前的中国编程模型,普遍没有视觉能力,遇到图片和视频都无法处理,只能报错。或者需要非常复杂的流程,自行接入另一个模型来处理,对编程的效率影响很大。另一个关键原因则是Claude模型太贵了,烧钱太快。Kimi新模型的API价格只有Claude中号模型Sonnet 4.5的1/5,用起来钱包不会太疼。

3、更多K2.5的幕后

除了市场端的亮眼表现,K2.5的技术研发背后还有不少值得深挖的细节。

因此在1月29日凌晨,Kimi核心团队在Reddit平台举行了一场长达3小时的AMA(有问必答)活动,CEO杨植麟、算法团队负责人周昕宇、吴育昕三位联合创始人,与全球网友交流了K2.5的技术细节、产品规划与行业看法。这场对话中,许多关键问题的回应,让外界了解了更多K2.5的幕后。

有网友抛出尖锐问题:Kimi K2.5非常棒,但我看到有人说模型会自称为Claude,并把这当作你们大量蒸馏(distill)自Claude模型的证据。这是怎么回事?

杨植麟回应称:“我们的观察是,在正确的系统提示词下,它有很高的概率回答‘Kimi’,尤其是在思考模式下。但当系统提示为空时,它就进入了一个未定义区域,这更多地反映了预训练数据的分布情况。其中一项改进是,我们在预训练阶段对来自互联网的最新编程数据进行了上采样,而这些数据似乎与词元‘Claude’的关联性更强。事实上,K2.5在许多基准测试中似乎都优于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。”

对于“Kimi Code和Claude Code有什么区别?为什么Kimi要开发自己的编程工具?”的问题,杨植麟表示:“我们认为我们需要一个与模型最匹配的框架。但使用Claude Code时,框架会不断变化,兼容性有时会成为问题。此外,Kimi Code还拥有一些独有的功能。我们认为video2code(视频生代码)非常重要,代表着前端开发的未来。”

而被问及“训练VLM的主要挑战是什么?为什么Kimi如此坚定地投入视觉模型的训练?”时,杨植麟给出了深入的技术解读:“主要挑战在于同步提升文本与视觉能力。我们发现,只要配方得当,两者可以相互增强:在视觉任务上做RL训练,反而提高了文本知识基准;反过来,像K2这样扎实的文本基础,也是视觉性能的关键。”

从技术突破到市场认可,再到研发底层的逻辑拆解,K2.5的出现为国产大模型的发展提供了全新的思路和样本。

4、结束语

中国企业和开发者都亟需一个真正的Clauce平替,“代码和视觉功能完备+性能全面对标+性价比优势”。现在看起来,kimi2.5暂时弥补了这一空缺。但我们还是希望看到更多中国模型可以站起来,让企业和开发者有更多选择。

*注:文中题图来自界面图库。

APP下载
广告
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-