Kimi K2.7 Code深度测评:思考token锐减30%,编程性能再攀高峰,模型何以少想多做?
6月12日,月之暗面正式发布了Kimi K2.7 Code。距离上一次K2.6的亮相不过三个月,这款新模型便交出了一份颇具冲击力的成绩单:思考过程中消耗的token数量削减了将近三成,而代码生成基准测试的分数却逆势上扬超过20%。在物理模拟这类需要真正吃透运动规律的任务里,它的表现相比上一代有了肉眼可辨的提升。
AI编程模型的竞争重心正在经历一场悄然转移。过去,行业热衷于较量谁能生成更长的代码片段;如今,新的标杆在于谁能在真实工程环境中,把一整套开发流程从需求到交付可靠地跑通。月之暗面在这个转折节点推出的K2.7 Code,恰好精准踩在了节奏之上。
模型架构不变,训练策略革新
K2.7 Code完整承继了K2.5与K2.6的混合专家(MoE)架构:1万亿参数总量、320亿激活参数、384个专家模块、256K上下文窗口。模型底层骨架分毫不差,这意味着此前已经在生产环境中部署K2.6的团队可以实现无痛切换,无需对基础设施做任何适配调整。
真正的改进源自训练策略的打磨。月之暗面表示,K2.7 Code着力解决了“过度思考”这一痛点。上一代K2.6曾在简单任务上也不加节制地消耗大量token,进行自我质疑与循环推理。新模型通过优化训练,在保持推理深度不变的前提下,将思考环节的token花销压缩了约30%。对于运行智能体工作流的团队而言,这直接转化为每次任务调用的推理成本下降。
基准测试数据全面提升
月之暗面公布了官方基准测试的六项指标。在自建的Kimi Code Bench v2上,K2.7 Code的得分从50.9拉升至62.0,涨幅达21.8%。Program Bench则由48.3涨至53.6,MLS Bench Lite更是从26.7跃升到35.1。在与MCP协议相关的Agent能力测验中,MCP Mark Verified的分数从72.8提高到81.1,甚至超越了Claude Opus 4.8的76.4。
Kimi K2.7 Code官方基准数据(月之暗面自测):
- Kimi Code Bench v2:62.0(K2.6为50.9,+21.8%)
- Program Bench:53.6(K2.6为48.3,+11.0%)
- MLS Bench Lite:35.1(K2.6为26.7,+31.5%)
- Kimi Claw 24/7:46.9(K2.6为42.9,+9.3%)
- MCP Atlas:76.0(K2.6为69.4,+9.5%)
- MCP Mark Verified:81.1(K2.6为72.8,+11.4%,超过Opus 4.8的76.4)
若将视角拉到国际竞争格局中审视,K2.7 Code在编程专项基准上仍落后于GPT-5.5与Claude Opus 4.8。GPT-5.5在Kimi Code Bench v2上握有69.0分,在Program Bench上则为69.1。差距固然存在,但若把价格维度纳入考量——K2.7 Code的输入定价为$0.95/百万token,输出$4.00/百万token,分别仅为GPT-5.5的1/5和1/7——这份性价比优势已足够引发团队的认真权衡。
物理模拟挑战:编程模型的深层能力试金石
在通行的编程基准测试之外,GMI Cloud开展了一组颇具启发性的对比实验。他们让K2.7 Code与K2.6、GPT-5.5、Claude Opus 4.8分别生成物理模拟代码,测试场景囊括三个经典课题:洛伦兹吸引子(混沌系统)、太阳系轨道(天体力学)、水波与飞溅(流体力学)。
这类测试触碰到了代码模型的深层肌理:你必须透彻理解物理定律的内核,再用代码将其精确复现。仅仅调用现成接口或拼凑框架远远不够。K2.7 Code在这场测试中表现出显著领先,生成的水波渲染最为真实,波纹舒展自然,飞溅效果栩栩如生。而K2.6的轨道模拟与波形表现仍残留着明显的失真痕迹。
物理模拟能力堪称代码生成能力的隐藏考卷。一个能写出正确JavaScript函数的模型,未必能写好物理引擎;而一个能精确复现洛伦兹吸引子的模型,则足以证明它对数学运算、时间步进、可视化输出这条完整链路已建立起扎实的掌控。
开源与定价:生态位竞争策略
K2.7 Code采用Modified MIT许可证,模型权重已在Hugging Face上完全开源。对于自行搭建推理服务的团队,这意味着可以零门槛部署在自有基础设施上,仅需支付算力消耗。
API定价方面,K2.7 Code与K2.6维持在同一水平线。考虑到思考token减少了30%,每次任务的实质开销反而更低。对于当前已在生产环境中使用K2.6的团队,迁移路径几乎透明:保持同一个API endpoint,换个model ID即可。月之暗面还细心地提示,若在Kimi Code中关闭思考模式,系统将自动回退至K2.6引擎,确保了平滑兼容。
独立评测的缺失与挑战
月之暗面公布的所有基准数据均来自自测。K2.7 Code尚未提交至DeepSWE这一当前最具区分度的独立编程基准,也不在KernelBench的公开榜单之上。
研究者Elliot Arledge在KernelBench-Hard上对K2.7 Code进行了独立评测,揭示出另一侧面:在六个GPU内核优化问题中,K2.7 Code产出了五个原创Triton内核,但其中两个却因模型自身的bug而运行失败。MoE内核的得分甚至从K2.6的0.222降至0.157。这暗示,在底层系统编程这类对精度锱铢必较的场景,更果断的策略或许反而意味着自我纠错机会的减少。
开发者Sugumaran Balasubramaniyan公开对月之暗面的基准选择提出质疑。他基于DeepSWE构建了Hermes Agent平台的模型路由系统,指出K2.6在DeepSWE上得分仅为24%,与GPT-5.4-mini持平。他的态度代表了行业中理性务实的一派:倘若独立数据验证能够通过,他愿意为编程任务优先路由K2.7 Code;倘若无法通过,那么“节省30%思考token”的说法便只停留在厂商的叙事层面。
K2.7 Code的真正价值并不凝固在基准榜单的数字上。对于已经在K2.6生产环境中运转的团队,它是一次低成本、低风险的顺滑升级。对于正在斟酌模型路由策略的团队,最可靠的决策依据,是拿自己的任务分布,亲自跑一遍K2.7 Code——这远比任何厂商公开的图表与百分比更具说服力。
参考来源
Moonshot AI, Kimi K2.7 Code, Hugging Face model card | Moonshot AI, Kimi K2.7 Code Quickstart, Kimi API Platform | VentureBeat, K2.7-Code cuts thinking tokens 30%, June 12 2026 | the-decoder, Moonshot K2.7 Code undercuts GPT-5.5, June 13 2026 | MarkTechPost, Moonshot AI Releases K2.7-Code, June 12 2026 | DeepSWE Leaderboard, datacurve.ai | kernelbench.com
