Kimi K2 Thinking突袭，智能体&推理能力超GPT-5，网友：再次缩小开源闭源差距

2025年11月7日 11:03·36kr

Kimi

Reasoning

Kimi K2 Thinking开源模型：革命性AI智能体技术详解

Kimi K2 Thinking：开源AI智能体的重大突破

激动人心的消息：Kimi K2 Thinking正式开源发布！

这款模型采用“模型即智能体”设计理念。它不仅具备强大的思考能力，还能边思考边使用工具。

最令人惊叹的是，它能自主执行200-300次连续工具调用。整个过程无需人工干预。

作为今年最受瞩目的开源模型，Kimi K2 Thinking一经发布便引发广泛讨论。它显著缩小了开源与闭源模型之间的性能差距。

核心技术亮点

1TB参数总量，激活参数32B
采用INT4量化技术而非FP8
支持256K上下文窗口

设计理念：更多专家，更少头数，更多思考。

性能表现卓越

在多项权威基准测试中，Kimi K2 Thinking均刷新纪录：

人类最后考试(HLE)
BrowseComp网络浏览能力测试
SEAL-0复杂信息收集推理基准

表现超越GPT-5、Claude Sonnet 4.5等顶尖闭源模型。

开放获取与使用

代码和模型权重均采用MIT开源协议。用户可通过以下方式体验：

访问kimi.com官方网站
下载最新版Kimi手机应用
通过Kimi开放平台调用API

核心技术突破

K2 Thinking代表了月之暗面在测试时扩展技术的最新成果。通过扩展思考Token和工具调用轮次，模型实现了更强的智能体和推理能力。

智能体与推理能力升级

在HLE测试中，Kimi K2 Thinking在使用搜索、Python、网络浏览工具的情况下，取得了44.9%的顶尖成绩。

官方展示了模型通过23次推理和工具调用解决博士级数学问题的实例。

自主搜索与浏览能力

在BrowseComp测试中，人类平均得分仅为29.2%。而Kimi K2 Thinking展现出强大的钻研能力，以60.2%的成绩刷新纪录。

模型通过上百轮的“思考→搜索→浏览→编程”循环，持续完善假设、验证证据、进行推理，最终构建逻辑一致的答案。

编程能力显著提升

在SWE-Multilingual、SWE-bench和LiveCodeBench等编程测试中，Kimi K2 Thinking与顶尖闭源模型表现相当。

在处理HTML、React等前端任务时性能明显提升，能将创意转化为功能齐全的产品。

通用能力全面升级

创意写作：将粗略灵感转化为清晰动人的叙述

学术研究：分析深度、信息准确性和逻辑结构显著提升

情感交流：回答更富同理心，立场更加中正平和

INT4量化技术优势

采用INT4而非FP8精度，通过量化感知训练技术，在保持性能的同时：

生成速度提升约2倍
对推理硬件兼容性更强
对国产加速芯片更友好

实际测试体验

我们进行了简单测试：

经典逻辑题：如何让7米长的甘蔗通过1×2米的门？

经过5分钟思考，Kimi成功识别题目陷阱：门的尺寸不会限制甘蔗通过。

编程测试：编写Python程序实现小球在旋转六边形内弹跳

Kimi K2 Thinking迅速开始编写代码，展现出色的编程能力。

总结与展望

Kimi K2 Thinking代表了开源AI模型的重大进步。其强大的工具使用能力和推理性能，为AI应用开辟了新的可能性。

项目资源：

项目地址：https://huggingface.co/moonshotai/Kimi-K2-Thinking
技术博客：https://moonshotai.github.io/Kimi-K2/thinking.html

欢迎体验并分享你的测试结果！

Kimi K2 Thinking突袭，智能体&推理能力超GPT-5，网友：再次缩小开源闭源差距

Kimi K2 Thinking：开源AI智能体的重大突破

核心技术亮点

性能表现卓越

开放获取与使用

核心技术突破

智能体与推理能力升级

自主搜索与浏览能力

编程能力显著提升

通用能力全面升级

INT4量化技术优势

实际测试体验

总结与展望

相关文章

美团推出 LongCat-Flash-Thinking-2601，开源工具调用能力再登高峰

智谱最新旗舰模型 GLM-5 炸场：编程、智能体能力取得开源 SOTA 表现

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

GPT-5争议、开源追赶、能力飞跃：Epoch AI年终报告揭示AI能力加速

阶跃星辰推出全新开源 GUI 智能体 GELab-Zero，助力本地化智能应用

MiniMax 开源 M2.7 模型，AI 自主训练与复杂任务能力再突破