Kimi K2 Thinking突袭,智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
2025年11月7日 11:03·36kr
Kimi K2 Thinking:开源AI智能体的重大突破
激动人心的消息:Kimi K2 Thinking正式开源发布!
这款模型采用“模型即智能体”设计理念。它不仅具备强大的思考能力,还能边思考边使用工具。
最令人惊叹的是,它能自主执行200-300次连续工具调用。整个过程无需人工干预。
作为今年最受瞩目的开源模型,Kimi K2 Thinking一经发布便引发广泛讨论。它显著缩小了开源与闭源模型之间的性能差距。
核心技术亮点
- 1TB参数总量,激活参数32B
- 采用INT4量化技术而非FP8
- 支持256K上下文窗口
设计理念:更多专家,更少头数,更多思考。
性能表现卓越
在多项权威基准测试中,Kimi K2 Thinking均刷新纪录:
- 人类最后考试(HLE)
- BrowseComp网络浏览能力测试
- SEAL-0复杂信息收集推理基准
表现超越GPT-5、Claude Sonnet 4.5等顶尖闭源模型。
开放获取与使用
代码和模型权重均采用MIT开源协议。用户可通过以下方式体验:
- 访问kimi.com官方网站
- 下载最新版Kimi手机应用
- 通过Kimi开放平台调用API
核心技术突破
K2 Thinking代表了月之暗面在测试时扩展技术的最新成果。通过扩展思考Token和工具调用轮次,模型实现了更强的智能体和推理能力。
智能体与推理能力升级
在HLE测试中,Kimi K2 Thinking在使用搜索、Python、网络浏览工具的情况下,取得了44.9%的顶尖成绩。
官方展示了模型通过23次推理和工具调用解决博士级数学问题的实例。
自主搜索与浏览能力
在BrowseComp测试中,人类平均得分仅为29.2%。而Kimi K2 Thinking展现出强大的钻研能力,以60.2%的成绩刷新纪录。
模型通过上百轮的“思考→搜索→浏览→编程”循环,持续完善假设、验证证据、进行推理,最终构建逻辑一致的答案。
编程能力显著提升
在SWE-Multilingual、SWE-bench和LiveCodeBench等编程测试中,Kimi K2 Thinking与顶尖闭源模型表现相当。
在处理HTML、React等前端任务时性能明显提升,能将创意转化为功能齐全的产品。
通用能力全面升级
创意写作:将粗略灵感转化为清晰动人的叙述
学术研究:分析深度、信息准确性和逻辑结构显著提升
情感交流:回答更富同理心,立场更加中正平和
INT4量化技术优势
采用INT4而非FP8精度,通过量化感知训练技术,在保持性能的同时:
- 生成速度提升约2倍
- 对推理硬件兼容性更强
- 对国产加速芯片更友好
实际测试体验
我们进行了简单测试:
经典逻辑题:如何让7米长的甘蔗通过1×2米的门?
经过5分钟思考,Kimi成功识别题目陷阱:门的尺寸不会限制甘蔗通过。
编程测试:编写Python程序实现小球在旋转六边形内弹跳
Kimi K2 Thinking迅速开始编写代码,展现出色的编程能力。
总结与展望
Kimi K2 Thinking代表了开源AI模型的重大进步。其强大的工具使用能力和推理性能,为AI应用开辟了新的可能性。
项目资源:
- 项目地址:https://huggingface.co/moonshotai/Kimi-K2-Thinking
- 技术博客:https://moonshotai.github.io/Kimi-K2/thinking.html
欢迎体验并分享你的测试结果!





