文章
Cursor自研新模型反超Opus 4.6,价格还“打一折”,网友实测:只有它写完应用能一次跑通

Cursor自研新模型反超Opus 4.6,价格还“打一折”,网友实测:只有它写完应用能一次跑通

2026年3月20日 21:27·36kr

站在悬崖边的 Cursor,刚刚发布了自家第二代编程大模型:Composer 2.0, 且已在 IDE 中上线。

在一项关键的编程基准测试(Terminal-Bench 2.0)上,Composer 2 竟然 反超了 Claude 的旗舰模型 Opus 4.6。

要知道,在 Cursor 拥有自家编程模型 Composer 之前,它长期“外挂”Claude 和 Codex,虽然因此吸了一大波粉,但也饱受质疑有没有核心能力。

而这一次,不仅性能反超,而且价格还 “打一折”!

Cursor 给出的定价是:Fast 版本,每百万输入 token 输入 1.5 美元,每百万输入 token 输出 7.5 美元,比上一代便宜了 57% 左右。

而普通版的价格直接干到了输入 0.5 美元、输出 2.5 美元。相比之下,Claude Opus 4.6 的定价是:输入 5 美元、输出 25 美元——刚好差了整整 10 倍!不过需要说明的是,Anthropic 也指出,在使用缓存与批处理等优化机制时,原则上能把成本最多压到原来的十分之一。

当下, AI 竞争已经卷到了“谁能用更少的钱吐出更多 token”这步,而 Composer 2.0 在速度和成本这两端,竟然同时碾压了 Opus 4.6、GPT-5.4 这两个老对手。Cursor 也是毫不客气地放一张图,把三者的数据对比直接摆上台面。

网友实测:只有 Composer 2,写完应用能一次跑通

Cursor 宣称,Composer 2 在他们用上的所有基准测试中都取得了大幅提升。

除了前文提到的 Terminal-Bench 2.0,在衡量模型 Debug 能力的 SWE-bench Multilingual(多语言版)上,Composer 2 也给出了一个很能打的成绩:73.7%,而 Claude Opus 4.6 的这项得分是 77.83%(数据来自 Anthropic),可见两者已经拉得很近。

只在“通用榜单”里比高低可能已经不能满足 Cursor 了,他们最近还自建了一套基准,专门评估 agent 在真实任务执行水平,名为 Cursor Bench

值得一提的是,Cursor Bench 还曾把在 SWE-Bench 上风光无限的 Claude Sonnet 4.5 直接打回原形:得分从 77.2 骤降到 37.9。至于 Composer 2,大概率已经在这套自家的“魔鬼基准”下被反复检验过了。

话说回来,在数据上的表现确实很亮眼了,那 Composer 2 的真实“业务水平”如何?

一位开发者网友对 Composer 2、Opus 4.6 和 GPT-5.4 在同一任务下做了波实测:

他用一套指定技术栈生成了一个 X 的克隆应用,并允许这三个模型调用浏览器自行测试。

结果显示,三者在规划阶段差别不大,都花了约 5 分钟;但到了真正执行时,差距开始拉开:Composer 2 生成的应用可以直接运行,而 Opus 和 GPT 虽然最终也能完成,但都卡在了 CORS 问题上,需要额外调试。

更有意思的是,三者生成的代码结构和质量其实非常接近,差距主要在于 效率和成本:Composer 2 用时 5 分钟、花费 6.04 美元;而 Opus 和 GPT 分别耗时 19 分钟、22 分钟,成本也更高,达到 10.43 美元和 14.15 美元。

为什么说 Cursor 站在悬崖边?

这当然不是因为它赚不到钱。

恰恰相反,过去一年 Cursor 的营收、估值、用户增长都很猛,企业客户也还在持续买单。

据彭博社 3 月初消息,Cursor 在 2025 年销售额,从一年前的 1.5 亿美元飙升至 20 亿美元(约合人民币 138 亿元)。而且他们的员工数只有 300 多人。

另外,Cursor 在去年 11 月完成了上一轮融资,金额为 23 亿美元,投后估值 300 亿美元左右(约合人民币 2069 亿元)。而且据彭博社 3 月 11 日消息,Cursor 还在和投资者洽谈新一轮融资,投后估值或达 500 亿美元(约合人民币 3448 亿元)。不过谈判还在进行中,最终不一定能达成融资协议。

也就是说,真正危险的,是 Cursor 赖以崛起的那套逻辑正在被掏空:

过去开发者需要 IDE 来和 AI 一起写代码,而现在,越来越多开发者开始直接把任务交给 Claude Code、Codex 这类 CLI 智能体,让它们自己写、自己跑、自己改。

软件开发正在从“辅助写代码”切换到“智能体完成任务”,代码编辑器不再是唯一入口,甚至开始显得多余

这对 Cursor 来说是致命的。它原本最强的地方,是把 Claude、Codex 这些顶级模型装进一个足够顺手的 IDE 里;但当模型厂商自己下场做产品,直接把入口拿走,Cursor 就很容易从“超级入口”滑落成“中间一层”。

更尴尬的是,它长期依赖外部模型,用户喜欢它,恰恰也是因为它接入了最强的大脑;可一旦这些大脑自己做 IDE、做 CLI、做 Agent,Cursor 的护城河就开始变浅——上游模型厂往下吃,下游开发者往外绕,它被夹在中间。

所以 Cursor 的自救方式也很明确:

第一,补上最致命的短板,做自己的模型。

第二,全面转向 Agent,把 IDE 从“文件中心”改成“任务中心”。上线云端多智能体协作,让多个 Agent 并行干活,而不是只做一个代码补全工具。

第三,继续押企业市场,因为大公司迁移慢、合同长、合规重,不会今天用 Cursor 明天就全员切到 Claude Code。

另外,它还要降低对 Anthropic 和 OpenAI 的依赖。Cursor 利用 DeepSeek、Kimi、Qwen 等开源模型做了二次训练,再通过自有数据和强化学习,把它们拧成更便宜、更快的专用编码模型——Cursor 也是搭上中国开源模型的快车了。

说白了,Cursor 现在不只是在做版本更新,而是在抢时间重写自己的存在理由:

在“编辑器可能失去中心地位”的时代,证明自己不只是一个好用的壳,而是一个真正有模型、有系统、有新入口的 AI 编程平台。

参考链接:

https://cursor.com/cn/blog/composer-2

https://x.com/TukiFromKL/status/2034677859818610700

https://x.com/wesbos/status/2034705631773372853

本文来自微信公众号“AI前线”,作者:木子,36氪经授权发布。