Cursor自研新模型反超Opus 4.6，价格还“打一折”，网友实测：只有它写完应用能一次跑通

2026年3月20日 21:27·36kr

站在悬崖边的 Cursor，刚刚发布了自家第二代编程大模型：Composer 2.0，且已在 IDE 中上线。

在一项关键的编程基准测试（Terminal-Bench 2.0）上，Composer 2 竟然 反超了 Claude 的旗舰模型 Opus 4.6。

要知道，在 Cursor 拥有自家编程模型 Composer 之前，它长期“外挂”Claude 和 Codex，虽然因此吸了一大波粉，但也饱受质疑有没有核心能力。

而这一次，不仅性能反超，而且价格还 “打一折”！

Cursor 给出的定价是：Fast 版本，每百万输入 token 输入 1.5 美元，每百万输入 token 输出 7.5 美元，比上一代便宜了 57% 左右。

而普通版的价格直接干到了输入 0.5 美元、输出 2.5 美元。相比之下，Claude Opus 4.6 的定价是：输入 5 美元、输出 25 美元——刚好差了整整 10 倍！不过需要说明的是，Anthropic 也指出，在使用缓存与批处理等优化机制时，原则上能把成本最多压到原来的十分之一。

当下， AI 竞争已经卷到了“谁能用更少的钱吐出更多 token”这步，而 Composer 2.0 在速度和成本这两端，竟然同时碾压了 Opus 4.6、GPT-5.4 这两个老对手。Cursor 也是毫不客气地放一张图，把三者的数据对比直接摆上台面。

网友实测：只有 Composer 2，写完应用能一次跑通

Cursor 宣称，Composer 2 在他们用上的所有基准测试中都取得了大幅提升。

除了前文提到的 Terminal-Bench 2.0，在衡量模型 Debug 能力的 SWE-bench Multilingual（多语言版）上，Composer 2 也给出了一个很能打的成绩：73.7%，而 Claude Opus 4.6 的这项得分是 77.83%（数据来自 Anthropic），可见两者已经拉得很近。

只在“通用榜单”里比高低可能已经不能满足 Cursor 了，他们最近还自建了一套基准，专门评估 agent 在真实任务执行水平，名为 Cursor Bench。

值得一提的是，Cursor Bench 还曾把在 SWE-Bench 上风光无限的 Claude Sonnet 4.5 直接打回原形：得分从 77.2 骤降到 37.9。至于 Composer 2，大概率已经在这套自家的“魔鬼基准”下被反复检验过了。

话说回来，在数据上的表现确实很亮眼了，那 Composer 2 的真实“业务水平”如何？

一位开发者网友对 Composer 2、Opus 4.6 和 GPT-5.4 在同一任务下做了波实测：

他用一套指定技术栈生成了一个 X 的克隆应用，并允许这三个模型调用浏览器自行测试。

结果显示，三者在规划阶段差别不大，都花了约 5 分钟；但到了真正执行时，差距开始拉开：Composer 2 生成的应用可以直接运行，而 Opus 和 GPT 虽然最终也能完成，但都卡在了 CORS 问题上，需要额外调试。

更有意思的是，三者生成的代码结构和质量其实非常接近，差距主要在于 效率和成本：Composer 2 用时 5 分钟、花费 6.04 美元；而 Opus 和 GPT 分别耗时 19 分钟、22 分钟，成本也更高，达到 10.43 美元和 14.15 美元。

为什么说 Cursor 站在悬崖边？

这当然不是因为它赚不到钱。

恰恰相反，过去一年 Cursor 的营收、估值、用户增长都很猛，企业客户也还在持续买单。

据彭博社 3 月初消息，Cursor 在 2025 年销售额，从一年前的 1.5 亿美元飙升至 20 亿美元（约合人民币 138 亿元）。而且他们的员工数只有 300 多人。

另外，Cursor 在去年 11 月完成了上一轮融资，金额为 23 亿美元，投后估值 300 亿美元左右（约合人民币 2069 亿元）。而且据彭博社 3 月 11 日消息，Cursor 还在和投资者洽谈新一轮融资，投后估值或达 500 亿美元（约合人民币 3448 亿元）。不过谈判还在进行中，最终不一定能达成融资协议。

也就是说，真正危险的，是 Cursor 赖以崛起的那套逻辑正在被掏空：

过去开发者需要 IDE 来和 AI 一起写代码，而现在，越来越多开发者开始直接把任务交给 Claude Code、Codex 这类 CLI 智能体，让它们自己写、自己跑、自己改。

软件开发正在从“辅助写代码”切换到“智能体完成任务”，代码编辑器不再是唯一入口，甚至开始显得多余。

这对 Cursor 来说是致命的。它原本最强的地方，是把 Claude、Codex 这些顶级模型装进一个足够顺手的 IDE 里；但当模型厂商自己下场做产品，直接把入口拿走，Cursor 就很容易从“超级入口”滑落成“中间一层”。

更尴尬的是，它长期依赖外部模型，用户喜欢它，恰恰也是因为它接入了最强的大脑；可一旦这些大脑自己做 IDE、做 CLI、做 Agent，Cursor 的护城河就开始变浅——上游模型厂往下吃，下游开发者往外绕，它被夹在中间。

所以 Cursor 的自救方式也很明确：

第一，补上最致命的短板，做自己的模型。

第二，全面转向 Agent，把 IDE 从“文件中心”改成“任务中心”。上线云端多智能体协作，让多个 Agent 并行干活，而不是只做一个代码补全工具。

第三，继续押企业市场，因为大公司迁移慢、合同长、合规重，不会今天用 Cursor 明天就全员切到 Claude Code。

另外，它还要降低对 Anthropic 和 OpenAI 的依赖。Cursor 利用 DeepSeek、Kimi、Qwen 等开源模型做了二次训练，再通过自有数据和强化学习，把它们拧成更便宜、更快的专用编码模型——Cursor 也是搭上中国开源模型的快车了。

说白了，Cursor 现在不只是在做版本更新，而是在抢时间重写自己的存在理由：

在“编辑器可能失去中心地位”的时代，证明自己不只是一个好用的壳，而是一个真正有模型、有系统、有新入口的 AI 编程平台。

参考链接：

https://cursor.com/cn/blog/composer-2

https://x.com/TukiFromKL/status/2034677859818610700

https://x.com/wesbos/status/2034705631773372853

本文来自微信公众号“AI前线”，作者：木子，36氪经授权发布。