多Agent 狂吞token，Claude 顶不住了：一人月烧15万美元，免费AI正在退场

2026年3月30日 21:48·36kr

Anthropic 团队正以极高强度内部试用 Claude Code。

在过去 52 天里，Claude 团队推出了 50 多项重大功能更新。x 上有消息称，Anthropic 80% 的员工每天都在使用 Claude Code，高频用户的账单更是达到六位数，仅一名员工单月在 Claude Code 上的使用费用就高达 15 万美元。

与此同时，Claude 外部使用量也正在迎来一轮明显加速。

“多个在大型科技公司和初创企业工作的朋友告诉我，他们每天在 Claude Code 或 Codex token 上的花费超过 1000 美元，折合每年 36.5 万美元。” Hyperbolic 联创 Yuchen Jin 感叹道，“我们距离企业在大模型 token 上的支出超过人力员工成本的时代，已经不远了。”

消费者交易分析公司 Indagari 分析了约 2800 万美国消费者、数十亿笔匿名信用卡交易数据。结果显示，Claude 付费订阅用户正以前所未有的速度增长，今年的付费订阅数大幅增长，规模已经翻了一倍多，Anthropic 发言人也证实了该数据。

其中，大多数新增订阅用户选择的是最低档的 Pro 套餐，价格为每月 20 美元；相比之下，更高档套餐的价格分别为每月 100 美元和 200 美元。

无论是 Anthropic 在超级碗期间推出的几支公开调侃 ChatGPT 的广告，还是其与美国国防部之间的矛盾，亦或是 1 月推出的 Claude Cowork 和新上线的 Computer Use 功能，都为其带来了明显增长。

尽管如此，Claude 与 ChatGPT 之间仍然有不小差距。数据显示，OpenAI 仍在快速吸引新的付费订阅用户，并继续稳居消费者 AI 平台中的最大玩家。

一边疯狂付费被限，一边承担风险

用户规模不断变大的同时，Anthropic 前不久调整了其一向不透明的 Claude 使用限制：在需求高峰时段，降低向用户提供服务的强度，以平衡不断增长的需求与自身的服务承载能力。

Anthropic 技术团队成员 Thariq Shihipar 在社交媒体发文称：“为了应对不断增长的 Claude 使用需求，我们正在调整免费版、Pro 和 Max 订阅用户在高峰时段的 5 小时会话限制。你们的每周总限额保持不变。”

这意味着，在高峰时段的太平洋时间 05:00 至 11:00，Claude 用户可能会在不到 5 小时内耗尽原本对应 5 小时会话的使用额度。而在一天中的其他时段，同样的 5 小时会话则允许用户完成更多工作。之所以会出现这种弹性定义，是因为 Anthropic 并未公开其 5 小时会话窗口内具体允许使用多少 token。

根据 Shihipar 的说法，“大约有 7% 的用户会撞上此前不会遇到的会话限制，尤其是 Pro 档用户。如果你在后台运行高 token 消耗任务，把它们挪到非高峰时段会让你的会话额度用得更久。”

Anthropic 表示，在其他需求较低的时段，公司已经扩充了可用容量，因此从整体上看，用户的总使用额度并没有净损失。Shihipar 解释称：“总体每周限额保持不变，只是它们在一周中的分布方式发生了变化。”

目前，Anthropic 以两种形式销售其 AI 服务：一种是 API，另一种是订阅服务。

API 用户按照公开价格付费，计费项目包括多种不同类型的 token 使用：Base Input Tokens、5m Cache Writes、1h Cache Writes、Cache Hits & Refreshes，以及 Output Tokens。

订阅用户，包括 Free、Pro（每月 20 美元）、Max 5x（每月 100 美元）和 Max 20x（每月 200 美元），则是在一套未公开的使用上限约束下使用 Claude。Anthropic 并没有明确说明这些限制到底是如何计算的，用户也无法据此提前规划自己的 token 使用量。

Anthropic 在文档中解释称：“你的使用情况会受到多种因素影响，包括对话的长度和复杂度、你使用的功能，以及你聊天时所选择的 Claude 模型。不同的订阅计划（Pro、Max、Team 等）对应不同的使用额度，付费计划通常会提供更高的上限。”

Claude 用户可以在一个仪表盘查看自己在 5 小时日常会话限额和每周使用限额中的消耗进度。如果用户超过了限额，Claude 就会将其锁定在外，除非他们愿意额外付费购买更多使用量。

在这套新的 token 分配机制下，开发者可以预期在非高峰时段能完成更多工作，而在其他时段完成的工作会更少。但有多少加州人会在早上 5 点醒来狠狠写代码呢？这无疑引起了很多开发者反感。

与此同时，用户还要承担 Claude Code 随时可能爆发的工程执行风险。

Claude Code 刚被曝出一项高风险缺陷：在特定异常情况下，插件市场的后台刷新机制可能会误对用户当前项目仓库执行 git reset --hard origin/main，并且每 10 分钟触发一次，从而清除未提交的本地改动。

正常情况下，程序会定期更新位于 ~/.claude/plugins/marketplaces/claude-plugins-official/ 的官方插件市场副本；但当该目录损坏、尤其是缺失 .git 目录时，相关 Git 操作可能不会在插件市场目录中执行，而是错误地落到用户当前的项目仓库上。提交者称，编译后二进制的行为分析显示，这一流程会执行 git fetch origin 以及 git reset --hard origin/main。

更危险的是，这类问题并不容易第一时间被察觉。当用户所有改动都已经提交时，reset --hard 看起来不会造成明显后果，容易让问题表现得像“偶发故障”；但一旦用户处于正常开发状态、仍有未提交修改，就可能遭遇反复的数据丢失。

这并不是个别开发者的偶发经历。“我已经遇到过好几次了。甚至有一次，它还直接强推到了 GitHub 上；而对于个人私有项目，GitHub 并不会启用分支保护。”开发者 jeswin 说道。

事实上，关于这款现在由 100% AI 代码构成的产品，Github 上提交的问题一直没断过。仅在三月份，Claude 服务器就至少宕机了五次。

而 AI 工具的用户们就是处于这样的矛盾状态下：一边为 AI 产品疯狂付费，一边自己承担 AI 产品自身的潜在工程风险。

免费 AI 正在退场

在前期，不少公司靠“高额补贴”“近乎免费”甚至“无限试用”吸引了大量用户。但如今，这种策略正在收缩，免费 AI 可能真的要结束了。

最早释放出明确信号的，就是 Google。

过去，在免费和补贴这条路上，Google 一度走得极为激进。它认为只要把产品做得“足够好、足够便宜”，就有机会让大量用户绕开 OpenAI 和 Anthropic，重新把 AI 的流量入口夺回自己手里。

但这套策略的代价也非常高。大量 GPU 资源被几乎不付费的用户占用，原本应该服务高价值客户的资源被不断挤压，最终连付费用户的体验都受到影响。比如，有用户反映，在 T3 Chat 中按 API 价格购买算力时，会遇到 Gemini 3.1 因过载无法响应的情况；甚至连每月支付 250 美元的订阅用户，在 Gemini 3.1 Pro 刚上线时都无法正常使用，官方给出的解释依然是容量不足，根本原因正是免费资源送得太多了。

这种紧张状态开始体现在产品策略上。Gemini CLI 已经启动新一轮调整：更严格地识别违规使用场景、优先保障某些类型账号的流量，并限制免费层用户访问 Gemini Pro 模型。与此同时，GitHub Copilot for students 也发生变化，不再支持自由选择原本附带的部分高端模型。

“如今已经没有理由继续使用 Antigravity 或 Gemini CLI。”有用户直言。“Google 的补贴大幅缩水，甚至将免费用户完全排除在 Gemini Pro 之外。尽管我在一定程度上喜欢 Gemini Flash，但它完全无法胜任日常开发工作。用免费版 Gemini 3 Flash 或 Gemini CLI 做正经开发，感觉就像用儿童玩具键盘开发真实应用，用玩具卡拉 OK 机录制专辑，完全不在一个层级，显得十分荒谬。”

更离谱的是官方关于“配额控制权”的表述：如果想直接掌控配额与计费，请使用 AI Studio 或 Vertex.ai 的付费 API key。换句话说，Gemini CLI 官方在直接告诉用户，“我们会缩减你付费订阅内的可用额度，想用更多就自己另买 API key。”这一做法极其强硬，明显在驱赶用户。

Google 收缩免费权益的根本原因就是这套模式本身越来越难以维持。

世界上本就不存在“免费算力”。如果一家公司愿意把 AI 推理免费送给你，那一定另有所图：可能靠广告盈利，可能用试用方式转化潜在客户，也可能在大规模收集数据。更现实的情况是多种因素叠加，才能让免费模式在商业上勉强成立，这笔账必须能从别的地方补上。

现在继续大规模做免费补贴，已经没有意义。虽然前沿大模型的单个 token 成本确实在持续下降，像 4o、4o mini 这样的模型，相比早期 GPT-4 32K 已经便宜了十倍以上，但现实是推理需求的复杂度和规模上涨得更快。

和 2023 年相比，现在单个问题生成的 token 数量至少增加了十倍。原因很简单：今天的模型已经不再只是回答一个孤立问题，而是会把整个代码库纳入上下文、调用工具、执行多步操作、采集外部数据，并在每一步中继续生成新的内容。token 生成量大幅增加，费用自然水涨船高。更重要的是，同一个 prompt 带来的成本涨幅，已经抵消甚至超过了单 token 降价带来的收益。

过去一条消息可能只生成 200 个 token，现在却可能达 200000 个 token，GPU 占用时间成倍增加。而只要 GPU 正在服务一个用户，就意味着同一时间无法服务别人，这本身就是高昂成本。

更长的生成内容、更高的 GPU 占用、更久的耗时，这类负载需求仍在持续上升。这也是为什么很多 AI 工具在计费模型上迟迟无法做到真正合理。

最初，大多数用户并不理解 token 这种抽象计费单位，所以许多产品都选择了更直观的方式：按消息数收费，包括不少开发者工具和聊天产品，都曾采用过这种路径。

但问题很快暴露出来：每一条消息的成本不都一样。

比如，同样是在聊天工具里发一条消息，“2 加 2 等于几”这样的请求，模型可能只花 11 个 token 就能回答；但如果让模型写几首关于 React 的诗，生成的 token 立刻会翻几十倍。现实里，一条消息在 token 消耗上的差距，甚至能达到 400 倍。最低的一批请求可能只值 0.001 美元，最高的一批则可能要烧掉数美元。

一家公司如果把产品定价为每月 8 美元，但某些用户一条 prompt 的 API 成本就可能达到 1 美元，那相当于一条请求就吃掉了整个订阅收入的八分之一。这样的产品，只要用户活跃度稍微上来一点，亏损几乎是必然的。

也正因此，过去一两年里，围绕 AI 工具“按消息数收费还是按实际用量收费”的争议越来越多。去年 Cursor 从按消息数切换到按使用量计费时，用户情绪大爆发，本质上就是因为这层矛盾终于被摆上台面：一条消息，不再只是“一条消息”，而是背后一整套成本系统。

广告、数据，撑不起“免费模式”

很多人认为，像 Google 这样靠广告起家的公司，似乎天然更适合做免费 AI。反正广告收入那么高，拿一部分补贴推理不就行了吗？在播主 Theo-t3․gg 看来，现实远没有这么简单。

广告业务之所以看上去“年入数十亿”，是因为它建立在海量曝光的规模上，而单次展示能赚到的钱，其实少得惊人。即便是在拥有高质量开发者受众、CPM 相对较高的频道上，广告收入拆到单次观看，往往也只是极低的零头。

他以自己的经验直接表示，“广告在个体层面几乎不赚钱。”比如，在 28 天内，他的视频累计被观看 2 万天时长、却仅获 9000 美元广告分成（谷歌预估分成后大约 1.8 万美元），单次播放广告收入仅约 0.28 美分，这远不足以覆盖单次可能超 1 美元的 AI 推理成本，他能做下去完全是因为依赖赞助商。

另一个经常被拿出来解释免费策略的理由是数据。这不全错，行业已经反复证明，那些拥有高质量结果反馈的真实聊天历史，对于训练新模型有非常高的价值。

你无法用一个较弱模型生成的数据，把新模型做得彻底超过原模型，但你可以逼近，而且成本远低于从头训练。也正因为如此，很多公司会格外在意 prompt、上下文和使用反馈的流向。外界也一直有各种传闻，说有人试图通过中间层服务截取输入输出数据，再拿去训练自己的模型。哪怕这些事并不能被公开验证，它们背后反映的逻辑却是一致的：真实用户数据本身，就是 AI 时代最重要的资产之一。

Cursor 这类产品也能从用户数据中获益，但远不足以支撑完全免费服务。数据虽然贵重，也还没有贵重到足以让一家公司完全靠“白送推理换数据”活下去。

数据的价值高度分化。如果用户本身并不处于真实商业环境中、没有公司级代码库，也没有持续高质量产出，那这些数据的价值就远低于那些真正工作在生产环境中的开发者。换句话说，数据不是没有价值，而是它无法替代真正的付费转化，只能在一定程度上帮助公司多吞一点成本。

各大公司推行免费与补贴的核心原因，是抢夺用户。

一家公司让你从原来的产品切到自己的产品，通常只有两种方式：要么它明显更好，要么它“足够好且更便宜”。在今天这个 AI 工具快速变化的阶段，用户已经越来越难判断“谁明显更好”，尤其当每个人手里都已经有好几个每月 20 美元、100 美元甚至 200 美元的订阅时，获取一个新用户的难度大幅提高。在这种情况下，价格就成了最容易传达的竞争力。

但免费模式中有一个经常被忽视的细节：不是所有免费用户都一样。

理想中的免费用户，是那种“如果免费，我愿意试；如果它真的更好，我也愿意付钱”的人。但还有另一类用户，他们只会在产品免费时出现，一旦收费就会消失。这类用户对公司来说就是灾难。他们会消耗大量 GPU、客服、时间和支持成本，却永远不会成为付费客户。甚至很多时候，他们在支持层面的消耗比高价值用户还更高。

免费或低价可以带来大量潜在用户，但如果产品本身不够出色，用户无法留存，前期补贴投入将全部浪费。免费策略能吸引大量用户尝试，但真正优质的转化来自“因免费体验、因产品优秀而付费”的用户群体。GitHub 就是典型案例：用户因免费开始使用，进入职场后带动企业付费，形成健康商业闭环。

但如果产品不够好，免费策略只会吸引“只在免费时使用”的低价值用户，这是一条死亡线。这类用户只会消耗 GPU、电力、人力与客服成本，付费概率几乎为零，且服务成本往往更高。

Google 正是陷入了这一困境。其产品竞争力不足，只能依靠免费引流，导致 Antigravity 用户高度两极化：一端是缺乏付费能力的新手程序员，另一端是不愿付费的资深用户，包括 Linus Torvalds 这类知名开发者也在薅免费额度。吸引了大量只消耗资源不产生收入的用户后，Google 最终不得不收紧这中就不该长期存在的补贴模式。

为什么 Anthropic 能玩转？

同样是补贴，OpenAI 和 Anthropic 走出的却是两条完全不同的路线。

OpenAI 现在更像是在增长阶段“抢地盘”。它还没有拿到足够高的市场份额，因此愿意通过更激进的补贴、临时提升 Codex 速率限制，以及推动更多外部工具集成等方式，尽可能让自己的模型出现在更多开发者的工作流里。

对 OpenAI 来说，现阶段最重要的是先成为“最好的选项”，而不是“唯一的选项”。正因如此，它看起来比 Anthropic 更开放、更愿意和生态伙伴合作。不过，这种开放更多是增长阶段的商业选择，而不一定是长期立场。一旦市场格局继续变化，也未必不会转向。

Anthropic 的补贴逻辑则只有在一个前提下才成立，那就是必须把用户变成终身客户。如果开发者可以在 Cursor、Codex CLI 或其他多模型工具里自由切换，Anthropic 给出的高额补贴就很难形成长期回报。

一个付费能力很强的开发者，也许每月会消耗几千美元的推理成本，但他往往会把这套工具带进自己的团队，甚至带进整个公司。这样一来，很多人虽然订阅了服务，却只用了很小一部分额度，而这些低使用率的付费用户，实际上就在补贴真正的重度用户。

以 Theo-t3․gg 为例，他虽然一直保留着每月 200 美元的订阅，但最近主要在用 Cursor 和 Codex CLI，Cloud Code 的实际使用量并不高，因此自己的额度没有用满，等于间接在补贴其他用户。

企业采购会进一步放大这种效应：一个工程组织统一订阅之后，真正高频使用的人往往只占少数。假设整个团队都开通了服务，最终可能只有 20% 的人会正常使用，真正高强度使用的甚至只有 10%。这意味着，绝大多数订阅费用都来自那些并没有把额度真正吃满的人，这种结构是其高价套餐能够成立的关键。

Theo-t3․gg 提到，Anthropic 每月 200 美元的订阅，最高可能对应价值 5000 美元的算力资源。短期看，平台在重度用户身上确实在亏钱；但随着推理成本持续下降，再叠加大量用户实际并没有用满额度，平台就有机会逐步把账算平，甚至走向盈利。更重要的是，这类高价值个人用户还会带来团队和企业层面的扩散，进一步提升终身商业价值。

相比之下，免费用户并不具备这种逻辑。如果一群用户只会在产品免费时出现，一旦收费就会消失，那么他们不仅无法形成长期回报，还会消耗大量 GPU、支持资源和运维成本。Google 恰恰在这一点上犯了错。

另外，Google 的问题并不只是补贴力度太大，而更像是组织本身失控了。它确实迫切想拿到真正的 AI 客户，但内部却有太多团队彼此不沟通、互相争抢 GPU 和资源，开发者工具团队甚至无法说服公司把某些模型开放给自己的产品，因为资源优先级先被让给了免费用户。

某种意义上，Google 的补贴不是“想清楚之后主动选择”的结果，而是“补着补着把自己补进坑里”的结果。

结束语

对使用这些 AI 工具的开发者来说，眼下是一个矛盾又短暂的窗口期。

一方面，大公司之间的竞争，让补贴和订阅服务依然非常慷慨；另一方面，所有人都已经开始意识到，这种状态不会永远持续。免费会越来越少，补贴力度会越来越精准，模型选择权会越来越受平台控制，而那些真正高价值的套餐，也会越来越像稀缺资源。

所以，对于用户来说，现在可能是使用这些工具的一个“黄金期”：你依然能在相对低的价格下，拿到远高于自身支付成本的价值回报。无论是每月 20 美元，还是 200 美元，只要你真的能把这些工具用起来，它们带来的生产力提升仍然极具性价比。

但对小公司来说，这也是竞争最艰难的时候。大公司用补贴抢客户，用高额算力压缩后来者空间，小公司不仅要承担原价 API 成本，还要面对用户被教育成“免费就是理所当然”的市场心态。

参考链接：

https://www.youtube.com/watch?v=w62xTVuyu3s&t=1s

https://www.newsbytesapp.com/news/science/anthropic-s-claude-sees-explosive-subscriber-growth-amid-pentagon-clash/story

https://techcrunch.com/2026/03/28/anthropics-claude-popularity-with-paying-consumers-is-skyrocketing/

https://www.theregister.com/2026/03/26/anthropic_tweaks_usage_limits/?td=rt-3a

本文来自微信公众号 “AI前线”（ID：ai-front），作者：褚杏娟，36氪经授权发布。