多Agent 狂吞token,Claude 顶不住了:一人月烧15万美元,免费AI正在退场
2026年3月30日 21:48·36kr
Anthropic 团队正以极高强度内部试用 Claude Code。
在过去 52 天里,Claude 团队推出了 50 多项重大功能更新。x 上有消息称,Anthropic 80% 的员工每天都在使用 Claude Code,高频用户的账单更是达到六位数,仅一名员工单月在 Claude Code 上的使用费用就高达 15 万美元。
与此同时,Claude 外部使用量也正在迎来一轮明显加速。
“多个在大型科技公司和初创企业工作的朋友告诉我,他们每天在 Claude Code 或 Codex token 上的花费超过 1000 美元,折合每年 36.5 万美元。” Hyperbolic 联创 Yuchen Jin 感叹道,“我们距离企业在大模型 token 上的支出超过人力员工成本的时代,已经不远了。”
消费者交易分析公司 Indagari 分析了约 2800 万美国消费者、数十亿笔匿名信用卡交易数据。结果显示,Claude 付费订阅用户正以前所未有的速度增长,今年的付费订阅数大幅增长,规模已经翻了一倍多,Anthropic 发言人也证实了该数据。
其中,大多数新增订阅用户选择的是最低档的 Pro 套餐,价格为每月 20 美元;相比之下,更高档套餐的价格分别为每月 100 美元 和 200 美元。
无论是 Anthropic 在超级碗期间推出的几支公开调侃 ChatGPT 的广告,还是其与美国国防部之间的矛盾,亦或是 1 月推出的 Claude Cowork 和新上线的 Computer Use 功能,都为其带来了明显增长。
尽管如此,Claude 与 ChatGPT 之间仍然有不小差距。数据显示,OpenAI 仍在快速吸引新的付费订阅用户,并继续稳居消费者 AI 平台中的最大玩家。
一边疯狂付费被限,一边承担风险
用户规模不断变大的同时,Anthropic 前不久调整了其一向不透明的 Claude 使用限制:在需求高峰时段,降低向用户提供服务的强度,以平衡不断增长的需求与自身的服务承载能力。
Anthropic 技术团队成员 Thariq Shihipar 在社交媒体发文称:“为了应对不断增长的 Claude 使用需求,我们正在调整免费版、Pro 和 Max 订阅用户在高峰时段的 5 小时会话限制。你们的每周总限额保持不变。”
这意味着,在高峰时段的太平洋时间 05:00 至 11:00,Claude 用户可能会在不到 5 小时内耗尽原本对应 5 小时会话的使用额度。而在一天中的其他时段,同样的 5 小时会话则允许用户完成更多工作。之所以会出现这种弹性定义,是因为 Anthropic 并未公开其 5 小时会话窗口内具体允许使用多少 token。
根据 Shihipar 的说法,“大约有 7% 的用户会撞上此前不会遇到的会话限制,尤其是 Pro 档用户。如果你在后台运行高 token 消耗任务,把它们挪到非高峰时段会让你的会话额度用得更久。”
Anthropic 表示,在其他需求较低的时段,公司已经扩充了可用容量,因此从整体上看,用户的总使用额度并没有净损失。Shihipar 解释称:“总体每周限额保持不变,只是它们在一周中的分布方式发生了变化。”
目前,Anthropic 以两种形式销售其 AI 服务:一种是 API,另一种是订阅服务。
API 用户按照公开价格付费,计费项目包括多种不同类型的 token 使用:Base Input Tokens、5m Cache Writes、1h Cache Writes、Cache Hits & Refreshes,以及 Output Tokens。
订阅用户,包括 Free、Pro(每月 20 美元)、Max 5x(每月 100 美元)和 Max 20x(每月 200 美元),则是在一套未公开的使用上限约束下使用 Claude。Anthropic 并没有明确说明这些限制到底是如何计算的,用户也无法据此提前规划自己的 token 使用量。
Anthropic 在文档中解释称:“你的使用情况会受到多种因素影响,包括对话的长度和复杂度、你使用的功能,以及你聊天时所选择的 Claude 模型。不同的订阅计划(Pro、Max、Team 等)对应不同的使用额度,付费计划通常会提供更高的上限。”
Claude 用户可以在一个仪表盘查看自己在 5 小时日常会话限额和每周使用限额中的消耗进度。如果用户超过了限额,Claude 就会将其锁定在外,除非他们愿意额外付费购买更多使用量。
在这套新的 token 分配机制下,开发者可以预期在非高峰时段能完成更多工作,而在其他时段完成的工作会更少。但有多少加州人会在早上 5 点醒来狠狠写代码呢?这无疑引起了很多开发者反感。
与此同时,用户还要承担 Claude Code 随时可能爆发的工程执行风险。
Claude Code 刚被曝出一项高风险缺陷:在特定异常情况下,插件市场的后台刷新机制可能会误对用户当前项目仓库执行 git reset --hard origin/main,并且每 10 分钟触发一次,从而清除未提交的本地改动。
正常情况下,程序会定期更新位于 ~/.claude/plugins/marketplaces/claude-plugins-official/ 的官方插件市场副本;但当该目录损坏、尤其是缺失 .git 目录时,相关 Git 操作可能不会在插件市场目录中执行,而是错误地落到用户当前的项目仓库上。提交者称,编译后二进制的行为分析显示,这一流程会执行 git fetch origin 以及 git reset --hard origin/main。
更危险的是,这类问题并不容易第一时间被察觉。当用户所有改动都已经提交时,reset --hard 看起来不会造成明显后果,容易让问题表现得像“偶发故障”;但一旦用户处于正常开发状态、仍有未提交修改,就可能遭遇反复的数据丢失。
这并不是个别开发者的偶发经历。“我已经遇到过好几次了。甚至有一次,它还直接强推到了 GitHub 上;而对于个人私有项目,GitHub 并不会启用分支保护。”开发者 jeswin 说道。
事实上,关于这款现在由 100% AI 代码构成的产品,Github 上提交的问题一直没断过。仅在三月份,Claude 服务器就至少宕机了五次。
而 AI 工具的用户们就是处于这样的矛盾状态下:一边为 AI 产品疯狂付费,一边自己承担 AI 产品自身的潜在工程风险。
免费 AI 正在退场
在前期,不少公司靠“高额补贴”“近乎免费”甚至“无限试用”吸引了大量用户。但如今,这种策略正在收缩,免费 AI 可能真的要结束了。
最早释放出明确信号的,就是 Google。
过去,在免费和补贴这条路上,Google 一度走得极为激进。它认为只要把产品做得“足够好、足够便宜”,就有机会让大量用户绕开 OpenAI 和 Anthropic,重新把 AI 的流量入口夺回自己手里。
但这套策略的代价也非常高。大量 GPU 资源被几乎不付费的用户占用,原本应该服务高价值客户的资源被不断挤压,最终连付费用户的体验都受到影响。比如,有用户反映,在 T3 Chat 中按 API 价格购买算力时,会遇到 Gemini 3.1 因过载无法响应的情况;甚至连每月支付 250 美元的订阅用户,在 Gemini 3.1 Pro 刚上线时都无法正常使用,官方给出的解释依然是容量不足,根本原因正是免费资源送得太多了。
这种紧张状态开始体现在产品策略上。Gemini CLI 已经启动新一轮调整:更严格地识别违规使用场景、优先保障某些类型账号的流量,并限制免费层用户访问 Gemini Pro 模型。与此同时,GitHub Copilot for students 也发生变化,不再支持自由选择原本附带的部分高端模型。
“如今已经没有理由继续使用 Antigravity 或 Gemini CLI。”有用户直言。“Google 的补贴大幅缩水,甚至将免费用户完全排除在 Gemini Pro 之外。尽管我在一定程度上喜欢 Gemini Flash,但它完全无法胜任日常开发工作。用免费版 Gemini 3 Flash 或 Gemini CLI 做正经开发,感觉就像用儿童玩具键盘开发真实应用,用玩具卡拉 OK 机录制专辑,完全不在一个层级,显得十分荒谬。”
更离谱的是官方关于“配额控制权”的表述:如果想直接掌控配额与计费,请使用 AI Studio 或 Vertex.ai 的付费 API key。换句话说,Gemini CLI 官方在直接告诉用户,“我们会缩减你付费订阅内的可用额度,想用更多就自己另买 API key。”这一做法极其强硬,明显在驱赶用户。
Google 收缩免费权益的根本原因就是这套模式本身越来越难以维持。
世界上本就不存在“免费算力”。如果一家公司愿意把 AI 推理免费送给你,那一定另有所图:可能靠广告盈利,可能用试用方式转化潜在客户,也可能在大规模收集数据。更现实的情况是多种因素叠加,才能让免费模式在商业上勉强成立,这笔账必须能从别的地方补上。
现在继续大规模做免费补贴,已经没有意义。虽然前沿大模型的单个 token 成本确实在持续下降,像 4o、4o mini 这样的模型,相比早期 GPT-4 32K 已经便宜了十倍以上,但现实是推理需求的复杂度和规模上涨得更快。
和 2023 年相比,现在单个问题生成的 token 数量至少增加了十倍。原因很简单:今天的模型已经不再只是回答一个孤立问题,而是会把整个代码库纳入上下文、调用工具、执行多步操作、采集外部数据,并在每一步中继续生成新的内容。token 生成量大幅增加,费用自然水涨船高。更重要的是,同一个 prompt 带来的成本涨幅,已经抵消甚至超过了单 token 降价带来的收益。
过去一条消息可能只生成 200 个 token,现在却可能达 200000 个 token,GPU 占用时间成倍增加。而只要 GPU 正在服务一个用户,就意味着同一时间无法服务别人,这本身就是高昂成本。
更长的生成内容、更高的 GPU 占用、更久的耗时,这类负载需求仍在持续上升。这也是为什么很多 AI 工具在计费模型上迟迟无法做到真正合理。
最初,大多数用户并不理解 token 这种抽象计费单位,所以许多产品都选择了更直观的方式:按消息数收费,包括不少开发者工具和聊天产品,都曾采用过这种路径。
但问题很快暴露出来:每一条消息的成本不都一样。
比如,同样是在聊天工具里发一条消息,“2 加 2 等于几”这样的请求,模型可能只花 11 个 token 就能回答;但如果让模型写几首关于 React 的诗,生成的 token 立刻会翻几十倍。现实里,一条消息在 token 消耗上的差距,甚至能达到 400 倍。最低的一批请求可能只值 0.001 美元,最高的一批则可能要烧掉数美元。
一家公司如果把产品定价为每月 8 美元,但某些用户一条 prompt 的 API 成本就可能达到 1 美元,那相当于一条请求就吃掉了整个订阅收入的八分之一。这样的产品,只要用户活跃度稍微上来一点,亏损几乎是必然的。
也正因此,过去一两年里,围绕 AI 工具“按消息数收费还是按实际用量收费”的争议越来越多。去年 Cursor 从按消息数切换到按使用量计费时,用户情绪大爆发,本质上就是因为这层矛盾终于被摆上台面:一条消息,不再只是“一条消息”,而是背后一整套成本系统。
广告、数据,撑不起“免费模式”
很多人认为,像 Google 这样靠广告起家的公司,似乎天然更适合做免费 AI。反正广告收入那么高,拿一部分补贴推理不就行了吗?在播主 Theo-t3․gg 看来,现实远没有这么简单。
广告业务之所以看上去“年入数十亿”,是因为它建立在海量曝光的规模上,而单次展示能赚到的钱,其实少得惊人。即便是在拥有高质量开发者受众、CPM 相对较高的频道上,广告收入拆到单次观看,往往也只是极低的零头。
他以自己的经验直接表示,“广告在个体层面几乎不赚钱。”比如,在 28 天内,他的视频累计被观看 2 万天时长、却仅获 9000 美元广告分成(谷歌预估分成后大约 1.8 万美元),单次播放广告收入仅约 0.28 美分,这远不足以覆盖单次可能超 1 美元的 AI 推理成本,他能做下去完全是因为依赖赞助商。
另一个经常被拿出来解释免费策略的理由是数据。这不全错,行业已经反复证明,那些拥有高质量结果反馈的真实聊天历史,对于训练新模型有非常高的价值。
你无法用一个较弱模型生成的数据,把新模型做得彻底超过原模型,但你可以逼近,而且成本远低于从头训练。也正因为如此,很多公司会格外在意 prompt、上下文和使用反馈的流向。外界也一直有各种传闻,说有人试图通过中间层服务截取输入输出数据,再拿去训练自己的模型。哪怕这些事并不能被公开验证,它们背后反映的逻辑却是一致的:真实用户数据本身,就是 AI 时代最重要的资产之一。
Cursor 这类产品也能从用户数据中获益,但远不足以支撑完全免费服务。数据虽然贵重,也还没有贵重到足以让一家公司完全靠“白送推理换数据”活下去。
数据的价值高度分化。如果用户本身并不处于真实商业环境中、没有公司级代码库,也没有持续高质量产出,那这些数据的价值就远低于那些真正工作在生产环境中的开发者。换句话说,数据不是没有价值,而是它无法替代真正的付费转化,只能在一定程度上帮助公司多吞一点成本。
各大公司推行免费与补贴的核心原因,是抢夺用户。
一家公司让你从原来的产品切到自己的产品,通常只有两种方式:要么它明显更好,要么它“足够好且更便宜”。在今天这个 AI 工具快速变化的阶段,用户已经越来越难判断“谁明显更好”,尤其当每个人手里都已经有好几个每月 20 美元、100 美元甚至 200 美元的订阅时,获取一个新用户的难度大幅提高。在这种情况下,价格就成了最容易传达的竞争力。
但免费模式中有一个经常被忽视的细节:不是所有免费用户都一样。
理想中的免费用户,是那种“如果免费,我愿意试;如果它真的更好,我也愿意付钱”的人。但还有另一类用户,他们只会在产品免费时出现,一旦收费就会消失。这类用户对公司来说就是灾难。他们会消耗大量 GPU、客服、时间和支持成本,却永远不会成为付费客户。甚至很多时候,他们在支持层面的消耗比高价值用户还更高。
免费或低价可以带来大量潜在用户,但如果产品本身不够出色,用户无法留存,前期补贴投入将全部浪费。免费策略能吸引大量用户尝试,但真正优质的转化来自“因免费体验、因产品优秀而付费”的用户群体。GitHub 就是典型案例:用户因免费开始使用,进入职场后带动企业付费,形成健康商业闭环。
但如果产品不够好,免费策略只会吸引“只在免费时使用”的低价值用户,这是一条死亡线。这类用户只会消耗 GPU、电力、人力与客服成本,付费概率几乎为零,且服务成本往往更高。
Google 正是陷入了这一困境。其产品竞争力不足,只能依靠免费引流,导致 Antigravity 用户高度两极化:一端是缺乏付费能力的新手程序员,另一端是不愿付费的资深用户,包括 Linus Torvalds 这类知名开发者也在薅免费额度。吸引了大量只消耗资源不产生收入的用户后,Google 最终不得不收紧这中就不该长期存在的补贴模式。
为什么 Anthropic 能玩转?
同样是补贴,OpenAI 和 Anthropic 走出的却是两条完全不同的路线。
OpenAI 现在更像是在增长阶段“抢地盘”。它还没有拿到足够高的市场份额,因此愿意通过更激进的补贴、临时提升 Codex 速率限制,以及推动更多外部工具集成等方式,尽可能让自己的模型出现在更多开发者的工作流里。
对 OpenAI 来说,现阶段最重要的是先成为“最好的选项”,而不是“唯一的选项”。正因如此,它看起来比 Anthropic 更开放、更愿意和生态伙伴合作。不过,这种开放更多是增长阶段的商业选择,而不一定是长期立场。一旦市场格局继续变化,也未必不会转向。
Anthropic 的补贴逻辑则只有在一个前提下才成立,那就是必须把用户变成终身客户。如果开发者可以在 Cursor、Codex CLI 或其他多模型工具里自由切换,Anthropic 给出的高额补贴就很难形成长期回报。
一个付费能力很强的开发者,也许每月会消耗几千美元的推理成本,但他往往会把这套工具带进自己的团队,甚至带进整个公司。这样一来,很多人虽然订阅了服务,却只用了很小一部分额度,而这些低使用率的付费用户,实际上就在补贴真正的重度用户。
以 Theo-t3․gg 为例,他虽然一直保留着每月 200 美元的订阅,但最近主要在用 Cursor 和 Codex CLI,Cloud Code 的实际使用量并不高,因此自己的额度没有用满,等于间接在补贴其他用户。
企业采购会进一步放大这种效应:一个工程组织统一订阅之后,真正高频使用的人往往只占少数。假设整个团队都开通了服务,最终可能只有 20% 的人会正常使用,真正高强度使用的甚至只有 10%。这意味着,绝大多数订阅费用都来自那些并没有把额度真正吃满的人,这种结构是其高价套餐能够成立的关键。
Theo-t3․gg 提到,Anthropic 每月 200 美元的订阅,最高可能对应价值 5000 美元的算力资源。短期看,平台在重度用户身上确实在亏钱;但随着推理成本持续下降,再叠加大量用户实际并没有用满额度,平台就有机会逐步把账算平,甚至走向盈利。更重要的是,这类高价值个人用户还会带来团队和企业层面的扩散,进一步提升终身商业价值。
相比之下,免费用户并不具备这种逻辑。如果一群用户只会在产品免费时出现,一旦收费就会消失,那么他们不仅无法形成长期回报,还会消耗大量 GPU、支持资源和运维成本。Google 恰恰在这一点上犯了错。
另外,Google 的问题并不只是补贴力度太大,而更像是组织本身失控了。它确实迫切想拿到真正的 AI 客户,但内部却有太多团队彼此不沟通、互相争抢 GPU 和资源,开发者工具团队甚至无法说服公司把某些模型开放给自己的产品,因为资源优先级先被让给了免费用户。
某种意义上,Google 的补贴不是“想清楚之后主动选择”的结果,而是“补着补着把自己补进坑里”的结果。
结束语
对使用这些 AI 工具的开发者来说,眼下是一个矛盾又短暂的窗口期。
一方面,大公司之间的竞争,让补贴和订阅服务依然非常慷慨;另一方面,所有人都已经开始意识到,这种状态不会永远持续。免费会越来越少,补贴力度会越来越精准,模型选择权会越来越受平台控制,而那些真正高价值的套餐,也会越来越像稀缺资源。
所以,对于用户来说,现在可能是使用这些工具的一个“黄金期”:你依然能在相对低的价格下,拿到远高于自身支付成本的价值回报。无论是每月 20 美元,还是 200 美元,只要你真的能把这些工具用起来,它们带来的生产力提升仍然极具性价比。
但对小公司来说,这也是竞争最艰难的时候。大公司用补贴抢客户,用高额算力压缩后来者空间,小公司不仅要承担原价 API 成本,还要面对用户被教育成“免费就是理所当然”的市场心态。
参考链接:
https://www.youtube.com/watch?v=w62xTVuyu3s&t=1s
https://www.newsbytesapp.com/news/science/anthropic-s-claude-sees-explosive-subscriber-growth-amid-pentagon-clash/story
https://techcrunch.com/2026/03/28/anthropics-claude-popularity-with-paying-consumers-is-skyrocketing/
https://www.theregister.com/2026/03/26/anthropic_tweaks_usage_limits/?td=rt-3a
本文来自微信公众号 “AI前线”(ID:ai-front),作者:褚杏娟,36氪经授权发布。







