文章
从最顶级的30个AI Agent产品里,看懂了这三个趋势

从最顶级的30个AI Agent产品里,看懂了这三个趋势

2026年2月27日 19:19·36kr

进入2026 年,Agent 彻底火了。

Claude Code、ChatGPT Agent、Manus,再加上一堆大厂的企业级工作流平台,动不动就喊“替代打工人”“创造万亿美元价值”。麦肯锡的报告也在推波助澜:62% 的企业正在试水 Agent。

但把热闹先放一边,真正的问题是——在真实工作场景里,Agent 到底走到哪一步了?

最近,MIT、哈佛、斯坦福等机构的研究团队发布了一份《2025 AI Agent Index》。

这帮学者干了一件很有价值的事:

他们把市面上最具代表性的30 个代理系统逐一拆开来看了一遍,并设计了45 个维度,仔细扒了扒这些产品的技术细节、部署情况、设计架构、工具使用和安全机制等信息,得出了当下Agent最硬核的3个真相。

透过这部分报告,我们就能更清晰地了解当下Agent发展的真实情况。

01 产品形态收拢在这3个方向

大多数代理产品集中在2024–2025 年发布。

(蓝色柱状图代表与代理型人工智能产品相关的谷歌新增搜索词,红线则代表谷歌学术中包含“人工智能代理”或“代理型人工智能”关键词的论文发表数量)

从产品形态看,AI代理基本收拢在了三个方向:

聊天式代理(12个):以对话为入口,挂载各种工具箱;

企业自动化平台(13个):主打B端工作流的自动化编排,已经成为与聊天界面分庭抗礼的主流形态;

浏览器/GUI型Agent(5个):直接接管屏幕,模拟人类点击和输入,类似于之前的豆包手机。

企业工作流平台已成为与聊天界面并列的主流形态。其中,中国开发的GUI 型代理更倾向于整合电话与电脑操作能力(5个中有3个具备双能力),功能整合度更高。

按应用场景来分,排名前三个的例子是:信息研究与集成(12个)、跨部门工作流自动化(11个)、以及表单填写和预订等浏览器操作(7个)。

在底层模型上,除了Anthropic、Google、OpenAI这几家“前沿实验室”以及部分中国厂商在使用自研模型外,大多数的代理都在高度依赖GPT、Claude或Gemini系列。

尽管“模型开源”已经成为行业趋势,但在Agent产品上则呈现了完全不同的局面。

30 个代理中,有 23 个选择完全闭源。只有7 个开源了代理框架或工具层,包括 阿里MobileAgent、Browser Use、TARS、Gemini CLI、n8n、OpenAI Codex、WRITER。

生态在变开放,商业产品却仍以封闭为主。这是一种典型的“框架开放、产品闭源”结构。

02 从行动空间到自主性,AI代理正在分化

虽然都叫“Agent”,但这30个产品的功能相差很大。

其中,一个核心区别在于,行动空间

企业工作流代理,主要通过CRM、数据库等系统连接器来执行操作(8/30)。它们更像企业流程里的自动执行节点。

命令行界面(CLI) 代理则直接操作文件系统和终端命令(4/30),能力更偏工程环境。

浏览器代理的方式最直观:点击、输入、导航网页(5/30),它们直接“代替人类”操作界面。

值得注意的是,企业代理的行动空间通常被严格限制,并优先设置工具权限与使用防护。换句话说,越贴近真实业务系统,控制就越严格。

在用户界面上,Agent产品也出现了不同的选择。

在企业场景中,画布式编排界面已成为标准。8/13 的企业平台采用可视化流程组合界面,让用户配置触发器、动作与防护规则。

而在消费级场景里,聊天界面依然是主流入口(14/30)。这意味着,设计层强调流程构建,使用层强调自然语言

最重要的是,不同类型的代理,在“自主性”上也呈现出明显分层。

最常见的仍然是“轮次式助手”。Claude、Gemini、ChatGPT 等产品采用的是低至中等自主性模式(L1–L3):每执行一组动作,便等待用户下一条指令。

这种结构本质上仍以人类为中心,模型只是延长了操作链条。

但在同一产品内部,自主性差异可能极大。例如“普通聊天”与“深度研究”功能之间,已接近两个不同范式:前者只是响应式生成,后者则可在一定程度上自主规划任务路径。

浏览器代理则代表了另一端。它们通常达到L4–L5,自主性显著更高。一旦接收指令,便独立完成整个执行流程,过程中几乎没有实时干预空间。用户的控制权,在提交任务那一刻就已经让渡。

而在企业级代理上,则呈现出一种更复杂的结构:设计阶段低自主,运行阶段高自主

简单来说,在设计阶段,用户通过可视化画布配置触发器、流程与防护规则,部分平台提供AI 辅助(L1–L2)。

但部署完成后,代理通常由邮件、数据库更新等事件自动触发,运行时无需人工参与,进入 L3–L5 状态。

这意味着,自主性并非线性增长,而是“阶段性切换”。

03 自主性在变强,责任边界也在模糊

从接口层看,MCP 已成为代理生态的主流标准。30 个系统中有 20 个支持这一协议,说明“如何接入工具”正在趋于统一。企业平台中,还有一部分开始支持代理间协议(A2A),但整体仍处于早期阶段。

尽管协议层在收敛,身份层却在分化。

多数代理默认不向终端用户或第三方披露自身的AI 身份。21/30 没有记录默认披露行为,只有极少数支持生成内容水印。

也就是说,企业平台往往将披露责任交给客户,是否告知用户“你正在与 AI 交互”,并不由平台承担。

在技术识别层面,情况更加复杂。

大部分浏览器代理通常无视robots.txt 文件,直接以“代表用户”身份运行

企业认为,代理不应被视为传统爬虫,但这一逻辑正在引发法律争议。

代理绕过网络限制的趋势,正在改变控制权结构——从内容托管方转移至代理运行方。

目前,ChatGPT Agent 是唯一采用加密请求签名的系统。多数代理缺乏可验证的身份机制

随着更多任务交由代理执行,“谁在行动”将变得越来越重要。同时,将披露责任转交给运营方,也带来一个问题:终端用户是否真正知道自己正在与AI互动?

同时,当构建者将安全责任转移给用户时,责任边界变得模糊。一个更现实的问题开始浮现:当代理开始执行任务,人类还能在多大程度上掌控它?

在这30个代理产品里,大部分都设计了审批与监督机制,但方式并不一致。

比如,开发者或CLI 类代理,在涉及文件修改、命令执行等高敏感操作时,通常会要求明确确认;浏览器代理则把控制节点更多放在身份验证与支付环节。

一部分产品甚至提供“实时监控模式”,允许用户在关键步骤中观察执行过程。

但如果你仔细观察就会发现,不同产品之间的透明度差距很大。

少数代理会展示完整的行动轨迹和推理过程,让用户清楚看到它如何决策、调用了哪些工具;更多系统只提供概括性的说明,甚至在执行过程中几乎不留下可追踪的痕迹。

而对于不少企业级平台来说,外界甚至无法确认单次运行是否存在实时监控。

这意味着,控制机制“存在”,但不均衡;监督逻辑“可见”,但并不标准化。随着代理能力提升,人类对执行过程的可见度,并没有同步提高。

04 总结

这份指数在1350 个维度上记录了 30 个代理系统,但更重要的,是它揭示了三个结构趋势:

第一,安全披露高度不均。

仅有极少数代理发布针对自身架构的系统卡片。大多数系统要么只披露基础模型信息,要么只强调合规认证。能力基准与安全评估之间存在明显不对称。

当代理风险越来越多地来自规划能力与工具调用,而不仅是模型输出时,仅依赖模型层面的文档已不足够。

第二,基础模型高度集中。

几乎所有代理都依赖GPT、Claude 或 Gemini。模型供应集中带来效率与评估便利,但也意味着单点风险。定价调整、服务中断或安全漏洞,都可能向下游系统扩散。

风险管理因此不能只停留在代理部署方,而必须延伸至上游模型提供商。

第三,责任链条分散。

代理系统往往形成一条多层依赖链:基础模型、编排层、构建平台、部署方、最终用户。没有单一实体对完整行为负责。

在这种分布式架构下,仅凭模型文档做安全判断,很容易形成虚假保障。

本文来自微信公众号“硅基观察Pro”,作者:硅基君,36氪经授权发布。