从最顶级的30个AI Agent产品里，看懂了这三个趋势

2026年2月27日 19:19·36kr

进入2026 年，Agent 彻底火了。

Claude Code、ChatGPT Agent、Manus，再加上一堆大厂的企业级工作流平台，动不动就喊“替代打工人”“创造万亿美元价值”。麦肯锡的报告也在推波助澜：62% 的企业正在试水 Agent。

但把热闹先放一边，真正的问题是——在真实工作场景里，Agent 到底走到哪一步了？

最近，MIT、哈佛、斯坦福等机构的研究团队发布了一份《2025 AI Agent Index》。

这帮学者干了一件很有价值的事：

他们把市面上最具代表性的30 个代理系统逐一拆开来看了一遍，并设计了45 个维度，仔细扒了扒这些产品的技术细节、部署情况、设计架构、工具使用和安全机制等信息，得出了当下Agent最硬核的3个真相。

透过这部分报告，我们就能更清晰地了解当下Agent发展的真实情况。

01 产品形态收拢在这3个方向

大多数代理产品集中在2024–2025 年发布。

（蓝色柱状图代表与代理型人工智能产品相关的谷歌新增搜索词，红线则代表谷歌学术中包含“人工智能代理”或“代理型人工智能”关键词的论文发表数量）

从产品形态看，AI代理基本收拢在了三个方向：

聊天式代理（12个）：以对话为入口，挂载各种工具箱；

企业自动化平台（13个）：主打B端工作流的自动化编排，已经成为与聊天界面分庭抗礼的主流形态；

浏览器/GUI型Agent（5个）：直接接管屏幕，模拟人类点击和输入，类似于之前的豆包手机。

企业工作流平台已成为与聊天界面并列的主流形态。其中，中国开发的GUI 型代理更倾向于整合电话与电脑操作能力（5个中有3个具备双能力），功能整合度更高。

按应用场景来分，排名前三个的例子是：信息研究与集成（12个）、跨部门工作流自动化（11个）、以及表单填写和预订等浏览器操作（7个）。

在底层模型上，除了Anthropic、Google、OpenAI这几家“前沿实验室”以及部分中国厂商在使用自研模型外，大多数的代理都在高度依赖GPT、Claude或Gemini系列。

尽管“模型开源”已经成为行业趋势，但在Agent产品上则呈现了完全不同的局面。

30 个代理中，有 23 个选择完全闭源。只有7 个开源了代理框架或工具层，包括阿里MobileAgent、Browser Use、TARS、Gemini CLI、n8n、OpenAI Codex、WRITER。

生态在变开放，商业产品却仍以封闭为主。这是一种典型的“框架开放、产品闭源”结构。

02 从行动空间到自主性，AI代理正在分化

虽然都叫“Agent”，但这30个产品的功能相差很大。

其中，一个核心区别在于，行动空间。

企业工作流代理，主要通过CRM、数据库等系统连接器来执行操作（8/30）。它们更像企业流程里的自动执行节点。

命令行界面（CLI）代理则直接操作文件系统和终端命令（4/30），能力更偏工程环境。

浏览器代理的方式最直观：点击、输入、导航网页（5/30），它们直接“代替人类”操作界面。

值得注意的是，企业代理的行动空间通常被严格限制，并优先设置工具权限与使用防护。换句话说，越贴近真实业务系统，控制就越严格。

在用户界面上，Agent产品也出现了不同的选择。

在企业场景中，画布式编排界面已成为标准。8/13 的企业平台采用可视化流程组合界面，让用户配置触发器、动作与防护规则。

而在消费级场景里，聊天界面依然是主流入口（14/30）。这意味着，设计层强调流程构建，使用层强调自然语言。

最重要的是，不同类型的代理，在“自主性”上也呈现出明显分层。

最常见的仍然是“轮次式助手”。Claude、Gemini、ChatGPT 等产品采用的是低至中等自主性模式（L1–L3）：每执行一组动作，便等待用户下一条指令。

这种结构本质上仍以人类为中心，模型只是延长了操作链条。

但在同一产品内部，自主性差异可能极大。例如“普通聊天”与“深度研究”功能之间，已接近两个不同范式：前者只是响应式生成，后者则可在一定程度上自主规划任务路径。

浏览器代理则代表了另一端。它们通常达到L4–L5，自主性显著更高。一旦接收指令，便独立完成整个执行流程，过程中几乎没有实时干预空间。用户的控制权，在提交任务那一刻就已经让渡。

而在企业级代理上，则呈现出一种更复杂的结构：设计阶段低自主，运行阶段高自主。

简单来说，在设计阶段，用户通过可视化画布配置触发器、流程与防护规则，部分平台提供AI 辅助（L1–L2）。

但部署完成后，代理通常由邮件、数据库更新等事件自动触发，运行时无需人工参与，进入 L3–L5 状态。

这意味着，自主性并非线性增长，而是“阶段性切换”。

03 自主性在变强，责任边界也在模糊

从接口层看，MCP 已成为代理生态的主流标准。30 个系统中有 20 个支持这一协议，说明“如何接入工具”正在趋于统一。企业平台中，还有一部分开始支持代理间协议（A2A），但整体仍处于早期阶段。

尽管协议层在收敛，身份层却在分化。

多数代理默认不向终端用户或第三方披露自身的AI 身份。21/30 没有记录默认披露行为，只有极少数支持生成内容水印。

也就是说，企业平台往往将披露责任交给客户，是否告知用户“你正在与 AI 交互”，并不由平台承担。

在技术识别层面，情况更加复杂。

大部分浏览器代理通常无视robots.txt 文件，直接以“代表用户”身份运行。

企业认为，代理不应被视为传统爬虫，但这一逻辑正在引发法律争议。

代理绕过网络限制的趋势，正在改变控制权结构——从内容托管方转移至代理运行方。

目前，ChatGPT Agent 是唯一采用加密请求签名的系统。多数代理缺乏可验证的身份机制。

随着更多任务交由代理执行，“谁在行动”将变得越来越重要。同时，将披露责任转交给运营方，也带来一个问题：终端用户是否真正知道自己正在与AI互动？

同时，当构建者将安全责任转移给用户时，责任边界变得模糊。一个更现实的问题开始浮现：当代理开始执行任务，人类还能在多大程度上掌控它？

在这30个代理产品里，大部分都设计了审批与监督机制，但方式并不一致。

比如，开发者或CLI 类代理，在涉及文件修改、命令执行等高敏感操作时，通常会要求明确确认；浏览器代理则把控制节点更多放在身份验证与支付环节。

一部分产品甚至提供“实时监控模式”，允许用户在关键步骤中观察执行过程。

但如果你仔细观察就会发现，不同产品之间的透明度差距很大。

少数代理会展示完整的行动轨迹和推理过程，让用户清楚看到它如何决策、调用了哪些工具；更多系统只提供概括性的说明，甚至在执行过程中几乎不留下可追踪的痕迹。

而对于不少企业级平台来说，外界甚至无法确认单次运行是否存在实时监控。

这意味着，控制机制“存在”，但不均衡；监督逻辑“可见”，但并不标准化。随着代理能力提升，人类对执行过程的可见度，并没有同步提高。

04 总结

这份指数在1350 个维度上记录了 30 个代理系统，但更重要的，是它揭示了三个结构趋势：

第一，安全披露高度不均。

仅有极少数代理发布针对自身架构的系统卡片。大多数系统要么只披露基础模型信息，要么只强调合规认证。能力基准与安全评估之间存在明显不对称。

当代理风险越来越多地来自规划能力与工具调用，而不仅是模型输出时，仅依赖模型层面的文档已不足够。

第二，基础模型高度集中。

几乎所有代理都依赖GPT、Claude 或 Gemini。模型供应集中带来效率与评估便利，但也意味着单点风险。定价调整、服务中断或安全漏洞，都可能向下游系统扩散。

风险管理因此不能只停留在代理部署方，而必须延伸至上游模型提供商。

第三，责任链条分散。

代理系统往往形成一条多层依赖链：基础模型、编排层、构建平台、部署方、最终用户。没有单一实体对完整行为负责。

在这种分布式架构下，仅凭模型文档做安全判断，很容易形成虚假保障。

本文来自微信公众号“硅基观察Pro”，作者：硅基君，36氪经授权发布。

从最顶级的30个AI Agent产品里，看懂了这三个趋势

01 产品形态收拢在这3个方向

02 从行动空间到自主性，AI代理正在分化

03 自主性在变强，责任边界也在模糊

04 总结

相关文章

看遍CES2026：从21个AI硬件，看透AI落地的三个趋势

当AI拿走决策权，看懂Agent经济的三个真相

看过一千个To B产品，钉钉最年轻副总裁创业，做了个不To B的Agent

硅谷顶级AI公司CEO：下一个真正的赚钱风口，在这里

CES 2026 最疯狂的 25 个脑洞，全在这里了

2025年消费级AI现状报告：产品亮点、遗憾与未来趋势