文章
三星 TRM 论文:少即是多,用递归替代深度,挑战 Transformer 范式

三星 TRM 论文:少即是多,用递归替代深度,挑战 Transformer 范式

2025年11月3日 20:48·36kr

Transformer
AI
Recursive Model

小模型大智慧:递归推理架构TRM以极简参数战胜大模型

三星SAIL蒙特利尔实验室最新研究颠覆传统认知:小网络也能在推理任务上击败大型语言模型。他们提出的Tiny Recursive Model (TRM)仅用700万参数,就在多项高难度测试中超越知名大模型。

革命性架构设计

TRM采用独特的递归推理机制。它通过不断更新“答案”和“潜在思考变量”,实现多轮自我修正。

这种设计放弃了复杂的自注意力层。对于小规模任务,使用多层感知机(MLP)反而效果更好。

TRM递归推理架构示意图

图注:TRM通过递归更新答案与潜在变量,实现高效推理

性能表现卓越

  • 仅700万参数,两层神经网络
  • ARC-AGI基准测试:45%(ARC-AGI-1)和8%(ARC-AGI-2)
  • 数独极限任务:87.4%准确率,刷新纪录
  • 迷宫困难任务:85.3%准确率

这些成绩超越了DeepSeek R1、Gemini 2.5 Pro等大型模型。

核心创新:递归即深度

研究团队提出“递归即深度”理念。模型不需要更多网络层数,而是通过反复思考来提升性能。

与传统方法相比,TRM训练速度显著提升,准确率几乎不变。

HRM与TRM架构对比

重要发现与启示

研究显示,当上下文较短时,注意力机制反而是种浪费。两层网络的泛化能力优于更深模型。

这种方法为边缘AI和低资源应用指明方向:智能深度来自重复思考,而非规模堆叠

核心观点:TRM证明小模型通过递归学习可实现复杂推理,为AI发展提供新路径。

注:头图AI生成

本文来自微信公众号“大数据文摘”,36氪经授权发布。