三星 TRM 论文:少即是多,用递归替代深度,挑战 Transformer 范式
2025年11月3日 20:48·36kr
Transformer
AI
Recursive Model
小模型大智慧:递归推理架构TRM以极简参数战胜大模型
三星SAIL蒙特利尔实验室最新研究颠覆传统认知:小网络也能在推理任务上击败大型语言模型。他们提出的Tiny Recursive Model (TRM)仅用700万参数,就在多项高难度测试中超越知名大模型。
革命性架构设计
TRM采用独特的递归推理机制。它通过不断更新“答案”和“潜在思考变量”,实现多轮自我修正。
这种设计放弃了复杂的自注意力层。对于小规模任务,使用多层感知机(MLP)反而效果更好。
图注:TRM通过递归更新答案与潜在变量,实现高效推理
性能表现卓越
- 仅700万参数,两层神经网络
- ARC-AGI基准测试:45%(ARC-AGI-1)和8%(ARC-AGI-2)
- 数独极限任务:87.4%准确率,刷新纪录
- 迷宫困难任务:85.3%准确率
这些成绩超越了DeepSeek R1、Gemini 2.5 Pro等大型模型。
核心创新:递归即深度
研究团队提出“递归即深度”理念。模型不需要更多网络层数,而是通过反复思考来提升性能。
与传统方法相比,TRM训练速度显著提升,准确率几乎不变。
重要发现与启示
研究显示,当上下文较短时,注意力机制反而是种浪费。两层网络的泛化能力优于更深模型。
这种方法为边缘AI和低资源应用指明方向:智能深度来自重复思考,而非规模堆叠。
核心观点:TRM证明小模型通过递归学习可实现复杂推理,为AI发展提供新路径。
注:头图AI生成
本文来自微信公众号“大数据文摘”,36氪经授权发布。


