文章
奥特曼点赞,最新科学Agent半天能完成人类半年科研任务

奥特曼点赞,最新科学Agent半天能完成人类半年科研任务

2025年11月17日 20:09·36kr

AI
Scientific Agent
Automation

非营利研究机构FutureHouse近日发布名为“科斯莫斯”(Kosmos)的AI超级科学家系统,其单次运行12小时即可完成相当于人类研究员团队半年的科研工作量。

OpenAI首席执行官山姆·奥特曼对此评价称:“这太令人兴奋了!我预计未来我们会看到更多类似项目,这将是人工智能最重要的应用方向之一。”

运行12小时顶人类半年工作量 准确率达79.4%

FutureHouse早期开发的AI科学家“罗宾”存在明显局限,尤其在处理海量信息方面表现不足。受当时语言模型上下文长度的限制,它在推理过程中难以实现多层次的逻辑推演,这直接影响了其科学发现的深度与复杂性。

科斯莫斯的重大突破,源于其采用的“结构化世界模型”。这一架构创新使系统能够高效融合来自数百个智能体轨迹的信息,即使在处理数千万token规模的庞大数据时,仍能始终保持与核心研究目标的高度一致。

图:AI超级科学家科斯莫斯的运行原理

科斯莫斯采用自主循环工作架构,可以并行启动文献检索与数据分析任务,持续更新内部知识图谱,并智能规划下一轮探索方向。

据统计,科斯莫斯单次运行平均完成166轮数据分析和36次文献综述迭代,所有结论均能追溯到具体的代码片段或原文出处,支持完整审计验证。

在持续运行12小时,该系统能够阅读1500篇学术论文,生成并执行4.2万行分析代码,并输出完整可溯源的科研报告,其综合处理能力已超越目前已知的所有智能体系统。

图:科斯莫斯单次运行可阅读1500篇论文、生成4.2万行代码

在实际测试中,科斯莫斯展现出远超前代系统的分析效能。参与评估的研究人员普遍反馈,该系统半天内完成的工作量,相当于他们个人六个月的研究投入,且输出结论的准确率达到79.4%。

FutureHouse已经启动科斯莫斯的商业化运营,单次运行定价约200美元,并为学术用户提供免费额度。

七大发现:复现三大试验与四大创新

科斯莫斯已与多家学术机构合作,在神经科学、材料科学、统计遗传学等多个前沿领域取得了七项具有实质意义的发现,其中包括独立复现三项尚未发表的研究,包括确认核苷酸代谢为低温脑处理关键通路,并发现钙钛矿太阳能电池60g/m³以上绝对湿度失效阈值。

发现一:利用代谢组学数据,科斯莫斯独立验证了一份尚未发表手稿中的关键结论,确认核苷酸代谢是低温小鼠大脑中最主要的改变通路。值得关注的是,相关论文预印本是在科斯莫斯完成分析后才正式发布。

发现二:在材料科学领域,科斯莫斯复现了一份训练数据截止日后才发表的预印本结论,准确识别出热退火过程中绝对湿度是决定钙钛矿太阳能电池效率的关键因素,包括发现约60克/立方米这一导致器件失效的临界阈值。

发现三:科斯莫斯成功推导出描述跨物种神经元连接性的数学规律。但需要说明的是:相关论文预印本虽在模型训练截止前发表,但科斯莫斯在运行时并未访问。

更令人振奋的是,科斯莫斯在另外四个方向上实现了原创突破:

发现四:通过整合公开的GWAS和pQTL数据,科斯莫斯完成孟德尔随机化分析,为"高水平循环SOD2(线粒体超氧化物歧化酶)可能因果性改善心肌纤维化"提供了新的统计证据,这将小鼠模型中的已知机制向人类临床应用推进了一步。

发现五:基于多组学和统计遗传学数据,科斯莫斯提出了全新的分子机制,揭示特定SNP(单核苷酸多态性)可能降低2型糖尿病发病风险。

发现六:利用阿尔茨海默病患者的蛋白质组数据,科斯莫斯开发出创新分析方法,成功解析了神经元内tau蛋白积累的分子事件序列。

发现七(临床突破):在研究"衰老过程中神经元脆弱性"时,科斯莫斯通过对小鼠单核转录组数据的大规模无偏探索,发现内嗅皮层神经元中,磷脂翻转酶基因会随年龄增长表达下降。这可能导致细胞表面"吃掉我"信号暴露,引发小胶质细胞清除这些脆弱神经元。更重要的是,研究人员在人类AD患者的独立单细胞RNA-seq数据中验证了这一发现,确认翻转酶表达下降与Braak II期tau病理出现同步。

解锁AI科研新范式:从对话工具到深度研究伙伴

科斯莫斯并非传统意义上的对话式AI,而是一个需要深度交互的科研平台。用户需掌握结构化提示技巧,通过明确的研究目标设定、数据路径规划与分析框架定义,才能充分发挥其效能。

基础定价为每次运行200美元,学术用户可通过申请获得免费额度。特别推出创始订阅计划,早期用户可永久锁定1美元/积分的优惠价格。需要说明的是,当前价格体系为推广期特惠,未来将根据计算资源成本进行动态调整。

科斯莫斯确实能产生相当于数月人工劳动的研究成果,但其探索过程具有显著的非线性特征。实测数据显示,系统在约30%的运行中会陷入局部最优解,过度关注统计显著但科学价值有限的发现。FutureHouse建议使用者对关键研究目标进行3-5次并行运行,通过结果交叉验证获取更可靠的研究路径。

效能验证:从“六个月”到科研新标准

在科斯莫斯的开发过程中,最令研究人员惊讶的发现是:单次运行完成的工作量,相当于一名博士或博士后研究人员六个月的研究产出。更值得注意的是,这种效能随着运行深度的增加呈线性增长,这为FutureHouse提供了首个"科研任务推理时间缩放定律"的实证。

图:科斯莫斯运行12小时可完成人类专家半年工作量

研究人员邀请测试用户提供研究课题,他们则代为运行科斯莫斯(当时平台界面尚未完成)并交付结果,然后请客户评估自行完成相同工作所需时间。7位科学家的平均估值为6.14个月(针对20步深度运行)。

虽然人工估算存在主观因素,但FutureHouse确信这个评估具有可靠性,主要基于两个证据:

首先,技术报告中三项由科斯莫斯复现的发现,原研究平均耗时约4个月。这些研究在科斯莫斯运行期间要么尚未发表,要么是在模型训练截止日期之后才发表(研究人员已确保科斯莫斯无法获取相关论文)。科斯莫斯在单次运行中就能复现这些核心发现,这为效能评估提供了客观依据。

其次,研究人员进行了独立测算:假设阅读一篇论文需15分钟,完成一次分析轨迹需2小时(与METR对软件工程任务的评估一致),那么科斯莫斯单次运行处理的工作量,相当于研究人员4.1个月的全职工作(按每周40小时计算)。

科斯莫斯的出现对现有AI评估体系提出了根本性质疑。传统基于简单任务的持续时间评估(如METR的4-15分钟标准)已无法反映AI在复杂科研场景中的真实能力。当PaperQA2能完成需要数日的文献综述,当GPT-5可生成需数周验证的数学证明时,我们迫切需要建立新的评估维度。

网友热议:AI应用最恰当的典范

在科斯莫斯发布后,网友纷纷对其超能力点赞,称其为“人工智能应用最恰当的典范。”

还有人称,这标志着我们进入了一个新的时代:人类科学家与AI科学家协同合作,人类负责指引方向、提出关键问题并进行最终验证,而AI则负责在海量的可能性中进行高效探索。 这无疑将为人类知识边界带来一次前所未有的扩张。

不过,也有网友提出质疑:一个真正的“AI科学家 必须实现从思想到实证的完整闭环,并交出可量化的卓越成绩单。下一代AI科研工具不仅要更聪明,更要更务实。

本文来自“腾讯科技”,编译:金鹿,编辑:郑萌萌,36氪经授权发布。