耐力惊人!Anthropic 旗舰模型 Claude Opus4.5创下“长任务”处理新纪录
2025年12月22日 11:15·AIBase
在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构

测试结果显示,
AIbase 注意到,虽然测试数据中出现了模型理论上可连续工作超过20小时的数值,但
然而,也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是,

2025年12月22日 11:15·AIBase
在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构

测试结果显示,
AIbase 注意到,虽然测试数据中出现了模型理论上可连续工作超过20小时的数值,但
然而,也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是,
查看更多
Anthropic 发布 Claude Opus 4.5 模型,该版本在编码能力和长任务处理方面得到显著强化,并在软件工程测试中表现优异,成绩超越了人类水平。
Anthropic公司发布了新一代模型Claude Opus4.5,该模型在智能水平和处理效率上均实现了显著提升。其核心在于采用了混合推理技术,旨在更有效地解决复杂问题,标志着人工智能模型在能力与实用性方面迈出了重要一步。
快手发布旗舰模型 Keye-VL-671B-A37B,在多模态推理能力上取得重大突破,标志着其在大模型技术领域的持续创新与进步。
OpenAI 发布了 GPT-5.2 模型,该模型在表格处理、PPT 制作以及处理超长上下文方面表现出色,展现了其在特定任务上的强大能力。
最新研究表明,当前领先的人工智能模型在处理复杂的物理相关任务时,其表现仍不尽如人意,无法完全独立解决,依然需要人类的辅助和干预才能完成。
阿里旗下的大语言模型“千问”下载量已突破10亿次,其开源生态繁荣,基于该模型衍生的子模型数量超过20万个,刷新了全球开源模型领域的纪录。