首页工具导航模型库资讯产品测评干货

首页工具导航模型库资讯产品测评干货

0

收藏

分享

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

2025年11月6日 15:18·AIBase

Multimodal Large Language Model

Benchmark

AI Evaluation

多模态AI评估迎来新突破：UNO-Bench基准测试发布

美团LongCat团队近日推出UNO-Bench基准测试，专门用于评估多模态模型的理解能力。这个创新工具覆盖44种任务类型和5种模态组合，全面测试模型的单模态与全模态表现。

数据集优势：质量与效率并重

UNO-Bench的核心竞争力在于其精心构建的数据集：

1250个全模态样本，跨模态可解性达98%
2480个增强单模态样本，特别优化中文场景
自动压缩技术使运行速度提升90%
在18个公开基准中保持98%一致性

UNO-Bench多模态数据集结构示意图

创新评估方法：多步骤开放式问题

该基准引入创新的多步骤问题形式，结合通用评分模型：

自动评估六种不同题型
准确率高达95%
为复杂推理能力提供新评测标准

UNO-Bench多步骤问题评估流程示意图

未来发展与国际拓展

目前UNO-Bench专注于中文场景，但团队正积极寻求合作：

计划开发英语及多语言版本
数据集可通过Hugging Face平台下载
代码和文档已在GitHub开源

行业影响与展望

UNO-Bench的发布标志着多模态大语言模型评估进入新阶段。这一工具不仅为研究者提供强大支持，更为整个AI行业的技术进步奠定坚实基础。

项目地址：https://meituan-longcat.github.io/UNO-Bench/

相关文章

查看更多

美团发布开源原生多模态大模型 LongCat-Next，让视觉和语音成为 AI 的母语

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0：多模态理解、图像编辑与语音生成全面提升

StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升

StepFun AI 发布了其全新的音频大语言模型 Step-Audio-R1。该模型在音频推理能力方面取得了显著提升，标志着公司在音频AI技术领域的重要进展。

AI 科学研究新基准:FrontierScience 评估模型推理能力

介绍了一个名为FrontierScience的新型AI科学研究基准，该基准旨在评估和衡量人工智能模型在复杂科学推理方面的能力。

美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

腾讯自研大模型混元2.0发布：多方面能力提升

腾讯发布了其自研大模型混元2.0版本，该版本在多个方面实现了能力提升，标志着腾讯在人工智能基础模型领域的持续投入与技术进步。