美团LongCat发布创新基准测试UNO-Bench,全面提升多模态大语言模型评估能力
2025年11月6日 15:18·AIBase
Multimodal Large Language Model
Benchmark
AI Evaluation
多模态AI评估迎来新突破:UNO-Bench基准测试发布
美团LongCat团队近日推出UNO-Bench基准测试,专门用于评估多模态模型的理解能力。这个创新工具覆盖44种任务类型和5种模态组合,全面测试模型的单模态与全模态表现。
数据集优势:质量与效率并重
UNO-Bench的核心竞争力在于其精心构建的数据集:
- 1250个全模态样本,跨模态可解性达98%
- 2480个增强单模态样本,特别优化中文场景
- 自动压缩技术使运行速度提升90%
- 在18个公开基准中保持98%一致性
创新评估方法:多步骤开放式问题
该基准引入创新的多步骤问题形式,结合通用评分模型:
- 自动评估六种不同题型
- 准确率高达95%
- 为复杂推理能力提供新评测标准
未来发展与国际拓展
目前UNO-Bench专注于中文场景,但团队正积极寻求合作:
- 计划开发英语及多语言版本
- 数据集可通过Hugging Face平台下载
- 代码和文档已在GitHub开源
行业影响与展望
UNO-Bench的发布标志着多模态大语言模型评估进入新阶段。这一工具不仅为研究者提供强大支持,更为整个AI行业的技术进步奠定坚实基础。
项目地址:https://meituan-longcat.github.io/UNO-Bench/



