腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench
2026年6月5日 18:06·AIBase
近日,腾讯混元团队联合中国人民大学高瓴人工智能学院等机构,共同推出并开源了 PlanningBench。这是一个旨在评测和训练大语言模型规划能力的可扩展、可验证的数据生成框架。

PlanningBench 从实际的规划场景出发,系统化地抽象了任务、约束和难度等因素,构建了一个覆盖超过 30 种规划任务类型的数据生成与验证体系。这一框架不仅能够评测模型是否具备规划能力,还可以为模型的规划能力训练提供稳定且可迁移的奖励信号。
在具体任务方面,PlanningBench 涵盖了日程排布、资源分配、人力排班、路径调度、生产运营和应急服务等六大类任务。这样广泛的任务类型设计,避免了模型仅在单一领域的 “刷题” 现象,使得模型能够更好地应对多样化的实际应用场景。
此外,PlanningBench 的难度控制体系通过拆解任务结构、约束层级和资源紧张度等因素,使得数据生成可以围绕真实难点进行调整,而不是简单延长提示内容。每条数据实例还配备了 checklist,用以评估模型输出是否满足输入条件、资源限制和目标最优性。
值得一提的是,PlanningBench 同时关注局部合规和全局成功的评测方式,能够识别出 “看似大部分正确但整体不可执行” 的计划。这对于诊断大型语言模型在复杂约束下的真实规划能力具有重要意义。
通过 PlanningBench 的可验证数据进行训练,模型在未见过的规划基准和通用任务上的表现也有了显著提升,显示出其学习信号的通用性。总体来看,PlanningBench 形成了一个真实场景驱动的闭环生成与训练迁移体系,为未来的人工智能规划研究提供了新的工具和方向。
划重点:
🌟 PlanningBench 是腾讯与人大高瓴联合开发的开源框架,旨在评测和训练大语言模型的规划能力。
📅 该框架覆盖 30 多种规划任务类型,涉及日程排布、资源分配等六大类实际应用。
✅ 通过可验证数据进行训练,模型在不同任务上的表现显著提升,展示了其广泛的适用性和迁移能力。

