引言:从“解题”到“定义问题”,评测引领AI下半场
OpenAI 研究员姚顺雨最近在其博文《AI 下半场》中提出了振聋发聩的观点:人工智能的发展正步入一个全新的阶段。在上半场,我们习惯于专注模型架构与训练方法的突破;而如今,下半场的关键在于如何评估模型的真实智能。“接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的重要性将超过训练”。换言之,我们需要像产品经理那样重新思考应该让 AI 解决什么问题、以及如何衡量“解决得好”。过去,Transformer、AlexNet、GPT-4 等里程碑工作让算法和模型大放异彩;但在下半场,比拼的不再是谁的模型更大、更强,而是谁能定义出更有效的评测标准,推动 AI 朝着对人类真正有用的方向演进。
这样的理念正在获得实践的支撑。近期,一支来自新加坡国立大学(NUS)和南洋理工大学(NTU)等机构领衔的团队的研究,围绕了通用多模态模型的评估而非训练展开。这篇题为《On Path to Multimodal Generalist: General-Level and General-Bench》的论文提出了全新的“通才智能”评测框架,旨在为多模态大模型(Multimodal Large Language Model, MLLM)的能力设立一把更合适的标尺。该团队强调,只有转变思路,把精力投向评测体系的革新,我们才能真正衡量 AI 是否在朝着通用智能(AGI)的目标迈进。正如姚顺雨所言,下半场 AI 的胜负手在于评测标准的制定,而非一味堆砌训练技巧。这项超过 300 页的研究由超过 30 位研究者共同完成,核心作者团队来自新加坡国立大学、南洋理工大学,联合了浙江大学、北京大兴、罗切斯特大学等多家机构的学者,这支跨学科、跨地域的多元团队集合了计算机视觉、多模态、NLP 等领域的专家。该工作录用于国际机器学习大会 ICML 2025(Spotlight 论文),在众多投稿中脱颖而出,获得评审高度评价。该工作将期待为未来的通用多模态大模型的发展指明一条明道。
“通才智能”之问,多模态大模型的短板:“拼接怪”难言智能
该工作瞄准的是多模态大模型如何进化为“全能通才”的重大命题。论文之所以引发瞩目,源于其聚焦的核心问题:当前的多模态大模型到底离“通才智能”有多远?随着 GPT-4、PaLM-E、Deepseek 等模型不断涌现,业界开始畅想 AI 从各自为战的“专才”走向举一反三的“通才”。但一个现实挑战是,缺乏衡量“通才智能”的统一标准——过往评测往往各自为政、碎片化,难以回答“大模型是不是更通用了”这一根本问题。为此,该团队提出了 General-Level 评估体系和 General-Bench 测试集,希望为 AI 社区提供一个公认的“通才智能”试金石。正如论文指出的,那些在各项任务上指标再高的模型,也未必真正更接近人类水平智能。我们需要新的评估范式来定义问题、发现短板,照亮通往 AGI 的路径。这正契合了“AI 下半场”的时代精神,也难怪工作一经发布就收获了学术界和工业界的密切关注。
在踏上“通才”之路前,团队首先剖析了当前绝大部分的多模态大模型(无论是多模态基础模型还是多模态智能体)存在的瓶颈。论文一针见血地指出:现有的大部分的多模态模型基本是基于“语言智能 LLM”所二次构建的“间接式多模态智能”,类似于用胶水拼接起来的“缝合怪”。虽然它们可以同时处理图像、文本、视频等等多种模态,但本质上往往是不同模块的堆叠+二次微调:比如用预训练视觉编码器接上语言模型,让模型“看图说话”。这种架构上的松耦合导致模型更像多个专才的拼盘,而非一个真正融会贯通的通才。这样的“多模态 Frankenstein”只是在语言智能的基础上外挂视觉、听觉接口,其多模态推理过程很大程度上仍依赖底层的大语言模型对文本的强大记忆和关联能力。模型缺乏各模态间的深度协同,更谈不上原生多模态智能,实现在跨模态/任务之间举一反三。
不仅如此,简单地用传统任务准确率去评价这些模型,往往会产生误导。很多现有的 MLLM benchmarks 看似涵盖多模态任务,但不同模型各擅胜场:有的专精图像问答拿高分,有的擅长视频描述拔头筹。然而,这些分数的堆叠并不等于智能的提升。正如作者所质疑的,难道任务指标高就代表模型更接近人类智能了吗?答案远非如此简单。举个例子,一个模型如果靠暴力记忆在封闭题库上取得高分,并不能说明它具备通用理解力。同样,一个只会在单一模态侃侃而谈的模型,换个场景就可能语焉不详。由此可见,仅以各项任务的准确率为标准来衡量智能是片面的。当前的 MLLM 存在三大典型短板:
综上,当前的多模态大模型更像多个专家的简单拼合,远未形成跨模态的融会贯通。针对这些短板,评估标准也必须升级,才能暴露模型的真实能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定义和衡量通才智能”这一问题,为 AI 下半场奠定新的竞赛规程。
General-Level 五级评估体系:用“协同效应”定义通才智能
要评估“通才智能”,该论文借鉴了自动驾驶分级评估的思路,创造性地提出了 General-Level 五级能力段位体系。它将多模态模型的能力划分为由低到高的五个段位,从“专才”一直到“通才”。评判标准的核心是模型是否展现出 Synergy(协同效应)——也就是不同模态、不同任务间是否互相赋能。General-Level 评估体系以“协同效应 (Synergy)”为核心,将多模态模型划分为五个能力等级,从青铜级的专才到王者级的通才,每升高一级意味着更强的协同效应。简而言之,一个真正的通才型 AI,其在某一模态/任务上学到的本领应能迁移并增强它在其他模态/任务上的表现,实现“1+1>2”的效果。
具体来说,General-Level 将 MLLM 划分为如下五个等级,:
通过 General-Level 这个分级体系,研究者为“通才智能”提供了一个清晰的定义标准:不是看模型会多少项任务,而是看它是否能在多任务、多模态中实现协同增益。协同效应成为评估的核心指标,直接衡量模型的“通才度”。这套体系如同给多模态模型划定了晋级之路:从杂技般的拼凑,到初步融合产生化学反应,最终迈向模态互通的 AGI。这正如姚顺雨所呼吁的,要“重新思考评估设置并创造新的评估”,不断质疑旧假设、引入新任务,才能推动 AI 突破现有套路。General-Bench 由此成为多模态 AI 下半场的一座里程碑,为行业提供了共同的试炼场。正因如此,General-Level 可被称为“通才智能的新衡量尺”:它定义了未来多模态模型努力的方向,也为我们诊断现有模型的不足提供了依据。
General-Bench 通才测试集:700 项任务炼金“全能 AI”
有了评估等级的标准,还需要相应“考卷”来对模型进行全面测评。General-Bench 正是为此打造的一套大规模多模态通才测试集。这套 Benchmark 题库堪称 MLLM 史上最全面、最严苛、最大规模的多模态考试:它囊括了 700 种不同任务、合计约 32.58 万道问题,覆盖图像、视频、音频、3D 点云、文本等 5 大最常见模态。从常规的图文理解,到开放式生成,再到跨模态推理,General-Bench 努力构建一个全面考察模型多方面能力的竞技场。
具体而言,General-Bench 在设计上有以下显著特点:
如此庞大的题库是如何构建的?研究团队为保证质量和覆盖面,采用了严谨的五步数据构建流程。首先,他们明确了数据集的范围和结构:确定纳入哪些模态、元任务类型和回答范式。接着,团队广泛搜集潜在任务,通过爬取学术论文、开源数据集、在线平台等渠道汇总任务清单。随后,对每个候选任务的数据进行清洗筛选,并按照统一格式整理。整个过程中遵循“尽可能全面、多样,同时确保质量和真实性”的原则。最终产出的 General-Bench 既有开放部分(Open-Set,提供题目和标准答案,供研究者自由使用)也有闭卷部分(Close-Set,仅提供题目,答案保密用于官方评测)。这种开放+闭卷双轨设计,既鼓励学术社区广泛采用 Benchmark,又保证了排行榜评测的公平性。可以说,General-Bench 为评估多模态通才搭建了一个高标准竞技场。它的价值不仅在于出了一套难题,更在于树立了评测新风向:强调开放生成、强调多模态融合、强调动态扩展(团队称数据集将持续更新维护)。
榜单揭晓:GPT-4 段位几何?行业瓶颈尽现
当如此严苛的 General-Bench 试卷摆在当前顶尖模型面前,会是怎样的光景?论文对 100 多个先进的多模态模型在 700 多个跨模态任务上进行了测试(测试时间是 24 年底之前的多模态大模型,跟当前最新的一些版本模型稍有时间上的延迟),结果可以说是几家欢喜几家愁,更让人大跌眼镜。一些业界公认强大的模型在这场通才大考中显露出意想不到的短板。下面我们揭晓部分关键结果:
如果说按模态分解的成绩让人大跌眼镜,那么汇总到段位评定上则更显残酷:
General-Level 整体排行榜展示了不同模型所处的段位分布。如上图所示,目前绝大多数模型停留在 Level-2 和 Level-3,仅有极少数攀上 Level-4 铂金,而 Level-5 王者段位(黄色阶梯)尚无模型问鼎。这张图直观地回答了“你的多模态模型是青铜还是王者?”这一问题。
通过这次前所未有的通才测试,现有 MLLM 的三大致命弱点也彻底暴露无遗:
这些发现无疑给业界敲响了警钟:再强大的单点模型,在通才智能的新坐标系下都可能暴露短板。GPT-4 这样的巨头依然在视频、音频、3D 等维度力不从心,更遑论实现模态互促的飞跃。这充分证明,我们需要新的评测标准来发现和正视这些瓶颈,然后对症下药地改进模型。General-Level 和 General-Bench 正提供了这样的放大镜和标尺,让我们看清 AI 通往 AGI 道路上的真实差距。
社区反响:评测框架引热议,开放平台促协作
General-Level 和 General-Bench 的推出,近期在学术界和工业界都引起了积极反响。首先,这项工作获得了顶会 ICML 的 Spotlight 认可,证明同行专家们高度认同其创新性和重要性。许多国外研究者在社交媒体上评论、转发该工作,称其为“AGI 时代评测范式的里程碑”。在开源社区,General-Bench 基准受到了热烈欢迎。论文作者将数据集发布在 Hugging Face 平台,并开放了评测代码和排行榜系统。Hugging Face 上聚集了一批关注者,不少开发者加入项目组织成为成员,共同维护数据。有社区贡献者开始考虑提交新的任务数据,希望扩充 General-Bench 的覆盖范围。这种开源协作氛围正是作者期望的——让评测框架成为全社区共同的基础设施,持续完善并被广泛采用。
与此同时,排行榜(Leaderboard)竞赛的形式也激发了良性竞争。General-Level 官方网站上线了实时榜单和提交入口,任何人都可以上传自己模型在 Close-Set 测试集上的预测结果,获取官方评估分数和段位定位。这一机制吸引了业界一些领先 AI 团队参与,不仅有学术实验室,也有企业研发部门。大家都希望尝试让自家模型冲击更高段位,并将结果分享出来交流,比如“某某模型为何只能停留在白银段位,差距在哪”;“我们发现模型在音频理解上扣分严重,看来下个版本必须补上听觉模块的短板。”团队负责人称,将会长期维护这个项目,确保社区所有的多模态大模型都能够无门槛使用这个项目的资源。
欢迎公开打榜,Leaderboard:https://generalist.top/leaderboard
团队与研究背景:跨领域协作共筑评测基石
这样的突破性工作背后,是一支大规模的团队。该项目由新加坡国立大学(NUS)与南洋理工大学(NTU)牵头,汇集了计算机视觉、多模态理解、自然语言处理等方向的青年、资深专家学者。本工作由费豪博士主导整体项目推进,并分别由周源、李俊成、李祥泰、徐青山、李波波、吴胜琼博士等青年学者分别领衔各个模态、模块;并全称由张含望教授、颜水成教授坐镇通讯指导,由蔡达成教授、罗杰波教授作为项目顾问。据团队成员介绍,最初萌生这个想法,是在看到多模态模型不断刷新各种 Benchmark 的同时,却缺乏对整体智能水平的刻画。“我们训练出了很多擅长某一方面的模型,但很难说清楚 AI 整体上进步了多少”,张含望教授在相关研讨会上如此阐述初衷,“我们不妨借鉴自动驾驶行业的智能汽车分级机制,重新思考对于多模态大模型的智能分级体系”。于是大家决定索性换一个视角,不再纠结于在单一基准上卷 0.1% 的精度提升,而是设计一个能全面衡量多模态 AI 的框架。通过多次大量的内部讨论,最终确定了一个核心观点,“我们不能按照过去的简单的单个任务表现来评定模型的智能水平,而是应该按照协同泛化能力!”。一开始这个想法并不被所有人看好,因为意味着要投入巨大精力构建数据集、协调不同领域知识。但团队迎难而上,不断打磨 General-Level 算法设计,花了超过一年多的时间收集、标注清洗数据,与此同时耗费大量人力(超过 50 多位实际贡献者)和计算资源对超过 100 多个多模态大模型在 700 多个任务 30 多万条数据上进行大规模的评测,终于使整个项目成型。可以说,这项成果既是技术创新的结晶,也是对 AI 评测理念的一次重要实践。
可以说,General-Level/General-Bench 不仅是一套评测工具,更是在推广一种全新的“评测文化”。AI 社区从原先热衷跑单项指标,开始转向思考模型的全面素质;从比拼参数规模,转向比拼谁的 AI 更平衡、更通达。这种风向的变化正验证了姚顺雨的论断:AI 下半场,比的不是算法炫技,而是谁能定义正确的问题并找到衡量进步的方法。General-Level 的框架为大家提供了一个共同语言和目标,接下来就要看各路英雄如何在这新标尺下磨炼升级了。
展望:评测范式革新推动 AGI 落地
在 AI 通往 AGI 的征途上,评测标准的突破将起到指南针的作用。General-Level 和 General-Bench 的问世,正标志着业界从“算法为王”转向“评测为王”的思维转变。在这个全新的评测范式下,我们期待看到以下变化:
在此,我们呼吁 AI 研究社区广泛采用 General-Level 和 General-Bench 框架。一套统一的评估标准,将使得不同模型的优劣高下有据可依,也方便大家协同改进。更重要的是,它能引导我们聚焦于模型综合素质的提升,而不是陷入无尽的参数竞赛或刷榜游戏。这与姚顺雨所倡导的“像产品经理一样思考”不谋而合:先想清楚我们究竟希望 AI 为人类做什么、有哪些能力,然后再去改进算法实现它。评估标准的革新,正是明确 AI 努力方向的前提。
总而言之,AI 的下半场已经开启,一个以评测驱动进步的新时代扑面而来。General-Level 和 General-Bench 作为“通才智能”的里程碑,为这一时代写下了精彩的序章。让我们期待,在这套评测指引下,更多 AI 模型百尺竿头、更进一步,早日攀上“王者段位”。届时,通往 AGI 的大门也将随之洞开,人类与通用人工智能共创未来的愿景或将成为现实。