上海AI Lab开始给大模型重新出题了,GPT-4o数学能力跑分直掉50%!

seekdeep4个月前AI资讯136

新模型在 MATH 上(以数学竞赛为主)动辄跑分 80% 甚至 90% 以上,却一用就废。


这合理吗??


为了真实检验模型数学推理能力,上海人工智能实验室司南 OpenCompass 团队放大招了。


推出新的复杂数学评测集 LiveMathBench,以全新性能指标 G-Pass@16 来连续评估模型的性能潜力和稳定性。



好家伙!团队在模拟真实用户使用采样策略、重复多次评测大模型的数学推理能力时发现:


大部分的模型平均会有五成以上的性能下降,即使是最强推理模型 o1-mini 也会下降 3 成 6,更有模型直接下降九成。



具体咋回事儿下面接着看。


全新评价指标 : G-Pass@k


研究团队重新思考了大模型评测常用的技术指标,如传统经常采用的 Pass@k, Best-of-N, Majority Voting,这些指标主要关注模型的性能潜力,缺少对模型的鲁棒性的评测。


而真实场景中,为了提高回复的多样性,模型往往使用采样解码的方式进行推理,这也会带来大量的随机性。在复杂推理任务中,这种随机性会严重影响模型的性能,而用户更预期在真实问题中,模型能又稳又好。


Pass@k 指标回顾


经典的 Pass@k 指标关注模型在多次生成中至少给出一次正确答案的概率。假设模型生成次数为,正确答案数为,c 表示其中正确解的数量,那么 Pass@k 的计算方式如下:



兼顾性能潜力与稳定性的评测指标 G-Pass@K


Pass@k 体现了模型的性能潜力,却不能体现模型的稳定性,基于这一目的团队将 Pass@k 推广为 Generalized Pass@k(以下简称 G-Pass@k)。


通过引入阈值,该工作关注模型在次生成中至少给出 ⎡ · ⎤次正确答案的概率。


一般来说,认为模型的每次生成是 i.i.d.(Independent and Identically Distributed)的,那么模型给出的正确答案数服从二项分布,这可以通过超几何分布逼近二项分布。基于此,可以得出 G-Pass@k 的定义:



在较小时,G-Pass@k衡量模型的性能潜力;较大时,G-Pass@k衡量模型的稳定性,或者说模型对于问题的掌握程度,因此研究者可以通过 G-Pass@k 连续地观察模型的性能潜力与稳定性。


进⼀步地,研究团队还定义了 mG-Pass@k 用于对模型的性能进行整体观测。


具体来说,mG-Pass@k 是 — G-Pass@k 曲线下的面积,为了更好地模拟真实场景,团队重点考虑∊ [ 0.5,0.1 ] 的情况,即:



G-Pass@K 是 Pass@K 是泛化形式


当⎡ · ⎤ =1 时,Pass@K 是 G-Pass@k 等价,这意味着 Pass@K 是 G-Pass@k 的特例,读者可以参考论文附录提供的证明。


研究团队给出了两者关系的对比分析,如下图所示:



图中展示了不同的和 c 下 Pass@K 和 G-Pass@k 的值,可以看出在较小时,两者反映的是模型的潜力,然而这种分数可能是偏高的,在 24/80 的整体通过率下,Pass@K 指标的值可以接近 80%。


但当关注较高的时,更能够观察到模型在实际生成时的真实性能。


LiveMathBench:避免数据污染的复杂数学评测集


研究团队构建了一个新的 benchmark LiveMathBench 用于验证实验。


具体来说,他们收集了最近发布的中国数学奥林匹克,中国高考最新模拟题,美国数学竞赛和美国普特南数学竞赛中最新的题目,尽量减少数据污染的可能性。


整个 LiveMathBench(202412 版本)包括 238 道题目,每个题目提供中文 / 英文两个版本的题目,覆盖不同的难度。研究团队计划后续持续更新 LiveMathBench 中的题目,来持续观测 LLM 的真实数学水平。


另外,研究团队还在两个公开 Benchmark MATH500 和 AIME2024 上进行了实验。


对于 MAH500,研究团队选择了难度为 L5 的题目,命名为MATH500-L5;对于 AIME2024,研究团队使用了 Part1 和 Part2 两个部分全部 45 道题目,命名为 AIME2024-45。


实验


在实验设置方面,对于每道题目,进行了 16*3=48 次生成并报告 G-Pass@16 分数。研究团队在通用模型、数学模型和类 o1 模型三种不同类型的大模型中选择了具有代表性的大模型进行实验。


LiveMathBench 性能对比如下:



根据实验结果,可以看到:


大部分闭源模型和开源模型在 G-Pass@161.0 指标上也都不超过 30 分。


最强的 o1-mini 模型在 G-Pass@161.0 获得了最高分 42 分,相对性能下降比例也是所有模型中最低的(36.9%),虽体现出相对较高的稳定性,但仍然难以忽视。


Math-500-L5/AIME2024-45 性能对比如下。



对于开源数据集:


在常用的高中竞赛级别题目 MATH500-L5 上,多数模型不管是贪婪解码的表现还是稳定性 G-Pass@161.0 的表现都相比 LiveMathBench 都有所提升,而 AIME2024 则相反,大多数模型的 G-Pass@161.0 分数都只有个位数,甚至部分模型接近 0 分;


对于难度颇高的 AIME2024,虽然 o1-min 和 QwQ-32B-Preview 在贪婪解码下表现突出,但面对高难度题目下的稳定性还是难以保证,如 QwQ-32B-Preview 甚至跌到了不到原来的 1/5,而其在 MATH500-L5 中却比较稳定,达到了原分数的 3/5,这也说明了最新的高难度数学题目对模型的稳定性带来了更大的压力。


最后,模型在不同难度题目上的能力分析如下 。


下表展示了关键模型在 LiveMathBench 两个子集上的性能表现。


其中 CCEE 代表中国高考题目,主要涉及到基础的高中数据知识;而 WLPMC 代表来自普特南(Putnam)竞赛的题目,普特南竞赛是久负盛名的美国大学生数学竞赛,其题目难度要高于高考题目。



由实验结果可以看出,先进的推理模型,例如 DeepSeek-V2.5, Qwen2.5-72B-Instruct, QwQ 等在 Pass@16 指标下在两个子集上都有较好的性能,但大部分模型在 WLPMC 上的稳定性下降更为严重。


因此可以有如下猜想,推理模型容易学习到训练数据中的平凡解,导致 Pass@k 等指标的上升,然而在困难的问题上,这种提升并不与模型真实推理性能提升相关。在强基座模型的训练中,更应该关注推理稳定性的表现,以提升其真实推理能力。


重要观测观察一:闭源和开源模型均不能稳定地进行复杂推理


研究人员对当前主流的约 20 个模型进行了测试,发现尽管多数模型在贪婪解码的准确率 Greedy Accuracy 和 Pass@16 上表现相对较好,但当使用 G-Pass@K 指标进⾏评估时,性能却显著下降。


当设置为 1.0 时,即要求模型在所有 16 次采样中都提供正确答案, 几乎所有模型的表现都急剧下降。


例如,在对 LiveMathBench 的测评中,Llama-3.1-8B-Instruct 模型的准确率从 18.1% 下降到 0.8%(G-Pass@16=1.0),降幅高达 95.7%。即使是较大的模型,如 NuminaMath-72B-CoT,其准确率也从 34.45% 下降到 3.7%,减少了 89.3%。


在大约 20 个测试模型中,平均性能下降了 60%。即便是表现最为稳定的 OpenAI o1-mini,其准确率也从 66.5% 下降到 42.0%,降幅为 36.9%。


即使将放宽到 0.5,即只要求一半的样本正确即可通过,通用模型、数学推理模型和 o1-like 模型仍分别经历了 14.0%、22.5% 和 4.8% 的平均性能下降。


这表明,在复杂条件下,多数模型难以在多次采样中保持一致的推理能力。


不过目前的评估指标通常依赖单次贪婪解码,可能无法充分反映这些模型在实际应用中的鲁棒性和稳定性。


因此,研究团队指出,需要对模型的推理能力进行更严格的评估,尤其是在那些需要在多次采样中保持一致性和可靠性的重要应用中。


观察二:增大模型规模对推理能力的提升有限


研究人员观察到,以同系列模型 Qwen2.5-32B-Instruct 与 Qwen2.5-72B-Instruct 为例,虽然它们的模型规模相差一倍以上,但无论指标采用 G-Pass@K 还是 Greedy Accuracy,无论评测数据集是最新的 LiveMathBench 还是现有开源数据集,两者的表现均相似。


另外,在更大体量的模型 Mistral-Large-Instruct-2411(123B)上,尽管模型规模继续增大,但其性能和稳定性相比 Qwen2.5-72B-Instruct 却出现下滑。


这表明,对于需要深度理解和逻辑推理的任务,简单增大参数并不能显著提升性能或稳定性。


这可能是因为这些任务不仅需要模型具备记忆和模式识别能力,更需要强大的推理和上下文理解能力。


观察三:模型的性能潜力和实际表现之间的巨大差距


研究团队在评估模型性能时发现,理论最大能力 G-Pass@16 → 0、实际表现能力 Greedy Accuracy 和多次采样下的稳定能力 G-Pass@16=1.0 之间存在显著差距。


尽管模型在理论上具备相当高的潜在性能,但在实际应用中未能充分展现这一水平,尤其是在输出稳定性方面。一些模型在单次贪婪解码中表现出高准确率,显示出处理特定任务的潜力,但在保持一致高准确率方面却不稳定,远未达到最佳性能。


这反映了现有模型在推理稳定性和一致性上的不足,这在训练和评估中常被忽略。


模型在单次推理表现中易受输入数据变化、初始化状态或随机采样的影响,导致不同采样解码的结果不一致。


研究人员指出,在高可靠性和一致性要求的实际应用中,如何在保持接近最佳性能的同时确保输出的稳定性,是一个亟待解决的问题。


总结


本研究深入分析了当前大型模型的数学推理能力,提出了全新的性能指标 G-Pass@16  ,用于连续评估模型的性能潜力和稳定性。


此外,还设计了避免数据污染的 LiveMathBench 数据集。


实验结果显示,目前的大型模型在推理性能方面未达到预期,尤其在多次重复采样时,性能出现显著下降。研究团队期望学术界和工业界能够在推理能力的鲁棒性研究上持续探索与推进。


相关文章

时间延迟且成本高昂,数据短缺,OpenAI的GPT-5训练遇阻!

OpenAI的新一代人工智能项目GPT-5(代号Orion)正面临重重困难。该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果。有知情人士透露称,OpenAI的最大“金主”微软原本预计能在20...

让六大科技巨头市值狂飙8万亿。ChatGPT迎来“两岁生日”,自己却官司缠身,或面临数十亿索赔!

两年前的11月30日,OpenAI推出的生成式聊天模型ChatGPT横空出世,并迅速成为史上用户增长速度最快的应用程序之一。据美国国家广播公司2023年11月30日报道,在推出一年的时间里,从撰写电子...

2B参数越级跑赢GPT-3.5-Turbom,谷歌开源最强端侧小模型!

谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B...

性能全面赶超GPT-4 Turbo,阿里云发布通义千问2.5!

阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo,成为地表最强中文大模型。同时,通义千问最新开源的1100亿参数模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B...

OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定,类人速度超快语音响应!

年初“文生视频模型”Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官米拉·穆拉蒂(Mira Murati)向外界展现了多项与ChatGPT有关的更新。简要来说,OpenAI的...

UC伯克利仅使用当前模型检查点预测未来模型,GPT-5涌现能力可预测?!

LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来...