别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2023/11/56d97664-34c9-44c9-a4c6-12b31b23a039.png?x-bce-process=image/format,f_auto

“别让大模型被基准评估给坑了”。这是一项最新研究的题目，来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校。研究发现，基准测试中相关数据意外被用于模型训练的现象，变得越来越常见了。因为预训练语料中包含很多公开文本资料，而评估基准也建立在这些信息之上，本来这种情况就在所难免。现在随着大模型试图搜集更多公开数据，问题正在加重。要知道，这种数据重叠带来的危害非常大。不仅会导致模型部分测试分数虚高，还会使模型泛化能力下降、不相关任务表现骤降。甚至可能让大模型在实际应用中产生“危害”。所以这项研究正式发出警告，并通过多项模拟测试验证了可能诱发的实际危害，具体来看。大模型“被漏题”很危险研究主要通过模拟极端泄露数据的情况，来测试观察大模型会产生的影响。极端泄露数据的方式有四种：使用 MMLU 的训练集使用 MMLU 以外所有测试基准的训练集使用所有训练集 + 测试 prompt使用所有训练集、测试集和测试 prompt（这