“别让大模型被基准评估给坑了”。这是一项最新研究的题目,来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校。研究发现,基准测试中相关数据意外被用于模型训练的现象,变得越来越常见了。因为预训练语料中包含很多公开文本资料,而评估基准也建立在这些信息之上,本来这种情况就在所难免。现在随着大模型试图搜集更多公开数据,问题正在加重。要知道,这种数据重叠带来的危害非常大。不仅会导致模型部分测试分数虚高,还会使模型泛化能力下降、不相关任务表现骤降。甚至可能让大模型在实际应用中产生“危害”。所以这项研究正式发出警告,并通过多项模拟测试验证了可能诱发的实际危害,具体来看。大模型“被漏题”很危险研究主要通过模拟极端泄露数据的情况,来测试观察大模型会产生的影响。极端泄露数据的方式有四种:使用 MMLU 的训练集使用 MMLU 以外所有测试基准的训练集使用所有训练集 + 测试 prompt使用所有训练集、测试集和测试 prompt(这
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
2023-11-09 18:27:18来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
- 华西医院联合华为数据存储发布“华西黉医”医学大模型:集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
- 提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
- 智己汽车发布 IM AD 3.0 智驾,全球首批量产一段式端到端大模型2024-10-28 16:41:37
- 科大讯飞升级星火大模型,持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
- 钛媒体独家|大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
- 中信建投:零一万物发布Yi-Lightning,国产大模型迭代加速2024-10-25 07:57:29
- 加速大模型上车 浪潮信息自动驾驶计算框架AutoDRRT 2.0实现车端低延时计算2024-10-21 17:07:00
- 国内首个应用临床眼科大模型 “伏羲慧眼”发布,可检测、预测眼部健康状态2024-10-21 09:28:33
- 字节跳动大模型遭实习生攻击,损失超千万美元?相关人士回应2024-10-19 14:18:35