微比恩 > 信息聚合 > “最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱

“最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱

2024-09-13 18:38:35来源: IT之家

小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假 ——不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳 Claude。面对浩大的声浪,厂商 CEO 终于发文道歉,但并未承认造假,表示在调查有关原因。被指控造假的,就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。一开始的质疑主要关于测试成绩,官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳 Claude 这一更重磅的指控,让 Reflection 更加百口莫辩。表现不如宣传,还被质疑套壳Reflection 是一个 70B 的开源模型,按照厂商的说法,它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 这一系列先进模型全都超过了。但 Reflection 刚发布两天,第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。

关注公众号