微比恩 > 信息聚合 > 「世界开源新王」Reflection 70B 跌落神坛?重测跑分暴跌实锤造假

「世界开源新王」Reflection 70B 跌落神坛?重测跑分暴跌实锤造假

2024-10-07 16:06:50来源: IT之家

「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的 Sonnet 3.5?发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎,已经光速「滑跪」,po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B,才发布一个月就跌落神坛了?9 月 5 日,Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——用 Meta 的开源 Llama 3.1-70B,团队微调出了 Reflection 70B。它的基准测试结果惊人,可以和 Claude 3.5 Sonnet 以及 GPT-4 这类顶级闭源模型一较高下,直接登顶「世界开源新王」!结果没多久,Reflection 70B 就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是 AI 研究者,还是第三方评估者,都无法复现

关注公众号