小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假 ——不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳 Claude。面对浩大的声浪,厂商 CEO 终于发文道歉,但并未承认造假,表示在调查有关原因。被指控造假的,就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。一开始的质疑主要关于测试成绩,官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳 Claude 这一更重磅的指控,让 Reflection 更加百口莫辩。表现不如宣传,还被质疑套壳Reflection 是一个 70B 的开源模型,按照厂商的说法,它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 这一系列先进模型全都超过了。但 Reflection 刚发布两天,第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。
“最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱
2024-09-13 18:38:35来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 美的集团:确定 H 股发行价为每股 54.8 港元,预计 9 月 17 日于港交所挂牌上市2024-09-13 18:20:36
- 普华永道中天合计被罚没 4.41 亿元,回应称尊重并坚决服从相关行政处罚决定2024-09-13 18:21:13
- 上海:力争陆上风电项目 2025 年 6 月前核准,光伏电站项目 2025 年 6 月前开工2024-09-13 18:26:59
- 快手:可灵 AI 已累计生成超 2700 万个视频,正内测全新 1.5 版本基础模型2024-09-13 18:31:32
- 大眼橙 C2 Air 投影仪开售:300CVIA、130° 俯仰调节,699 元2024-09-13 18:45:08
- 比亚迪腾势 Z9 车型申报图公布,纯电版本搭载 230/240/240kW 三电机2024-09-13 18:59:42
- 上汽大众途昂 Pro 中大型 SUV 完成申报:全新前脸 / 隐藏式门把手2024-09-13 19:02:25
- 奇瑞 iCAR 第二款新车 V23 完成申报:复古造型方盒子 SUV ,可选双电机2024-09-13 19:16:09
- 领克第二款纯电汽车 Z20 完成申报:“领克版”极氪 X,定位紧凑型车2024-09-13 19:26:20
- 20 点蹲点速抢:苹果 iPhone 16 / Pro 系列手机京东预售2024-09-13 16:35:28
- 1合格评定助力电子商务高质量发展 SGS携手电商平台发起行动倡议
- 2三星 Galaxy A16 5G 手机宣传图曝光:6.7 英寸屏幕、天玑 6300 / Exynos 1330 芯片,6…
- 3英国科学家研制出超薄二维表面材料,有望增强 6G 卫星通信能力
- 4Snap 发布第 5 代 Spectacles AR 眼镜:集成 OpenAI 多模态 AI 模型,支持语音控制
- 5FENDER 为多次荣膺格莱美的摇滚巨星 JACK WHITE 推出全新签名系列
- 6衣服里的Sorona 索罗纳®是什么材料?
- 7充电 60 元超时费 1600 元,特斯拉车主又遭遇充电刺客
- 8肯辛通发布 SD5000T5:首款英特尔认证的 Thunderbolt 5 扩展坞,11 个端口、最高 120 Gbps…
- 9AOC 推出 PD34 保时捷设计曲面显示器,搭载 240Hz QD-OLED 面板
- 10小鹏用实际行动证明,李想说得没错