微比恩 > 信息聚合 > “最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

2024-09-13 18:38:35来源: IT之家

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

图片地址：https://img.ithome.com/newsuploadfiles/2024/9/256e1f42-045a-47d0-95bd-0da21abe15fa.png?x-bce-process=image/format,f_auto

小型创业团队打造的“最强开源模型”，发布才一周就被质疑造假 ——不仅官方宣称的成绩在第三方测试中大打折扣，模型还被质疑套壳 Claude。面对浩大的声浪，厂商 CEO 终于发文道歉，但并未承认造假，表示在调查有关原因。被指控造假的，就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。一开始的质疑主要关于测试成绩，官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳 Claude 这一更重磅的指控，让 Reflection 更加百口莫辩。表现不如宣传，还被质疑套壳Reflection 是一个 70B 的开源模型，按照厂商的说法，它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 这一系列先进模型全都超过了。但 Reflection 刚发布两天，第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。

关注公众号

标签：开源

提示：支持键盘“← →”键翻页

上一篇米哈游《原神》11 月 20 日上线 Xbox，无需订阅 Game Pass 即可实现在线游戏

下一篇深度操作系统公布 deepin 25 开发计划，2025 年 01 月发布

赞

你的鼓励是对作者的最大支持

相关阅读

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama2024-09-19 14:21:51
元象发布中国最大 MoE 开源大模型：总参数 255B，激活参数 36B2024-09-13 20:49:18
开源鸿蒙 OpenHarmony 社区累计已超 8000 名贡献者，9 月 26 日举办生态主题演讲2024-09-10 04:05:08
国内航天领域首款智慧物联操作系统“天鸿”发布，基于开源鸿蒙打造2024-09-01 17:23:23
最强端侧开源 AI 模型 Zamba2-mini 登场：12 亿参数，4bit 量化下内存占用小于 700MB2024-08-29 15:29:44
微软向 Wine 团队捐赠 Mono 开源项目2024-08-28 08:54:30
国产香山 RISC-V 开源处理器“南湖”开发板成功运行《云・原神》2024-08-24 15:02:12
最前线｜KubeCon China 2024在香港举办，中国成为全球第二大开源贡献国2024-08-23 16:13:00
摩尔线程开源音频理解大模型 MooER：基于国产全功能 GPU 训练和推理2024-08-23 18:21:35
北斗 Astrolink S 智能手表发布：华为海思 MCU + 开源鸿蒙 OpenHarmony 底层架构，2999 元起2024-08-20 15:58:51

热门排行榜

1日1周1月

免费发布分类信息

最新图片