小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假 ——不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳 Claude。面对浩大的声浪,厂商 CEO 终于发文道歉,但并未承认造假,表示在调查有关原因。被指控造假的,就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。一开始的质疑主要关于测试成绩,官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳 Claude 这一更重磅的指控,让 Reflection 更加百口莫辩。表现不如宣传,还被质疑套壳Reflection 是一个 70B 的开源模型,按照厂商的说法,它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 这一系列先进模型全都超过了。但 Reflection 刚发布两天,第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。
“最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱
2024-09-13 18:38:35来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama2024-09-19 14:21:51
- 元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B2024-09-13 20:49:18
- 开源鸿蒙 OpenHarmony 社区累计已超 8000 名贡献者,9 月 26 日举办生态主题演讲2024-09-10 04:05:08
- 国内航天领域首款智慧物联操作系统“天鸿”发布,基于开源鸿蒙打造2024-09-01 17:23:23
- 最强端侧开源 AI 模型 Zamba2-mini 登场:12 亿参数,4bit 量化下内存占用小于 700MB2024-08-29 15:29:44
- 微软向 Wine 团队捐赠 Mono 开源项目2024-08-28 08:54:30
- 国产香山 RISC-V 开源处理器“南湖”开发板成功运行《云・原神》2024-08-24 15:02:12
- 最前线|KubeCon China 2024在香港举办,中国成为全球第二大开源贡献国2024-08-23 16:13:00
- 摩尔线程开源音频理解大模型 MooER:基于国产全功能 GPU 训练和推理2024-08-23 18:21:35
- 北斗 Astrolink S 智能手表发布:华为海思 MCU + 开源鸿蒙 OpenHarmony 底层架构,2999 元起2024-08-20 15:58:51
- 1超 12000 公里,国产腔镜手术机器人完成远程手术、加速出海
- 2国家统计局:10 月汽车类零售额 4452 亿元、同比增长 3.7%
- 3三星 One UI 7 AI Brief 功能曝光:定时播报新闻、股市、天气等主题消息
- 4亚马逊云科技助力参盘科技打造智慧供应链 加速冷链行业数智化升级
- 5呵护肠胃健康,畅享美好生活A.O. 史密斯蒸烤一体机帮你更好地养胃
- 6机械师 L8 Max 三模电竞鼠标上市:双 8K 回报率、PAW3950 Pro,首发 329 元
- 7小鹏 MONA M03 轿车推出手游《王者荣耀》孙尚香“大小姐”限定彩绘车衣,本月内限量发售
- 8OPPO Pad3 配备 2.8K 原彩仿书柔光屏,支持苹果 iOS 互传
- 9经典回归:恐怖游戏续作《尸体派对 2 Darkness Distortion》上架 Steam,2025 年发售
- 10广汽古惠南:昊铂 HL 对标迈巴赫,明年埃安 / 昊铂至少有 4 款新车