在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)但是,当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时,得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。而且问题不仅仅是基本的不准确性:当要求展示其工作过程时,AI 会详细说明一些荒谬且错误的「思考」过程,这些过程毫无意义 —— 更奇怪的是,当被告知其工作不准确时,模
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
2024-06-10 17:42:53来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 飞利浦“24E1N1520”23.8 英寸显示器上架开售:2K 100Hz,699 元2024-06-10 17:50:41
- 三星电子被韩国年轻人看好,拥有近 40 万名 20 岁以下股东2024-06-10 18:06:24
- 华为回应“投资柔宇”:未有此计划,也未提出投资要求2024-06-10 18:37:00
- 支持 Type-C 充电宝供电:小米直流变频落地扇 1X 升级版 249 元发车2024-06-10 18:47:45
- 比亚迪方程豹“豹 3”伪装实车曝光:配备车顶平台,今年年内上市2024-06-10 19:18:52
- 1.99 万印度卢比起售,Nothing 子品牌首款智能手机 CMF Phone 1 售价曝光2024-06-10 19:20:43
- 消息称苹果 iOS 18 依然兼容 iPhone XR / XS / XS Max 机型2024-06-10 19:34:17
- 谷歌 Pixel Watch 3 渲染图首曝:圆形表盘 + 旋转表冠,预计 10 月发布2024-06-10 19:40:50
- 820/1998 元的《黑神话:悟空》PC 实体豪华 / 收藏版今晚 8 点全款预售:附赠 WeGame 游戏兑换码2024-06-10 19:48:35
- 支持接入 NAS,群晖推出 FC600 / BC800Z 两款家用监控摄像头2024-06-10 19:50:17
- 1安徽高新投先进材料投资基金登记成立 出资额3亿
- 2中兴 5G AI CPE G5 Pro 开启预售:2.5G 双网口、 WAN / LAN 自适应,1999 元
- 3小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 4本月开测,微软网页版和 Win11 新版 Outlook 可固定收藏夹
- 5任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 6阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 7Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 8全球最大、国内首制!我国万吨级纯电动高端智能海船开建:总功率 1900kW,最大航速 11.5 节
- 9小鹏宣布老用户芯片焕新众筹计划:单 Orin 升至双 Orin,座舱 820A 升级 8295
- 10小鹏汇天全倾转旋翼飞行汽车 X5 亮相:500km+ 续航、360km+/h 航速