微比恩 > 信息聚合 > 两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

2024-06-10 17:42:53来源: IT之家

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

图片地址：https://img.ithome.com/newsuploadfiles/2024/6/53a7cef5-d9f6-491e-882d-df4611c610c3.png?x-bce-process=image/format,f_auto

在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难 ——「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M+1。（爱丽丝拥有的姐妹数量，再加上爱丽丝自己）但是，当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时，得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。而且问题不仅仅是基本的不准确性：当要求展示其工作过程时，AI 会详细说明一些荒谬且错误的「思考」过程，这些过程毫无意义 —— 更奇怪的是，当被告知其工作不准确时，模

关注公众号

提示：支持键盘“← →”键翻页

上一篇 JBL 推出 LIVE BUDS 3 蓝牙耳机：触控彩屏充电盒、10mm 动圈，1299 元

下一篇全球首个 100% 清洁能源供电城市诞生：沙特红海新城机场酒店开始运转，未来年接待百万人次游客

赞

你的鼓励是对作者的最大支持

相关阅读

飞利浦“24E1N1520”23.8 英寸显示器上架开售：2K 100Hz，699 元2024-06-10 17:50:41
三星电子被韩国年轻人看好，拥有近 40 万名 20 岁以下股东2024-06-10 18:06:24
华为回应“投资柔宇”：未有此计划，也未提出投资要求2024-06-10 18:37:00
支持 Type-C 充电宝供电：小米直流变频落地扇 1X 升级版 249 元发车2024-06-10 18:47:45
比亚迪方程豹“豹 3”伪装实车曝光：配备车顶平台，今年年内上市2024-06-10 19:18:52
1.99 万印度卢比起售，Nothing 子品牌首款智能手机 CMF Phone 1 售价曝光2024-06-10 19:20:43
消息称苹果 iOS 18 依然兼容 iPhone XR / XS / XS Max 机型2024-06-10 19:34:17
谷歌 Pixel Watch 3 渲染图首曝：圆形表盘 + 旋转表冠，预计 10 月发布2024-06-10 19:40:50
820/1998 元的《黑神话：悟空》PC 实体豪华 / 收藏版今晚 8 点全款预售：附赠 WeGame 游戏兑换码2024-06-10 19:48:35
支持接入 NAS，群晖推出 FC600 / BC800Z 两款家用监控摄像头2024-06-10 19:50:17

热门排行榜

1日1周1月

免费发布分类信息

最新图片