微比恩 > 信息聚合 > 大模型测试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

大模型测试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

2024-06-24 17:02:02来源: IT之家

大模型测试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

图片地址：https://img.ithome.com/newsuploadfiles/2024/6/8a212e16-3e34-4578-851a-671a2ca6a6fc.png

一项新的“大模型 Benchmark”在推特上爆火，LeCun 也点赞转发了！而且无论是 GPT-4 还是 Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项测试，网友还定义了一个新的名词叫“劣效比率”（crapness ratio），让 LeCun 打趣说到，一项新的“Benchmark”诞生了。“模见模愁”的动物过河首先来看一下什么是“动物过河”问题，这是逻辑学当中的一道经典题目。问题的原型是这样的：农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。在这个问题当中，农夫需要七次（往返视为两次）过河 —— 先把羊运过去，然后空船返回，再把狼运过河，带回

关注公众号

标签： AR 大模型

提示：支持键盘“← →”键翻页

上一篇消息称 vivo X200 Pro 手机有望采用等深微曲直屏，配备百瓦快充 6000 毫安时电池

下一篇兰士顿 ClipBuds R2 开放式骨传导耳机开售：IPX5 防水 + ENC 降噪，129 元

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
Future Marketing食品饮料&酒品牌数字生态大会圆满落幕2024-10-25 18:14:00
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
Arm、高通为授权许可打起来了！双方隔空喊话12月法庭见｜硅基世界2024-10-25 09:55:18
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
华为 Pura 70 系列、Pocket 2 等 8 款机型通过开源鸿蒙兼容性测评，操作系统版本号 OpenHarmon…2024-10-24 15:21:38

热门排行榜

1日1周1月

免费发布分类信息

最新图片