最近,Nature 上的一项研究,全面驳斥了 LLM (大语言模型)具有类人推理能力的说法。研究者设定的「人类亲吻难题」把 7 个大模型彻底绕晕。最终研究者表示,与其说 LLM 是科学理论,不如说它们更接近工具,比如广义导数。LLM 究竟是否拥有类似人类的符合理解和推理能力呢?许多认知科学家和机器学习研究人员,都会认为,LLM 表现出类人(或「接近类人」)的语言能力。然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有!论文地址:https://www.nature.com/articles/s41598-024-79531-8基于一个全新的基准数据集,研究者对目前最先进的 7 个模型(包括 GPT-4、Llama2、Gemini 和 Bard)进行了评估。他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或
Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
2024-11-16 18:21:58来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 首发 3599 → 到手 2699 元:铭凡 BD790i ITX 主板预售新低(含 R9-7945HX 处理器)2024-11-16 17:34:18
- 火影“众颜 U6”16 英寸轻薄本新增配置开售:R5 6600H + 16G + 512G 售 2699 元2024-11-16 17:35:47
- 东风风行星海 S7 增程版轿车正式发布:28.4 千瓦时电池组,纯电续航 168 公里2024-11-16 18:42:29
- 小米生态链总经理陈波:NAS 是新的专业品类,希望大家理性等待2024-11-16 18:47:08
- 北通“妲己・倾城”三模键盘开售:Gasket 结构、8000 毫安时电池,399 元2024-11-16 18:49:42
- 摩托罗拉海外机型安卓 15 适配名单公布:含 Razr 2023、Moto G 2024、ThinkPhone 等 30 余款2024-11-16 19:02:32
- 火影焕 16 Air 游戏本新增配置 11 月 25 日首销,R7 8845HS + 32G + 1T + RTX406…2024-11-16 19:25:29
- 微软“Microsoft 自动填充 Chrome 扩展”浏览器插件将于 12 月 14 日停用2024-11-16 19:51:04
- 小鹏汽车:面向英国市场推出的首车将是小鹏 G6,预计明年初上市2024-11-16 19:51:48
- 全新 MINI 燃油车家族正式上市:提供三门 / 五门 / JCW 版,20.88 万元起2024-11-16 20:07:13
- 1京东方A:拟增资北电集成用于建设12英寸集成电路生产线项目
- 2阿里CEO吴泳铭:双11 GMV强劲增长,核心用户留存和新用户增长取得突破
- 38999 元,微星旗舰 AMD 主板 MEG X870E GODLIKE 上市
- 4蚂蚁集团:第二财季净利润75.9亿元,同比增长193%
- 5工信部等四部门:到2026年新制定锂电池产业国家标准和行业标准100项以上
- 6华嵘控股:筹划控制权变更事项,股票11月18日停牌
- 7深圳上市公司并购重组年内完成交易总值居全国第二
- 8三星 Galaxy A26 手机外观 / 规格曝光:水滴屏 + “超频版”Exynos 1280 处理器
- 9试点启用“刷脸”通关,往来港澳 11 月 20 日起“免出示证件”
- 10劳资谈判未取得进展,加拿大邮政工人工会宣布罢工