微比恩 > 信息聚合 > Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败

Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败

2024-11-16 18:21:58来源: IT之家

最近,Nature 上的一项研究,全面驳斥了 LLM (大语言模型)具有类人推理能力的说法。研究者设定的「人类亲吻难题」把 7 个大模型彻底绕晕。最终研究者表示,与其说 LLM 是科学理论,不如说它们更接近工具,比如广义导数。LLM 究竟是否拥有类似人类的符合理解和推理能力呢?许多认知科学家和机器学习研究人员,都会认为,LLM 表现出类人(或「接近类人」)的语言能力。然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有!论文地址:https://www.nature.com/articles/s41598-024-79531-8基于一个全新的基准数据集,研究者对目前最先进的 7 个模型(包括 GPT-4、Llama2、Gemini 和 Bard)进行了评估。他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或

关注公众号