微比恩 > 信息聚合 > 无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

2024-08-07 12:46:42来源: IT之家

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

图片地址：https://img.ithome.com/newsuploadfiles/2024/8/050ad77c-abee-4694-83d2-bc35f28c1fc6.png

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型，平均只有 40% 的准确率。而像开源模型表现就更不理想了…...ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K 平均只有 10% 的准确率。目前该论文已被 ACL 2024 接收。论文共同一作为通研院的李佳琪、王萌萌，通讯作者为通研院研究员郑子隆和北京大学人工

关注公众号

标签：大模型

提示：支持键盘“← →”键翻页

上一篇全球第 2 大数据泄露事件，背调公司 NPD 遭攻击：影响 29 亿人、277.1GB 数据

下一篇小米米家智投洗 Pro 洗烘 12kg 洗衣机发布，3299 元开启预约

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
加速大模型上车浪潮信息自动驾驶计算框架AutoDRRT 2.0实现车端低延时计算2024-10-21 17:07:00
国内首个应用临床眼科大模型 “伏羲慧眼”发布，可检测、预测眼部健康状态2024-10-21 09:28:33
字节跳动大模型遭实习生攻击，损失超千万美元？相关人士回应2024-10-19 14:18:35

热门排行榜

1日1周1月

免费发布分类信息

最新图片