在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型,平均只有 40% 的准确率。而像开源模型表现就更不理想了…...ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K 平均只有 10% 的准确率。目前该论文已被 ACL 2024 接收。论文共同一作为通研院的李佳琪、王萌萌,通讯作者为通研院研究员郑子隆和北京大学人工
无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成
2024-08-07 12:46:42来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 用元脑企智EPAI"玩转"大模型应用开发,1人1月开发智能售前助手2024-09-14 16:36:00
- 百度:1-8月大模型中标项目数量达到去年5倍2024-09-14 19:00:33
- 元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B2024-09-13 20:49:18
- 浪潮信息:元脑企智EPAI助力金融大模型快速落地2024-09-13 12:47:00
- 赵何娟:我们准备好面对GPT大模型的瓶颈期了吗?2024-09-11 17:32:11
- 百度梁志祥:基于大模型的智能体正为营销行业带来深远变革2024-09-11 18:26:53
- 沈向洋:中国备案行业大模型数量占比约70%,未来数量将更多 |最前线2024-09-08 20:09:38
- 长虹发布首款沧海智能体 AI TV 和智汇家 AI 大模型2024-09-08 15:46:13
- 奇瑞风云 T9 推送 Lion5.0 升级版:新增星火大模型,升级华为 HiCar2024-09-08 16:06:29
- “国内首个端到端通用语音 AI 大模型”心辰 Lingo 发布,号称中文效果比 GPT-4o 更出色2024-09-06 18:59:42
- 1合格评定助力电子商务高质量发展 SGS携手电商平台发起行动倡议
- 2三星 Galaxy A16 5G 手机宣传图曝光:6.7 英寸屏幕、天玑 6300 / Exynos 1330 芯片,6…
- 3英国科学家研制出超薄二维表面材料,有望增强 6G 卫星通信能力
- 4Snap 发布第 5 代 Spectacles AR 眼镜:集成 OpenAI 多模态 AI 模型,支持语音控制
- 5FENDER 为多次荣膺格莱美的摇滚巨星 JACK WHITE 推出全新签名系列
- 6衣服里的Sorona 索罗纳®是什么材料?
- 7充电 60 元超时费 1600 元,特斯拉车主又遭遇充电刺客
- 8肯辛通发布 SD5000T5:首款英特尔认证的 Thunderbolt 5 扩展坞,11 个端口、最高 120 Gbps…
- 9AOC 推出 PD34 保时捷设计曲面显示器,搭载 240Hz QD-OLED 面板
- 10小鹏用实际行动证明,李想说得没错