微比恩 > 信息聚合 > 无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成

无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成

2024-08-07 12:46:42来源: IT之家

在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型,平均只有 40% 的准确率。而像开源模型表现就更不理想了…...ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K 平均只有 10% 的准确率。目前该论文已被 ACL 2024 接收。论文共同一作为通研院的李佳琪、王萌萌,通讯作者为通研院研究员郑子隆和北京大学人工

关注公众号
标签: 大模型