微比恩 > 信息聚合 > 斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

2024-06-22 20:17:14来源: IT之家

IT之家 6 月 22 日消息,斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物的 Yi Large(Preview)。据悉大规模多任务语言理解能力评估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分,模型必须具备广泛的世界知识和解决问题的能力。IT之家附排名如下:▲ 图源斯坦福大学基础模型研究中心官网1、Claude 3 Opus(20240229): Anthropic(美国,亚马逊投资)2

关注公众号
标签: AR 大模型 阿里