微比恩 > 信息聚合 > 斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

2024-06-22 20:17:14来源: IT之家

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

图片地址：https://img.ithome.com/newsuploadfiles/2024/6/4829563c-94fc-42f6-abdc-8115a40e15a9.png?x-bce-process=image/watermark,image_aW1nL3dhdGVybWFyay9xYy9xYzEwNi5wbmc=,t_100,g_6,y_0,x_11,a_0

IT之家 6 月 22 日消息，斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分，模型必须具备广泛的世界知识和解决问题的能力。IT之家附排名如下：▲ 图源斯坦福大学基础模型研究中心官网1、Claude 3 Opus（20240229）： Anthropic（美国，亚马逊投资）2

关注公众号

标签： AR 大模型阿里

提示：支持键盘“← →”键翻页

上一篇 Win11 学院：22635.3790 可启用短日期格式，仅保留“月日”

下一篇《艾尔登法环：黄金树幽影》Steam 评价跌至“褒贬不一”，中文评价“多半差评”

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
Future Marketing食品饮料&酒品牌数字生态大会圆满落幕2024-10-25 18:14:00
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
Arm、高通为授权许可打起来了！双方隔空喊话12月法庭见｜硅基世界2024-10-25 09:55:18
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
华为 Pura 70 系列、Pocket 2 等 8 款机型通过开源鸿蒙兼容性测评，操作系统版本号 OpenHarmon…2024-10-24 15:21:38

热门排行榜

1日1周1月

免费发布分类信息

最新图片