IT之家 6 月 22 日消息,斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物的 Yi Large(Preview)。据悉大规模多任务语言理解能力评估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分,模型必须具备广泛的世界知识和解决问题的能力。IT之家附排名如下:▲ 图源斯坦福大学基础模型研究中心官网1、Claude 3 Opus(20240229): Anthropic(美国,亚马逊投资)2
斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十
2024-06-22 20:17:14来源: IT之家
![](/images/qrcode_for_gh_5f0dab6cf0de_258.jpg)
关注公众号
赞
你的鼓励是对作者的最大支持
- 钉钉上线AI搜索,还集齐了大模型“七龙珠” | 最前线2024-06-29 08:00:32
- 国产大模型下半场打响,星火究竟如何应用落地?|钛媒体AGI2024-06-28 20:13:38
- 恒生电子“量身定制”金融大模型,浪潮信息智算平台助力2024-06-28 10:36:00
- 科大讯飞发布星火智能批阅机:基于星火大模型,准确率 99%2024-06-28 09:45:16
- 加码“智慧办公”,荣耀宣布与字节豆包大模型达成合作2024-06-28 11:31:26
- 北京灵奥科技基于亚马逊云科技打造大模型中间件2024-06-27 13:57:00
- DXC Luxoft与ECARX携手合作,提升汽车制造商创新能力2024-06-27 21:38:00
- 华为 P40 / Mate 30、荣耀 30 / V30 系列等超 30 款设备获推鸿蒙 HarmonyOS 4.2 正…2024-06-27 17:02:04
- 华硕计划推出 4K 专业便携屏 ProArt Display PA16USV,配备 12G-SDI 接口2024-06-27 17:20:45
- 【硬科技周报】第23周:低空智能机器人企业“星逻智能”完成超亿元B轮融资,嵌入式AI芯片研发商Synthara完成110…2024-06-27 15:32:45
- 1钉钉上线AI搜索,还集齐了大模型“七龙珠” | 最前线
- 2华皓伟业完成4000万A轮融资,为国内首批车用LED国产替代商 | 36氪首发
- 31.5亿元中央预算内投资支持桂皖湘暴雨洪涝灾害灾后应急恢复
- 4摩根士丹利成立私募基金管理公司 注册资本1亿
- 5腾龙 50-300mm F / 4.5-6.3 相机镜头发售:索尼 E 卡口、5890 元
- 6努比亚 Z 系列手机新品官宣 7 月发布:搭载高通骁龙 8 Gen3 领先版,为“AI”而生
- 7热门中概股美股盘前多数上涨,B站涨2%
- 8IPO爆火的老铺黄金背后:截然不同的消费生意,和同一个投资人|专访
- 9新增 AI 消除、HiCar 通道车联,荣耀 Magic 6 系列手机获推 MagicOS 8.0.0.150
- 10联力推出 HydroShift LCD 系列 AIO 水冷散热器:2.88 英寸 IPS 屏幕、179.99 美元起