微比恩 > 信息聚合 > 和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

2024-03-28 13:51:54来源: IT之家

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

图片地址：https://img.ithome.com/newsuploadfiles/2024/3/c475260b-cc4d-4479-ac15-39ccf83fa0f7.jpg?x-bce-process=image/format,f_auto

IT之家 3 月 28 日消息，根据 LMSYS Org 公布的最新基准测试报告，Claude-3 得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天，并让用户在匿名的情况下选择哪款大模型产品的表现更好一些，整体而言相对公正。Chatbot Arena 自去年上线以来，GPT-4 一直稳居头把交椅，甚至成为了评估大模型的黄金标准。不过昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱

关注公众号

提示：支持键盘“← →”键翻页

上一篇全新起亚 K4 亮相纽约车展，两厢掀背版首度曝光

下一篇比发现“上帝粒子”罕见 50 倍：Nature 报道北大物理新成果，首次观测到三玻色子联合产生

赞

你的鼓励是对作者的最大支持

相关阅读

理想汽车 Mind GPT 大模型通过国家备案，训练数据规模达 3 万亿 Token2024-03-28 13:22:25
宝华韦健推出 700 S3 系列签名版音箱，3300 美元起2024-03-28 13:26:06
硬件检测工具 HWiNFO 8.00 版本发布：64 位版本不再支持 WinXP / Vista 系统2024-03-28 13:33:30
八达通安卓 App 即将推出，华硕、小米、索尼、荣耀等手机均可使用2024-03-28 13:38:10
海尔智家 2023 年全球营业收入 2614.28 亿元，同比增长 7.3%2024-03-28 13:42:48
一加 Nord CE 4 手机曝光：搭载高通骁龙 7 Gen3，4 月 1 日发布2024-03-28 13:49:14
小米米家 10 公斤智投洗衣机上架：超薄全嵌设计，首发 1799 元2024-03-28 13:56:50
小米澎湃 HyperOS 智能助理出行助手内测：负一屏顶部展示用户火车、飞机票信息2024-03-28 13:59:40
特斯拉拟打造“私有 5G”服务：确保延迟更低、网速更快，为电动汽车及人形机器人提供支持2024-03-28 14:01:09
散户大战华尔街事件热度消褪，GameStop 难掩颓势：裁员挣扎求生2024-03-28 14:05:56

热门排行榜

1日1周1月

免费发布分类信息

最新图片