微比恩 > 信息聚合 > 和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

2024-03-28 13:51:54来源: IT之家

IT之家 3 月 28 日消息,根据 LMSYS Org 公布的最新基准测试报告,Claude-3 得分以微弱优势超越 GPT-4,成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org,该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena,这是一个针对大型语言模型(LLM) 的基准平台,以众包方式匿名、随机对抗测评大模型产品,其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些,整体而言相对公正。Chatbot Arena 自去年上线以来,GPT-4 一直稳居头把交椅,甚至成为了评估大模型的黄金标准。不过昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱

关注公众号