IT之家 3 月 28 日消息,根据 LMSYS Org 公布的最新基准测试报告,Claude-3 得分以微弱优势超越 GPT-4,成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org,该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena,这是一个针对大型语言模型(LLM) 的基准平台,以众包方式匿名、随机对抗测评大模型产品,其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些,整体而言相对公正。Chatbot Arena 自去年上线以来,GPT-4 一直稳居头把交椅,甚至成为了评估大模型的黄金标准。不过昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱
和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异
2024-03-28 13:51:54来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 理想汽车 Mind GPT 大模型通过国家备案,训练数据规模达 3 万亿 Token2024-03-28 13:22:25
- 宝华韦健推出 700 S3 系列签名版音箱,3300 美元起2024-03-28 13:26:06
- 硬件检测工具 HWiNFO 8.00 版本发布:64 位版本不再支持 WinXP / Vista 系统2024-03-28 13:33:30
- 八达通安卓 App 即将推出,华硕、小米、索尼、荣耀等手机均可使用2024-03-28 13:38:10
- 海尔智家 2023 年全球营业收入 2614.28 亿元,同比增长 7.3%2024-03-28 13:42:48
- 一加 Nord CE 4 手机曝光:搭载高通骁龙 7 Gen3,4 月 1 日发布2024-03-28 13:49:14
- 小米米家 10 公斤智投洗衣机上架:超薄全嵌设计,首发 1799 元2024-03-28 13:56:50
- 小米澎湃 HyperOS 智能助理出行助手内测:负一屏顶部展示用户火车、飞机票信息2024-03-28 13:59:40
- 特斯拉拟打造“私有 5G”服务:确保延迟更低、网速更快,为电动汽车及人形机器人提供支持2024-03-28 14:01:09
- 散户大战华尔街事件热度消褪,GameStop 难掩颓势:裁员挣扎求生2024-03-28 14:05:56
- 1任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 2阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 3Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 4中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 5小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 6多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低
- 7安徽高新投先进材料投资基金登记成立 出资额3亿
- 8中兴 5G AI CPE G5 Pro 开启预售:2.5G 双网口、 WAN / LAN 自适应,1999 元
- 9全球最大、国内首制!我国万吨级纯电动高端智能海船开建:总功率 1900kW,最大航速 11.5 节
- 10卡内基梅隆大学研发出皮肤供电技术,可穿戴设备将无需电池