微比恩 > 信息聚合 > 大模型实时打《街霸》捉对 PK：GPT-4 不敌 3.5，新型 Benchmark 火了

大模型实时打《街霸》捉对 PK：GPT-4 不敌 3.5，新型 Benchmark 火了

2024-04-01 13:48:57来源: IT之家

大模型实时打《街霸》捉对 PK：GPT-4 不敌 3.5，新型 Benchmark 火了

图片地址：https://img.ithome.com/newsuploadfiles/2024/4/813ded07-eaac-4239-a26d-833045a2ba54.gif

让大模型直接操纵格斗游戏《街霸》里的角色，捉对 PK，谁更能打？GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中，两个大模型分别输出答案，再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互，且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发，所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。排名结果也很出人意料。经过 342 场对战后，根据棋类、电竞常用的 ELO 算法得出的排行榜如下：最新版 gpt-3.5-turbo 成绩断崖式领先，Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。开发者认为，这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。与传统的强化学习也有所不同，强化学习模型相当于根据奖励函数“

关注公众号

标签： AR 大模型 PK

提示：支持键盘“← →”键翻页

上一篇网易《永劫无间手游》今日首测，大量用户涌入导致服务器崩溃

下一篇雷军回应网友称晕电车：花了很大代价专门解决这个问题，小米汽车 SU7 肯定不晕

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
Future Marketing食品饮料&酒品牌数字生态大会圆满落幕2024-10-25 18:14:00
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
Arm、高通为授权许可打起来了！双方隔空喊话12月法庭见｜硅基世界2024-10-25 09:55:18
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
华为 Pura 70 系列、Pocket 2 等 8 款机型通过开源鸿蒙兼容性测评，操作系统版本号 OpenHarmon…2024-10-24 15:21:38

热门排行榜

1日1周1月

免费发布分类信息

最新图片