微比恩 > 信息聚合 > 大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

2024-04-01 13:48:57来源: IT之家

让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的 ELO 算法得出的排行榜如下:最新版 gpt-3.5-turbo 成绩断崖式领先,Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“

关注公众号
标签: AR 大模型 PK