难度大升级的多任务长视频理解评测基准 MLVU来了!由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢?最终排名第一的 GPT-4o单选正确率还不足 65%。而且研究发现,大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开,具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计,大部分视频的长度都在 1 分钟以内。且现有评测基准往往专注在特定领域的视频(例如电影、第一视角)和特定的视频评测任务(例如 Captioning,Temporal Perception,Action Understanding)。此外,现有部分长视频理解评测任务往往只和局部帧有关,或者针对经典电影进行问答,这导致 MLLMs 可以直接凭借 text
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
2024-06-22 16:32:26来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 催收的尽头是教育? | 钛赞了视频周榜第146期2024-06-24 17:24:25
- 监管趋严所致?视频号暂停私募相关用户直播准入资格2024-06-24 18:44:44
- 告别 1 分钟限制,Meta Ray-Ban 智能眼镜视频录制时长提升至 3 分钟2024-06-23 14:51:48
- 全国首例,玩家擅自披露游戏新版测试视频判赔 10 万元2024-06-22 20:44:55
- 最前线|快手可灵大模型推出图生视频功能2024-06-21 17:41:34
- 快手可灵上线图生视频与最长 3 分钟的视频续写功能2024-06-21 17:06:01
- 长安深蓝 SL03、S7 车型推送 2.2 版本更新:新增 QQ 音乐、文件互传、远程视频等2024-06-21 17:23:24
- 北京市首例“AI 换脸”软件侵权案宣判:国风博主短视频被“换脸”后制作成付费模板2024-06-20 22:50:54
- 车企拥抱短视频,转阵地比学雷军更重要2024-06-20 18:55:16
- 摩托罗拉 razr 50 Ultra 手机宣传视频曝光:IPX8 防水、主打 Moto AI2024-06-20 13:32:33