微比恩 > 信息聚合 > GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难

GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难

2024-06-22 16:32:26来源: IT之家

难度大升级的多任务长视频理解评测基准 MLVU来了!由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢?最终排名第一的 GPT-4o单选正确率还不足 65%。而且研究发现,大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开,具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计,大部分视频的长度都在 1 分钟以内。且现有评测基准往往专注在特定领域的视频(例如电影、第一视角)和特定的视频评测任务(例如 Captioning,Temporal Perception,Action Understanding)。此外,现有部分长视频理解评测任务往往只和局部帧有关,或者针对经典电影进行问答,这导致 MLLMs 可以直接凭借 text

关注公众号
标签: 视频