微比恩 > 信息聚合 > GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

2024-06-22 16:32:26来源: IT之家

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

图片地址：https://img.ithome.com/newsuploadfiles/2024/6/8906022c-a7a6-45f1-947d-95ae7ecce004.png

难度大升级的多任务长视频理解评测基准 MLVU来了！由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢？最终排名第一的 GPT-4o单选正确率还不足 65%。而且研究发现，大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明，提升上下文窗口，提升图像理解能力，以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开，具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计，大部分视频的长度都在 1 分钟以内。且现有评测基准往往专注在特定领域的视频（例如电影、第一视角）和特定的视频评测任务（例如 Captioning，Temporal Perception，Action Understanding）。此外，现有部分长视频理解评测任务往往只和局部帧有关，或者针对经典电影进行问答，这导致 MLLMs 可以直接凭借 text

关注公众号

标签：视频

提示：支持键盘“← →”键翻页

上一篇比亚迪汉 DM / EV 推送 1.2 版本车机 OTA 升级，新增定位服务设置项

下一篇数字图书馆推行遇阻，互联网档案馆败诉后被迫删除 50 万册图书

赞

你的鼓励是对作者的最大支持

相关阅读

阿里通义万相视觉生成大模型升级，支持文生视频、图生视频等2024-09-19 14:35:09
华为 WATCH GT5 智能手表开箱视频曝光：银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
快手：可灵 AI 已累计生成超 2700 万个视频，正内测全新 1.5 版本基础模型2024-09-13 18:31:32
网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端，演示视频现公开2024-09-12 15:21:20
华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频，暗示全球发售2024-09-12 19:24:52
苹果 iPhone 16 Pro 系列支持录制 4K120 FPS 视频2024-09-10 02:39:09
续航最强苹果手机易主，iPhone 16 Pro Max 视频播放时长可达 33 小时2024-09-10 03:35:11
索尼官方泄密：YouTube 视频标题证实 PS5 Pro 今晚官宣2024-09-10 07:52:03
问界 M9 五座版预热视频公布：后备箱灵活百变，9 月 10 日发布2024-09-08 14:52:58
荣耀 MagicBook Art 14 骁龙版发布：高通 X Elite、OS Turbo、1080P 视频可播放 15…2024-09-06 21:08:05

热门排行榜

1日1周1月

免费发布分类信息

最新图片