微比恩 > 信息聚合 > 谷歌 AI 视频再出王炸:全能通用视觉编码器 VideoPrism,性能刷新 30 项 SOTA

谷歌 AI 视频再出王炸:全能通用视觉编码器 VideoPrism,性能刷新 30 项 SOTA

2024-02-25 21:24:35来源: IT之家

【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在 3600 万高质量视频字幕对和 5.82 亿个视频剪辑的数据集上完成了训练,性能刷新 30 项 SOTA。(SOTA 是指 State-of-the-Art(最先进技术),在计算机科学和机器学习领域,SOTA 是指在特定任务或领域中当前表现最出色的模型或算法。)AI 视频模型 Sora 爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶 OpenAI 的步伐。最近,来自谷歌团队的研究人员提出了一种通用视频编码器 ——VideoPrism。它能够通过单一冻结模型,处理各种视频理解任务。论文地址:点此直达比如,VideoPrism 能够将下面视频中吹蜡烛的人分类、定位出来。视频-文本检索,根据文本内容,可以检索出视频中相应的内容。再比如,描述下面视频 —— 一个小女孩正在玩积木。还可以进行 QA 问答。- 她放在绿色积木块上方积木的是什么颜色?- 紫色。研究人员在

关注公众号
标签: 谷歌 视频 OTA