【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在 3600 万高质量视频字幕对和 5.82 亿个视频剪辑的数据集上完成了训练,性能刷新 30 项 SOTA。(SOTA 是指 State-of-the-Art(最先进技术),在计算机科学和机器学习领域,SOTA 是指在特定任务或领域中当前表现最出色的模型或算法。)AI 视频模型 Sora 爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶 OpenAI 的步伐。最近,来自谷歌团队的研究人员提出了一种通用视频编码器 ——VideoPrism。它能够通过单一冻结模型,处理各种视频理解任务。论文地址:点此直达比如,VideoPrism 能够将下面视频中吹蜡烛的人分类、定位出来。视频-文本检索,根据文本内容,可以检索出视频中相应的内容。再比如,描述下面视频 —— 一个小女孩正在玩积木。还可以进行 QA 问答。- 她放在绿色积木块上方积木的是什么颜色?- 紫色。研究人员在
谷歌 AI 视频再出王炸:全能通用视觉编码器 VideoPrism,性能刷新 30 项 SOTA
2024-02-25 21:24:35来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 消息称谷歌 10 月 15 日向 Pixel 6 及后续机型推送安卓 15 更新2024-09-19 14:16:18
- 阿里通义万相视觉生成大模型升级,支持文生视频、图生视频等2024-09-19 14:35:09
- 谷歌搜索将整合 C2PA 2.1 标准,标注 AI 生成 / 编辑图片2024-09-18 09:10:59
- 谷歌发布 Chrome 浏览器 129 稳定版:降低延迟,含 9 项安全修复2024-09-18 10:04:15
- 华为 WATCH GT5 智能手表开箱视频曝光:银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
- 谷歌 Pixel 平板升级至 Android 15 QPR1 Beta 2 将喜提桌面模式,类似三星 Dex / Chr…2024-09-13 21:07:19
- 快手:可灵 AI 已累计生成超 2700 万个视频,正内测全新 1.5 版本基础模型2024-09-13 18:31:32
- 网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端,演示视频现公开2024-09-12 15:21:20
- 谷歌搜索“关于此结果”面板新增互联网档案馆网页缓存链接,替代已移除第一方功能2024-09-12 17:31:06
- 华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频,暗示全球发售2024-09-12 19:24:52