微比恩 > 信息聚合 > 谷歌 AI 视频再出王炸：全能通用视觉编码器 VideoPrism，性能刷新 30 项 SOTA

谷歌 AI 视频再出王炸：全能通用视觉编码器 VideoPrism，性能刷新 30 项 SOTA

2024-02-25 21:24:35来源: IT之家

谷歌 AI 视频再出王炸：全能通用视觉编码器 VideoPrism，性能刷新 30 项 SOTA

图片地址：https://img.ithome.com/newsuploadfiles/2024/2/8c9f921a-d13d-4036-9da2-7c45ae288667.png?x-bce-process=image/format,f_auto

【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism，在 3600 万高质量视频字幕对和 5.82 亿个视频剪辑的数据集上完成了训练，性能刷新 30 项 SOTA。（SOTA 是指 State-of-the-Art（最先进技术），在计算机科学和机器学习领域，SOTA 是指在特定任务或领域中当前表现最出色的模型或算法。）AI 视频模型 Sora 爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶 OpenAI 的步伐。最近，来自谷歌团队的研究人员提出了一种通用视频编码器 ——VideoPrism。它能够通过单一冻结模型，处理各种视频理解任务。论文地址：点此直达比如，VideoPrism 能够将下面视频中吹蜡烛的人分类、定位出来。视频-文本检索，根据文本内容，可以检索出视频中相应的内容。再比如，描述下面视频 —— 一个小女孩正在玩积木。还可以进行 QA 问答。- 她放在绿色积木块上方积木的是什么颜色？- 紫色。研究人员在

关注公众号

标签：谷歌视频 OTA

提示：支持键盘“← →”键翻页

上一篇荣耀首款 AI PC：MagicBook Pro 16 笔记本亮相，Win 阵营首发空间音频

下一篇荣耀手机：与微软、谷歌、英特尔、英伟达等带来一体化协同体验

赞

你的鼓励是对作者的最大支持

相关阅读

消息称谷歌 10 月 15 日向 Pixel 6 及后续机型推送安卓 15 更新2024-09-19 14:16:18
阿里通义万相视觉生成大模型升级，支持文生视频、图生视频等2024-09-19 14:35:09
谷歌搜索将整合 C2PA 2.1 标准，标注 AI 生成 / 编辑图片2024-09-18 09:10:59
谷歌发布 Chrome 浏览器 129 稳定版：降低延迟，含 9 项安全修复2024-09-18 10:04:15
华为 WATCH GT5 智能手表开箱视频曝光：银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
谷歌 Pixel 平板升级至 Android 15 QPR1 Beta 2 将喜提桌面模式，类似三星 Dex / Chr…2024-09-13 21:07:19
快手：可灵 AI 已累计生成超 2700 万个视频，正内测全新 1.5 版本基础模型2024-09-13 18:31:32
网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端，演示视频现公开2024-09-12 15:21:20
谷歌搜索“关于此结果”面板新增互联网档案馆网页缓存链接，替代已移除第一方功能2024-09-12 17:31:06
华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频，暗示全球发售2024-09-12 19:24:52

热门排行榜

1日1周1月

免费发布分类信息

最新图片