IT之家 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。谷歌和谷歌 Deepmind 的研究人员提出了新的方法,将多模态理解扩展到长视频领域。借助 Mirasol AI 模型,该团队试图解决两个关键挑战:需要以高频采样同步视频和音频,但要异步处理标题和视频描述。视频和音频会生成大量数据,这会让模型的容量紧张。谷歌在 Mirasol 中使用合路器(combiners)和自回归转换器(autoregressive transformer)模型。该模型组件会处理时间同步的视频和音频信号,然后再将视频拆分为单独的片段。转换器处理每个片段,并学习每个片段之间的联系,然后使用另一个转换器处理上下文文本,这两个组件交换有关其各自输入的信息。名为
谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
2023-11-16 16:01:12来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 消息称谷歌 10 月 15 日向 Pixel 6 及后续机型推送安卓 15 更新2024-09-19 14:16:18
- 阿里通义万相视觉生成大模型升级,支持文生视频、图生视频等2024-09-19 14:35:09
- 谷歌搜索将整合 C2PA 2.1 标准,标注 AI 生成 / 编辑图片2024-09-18 09:10:59
- 谷歌发布 Chrome 浏览器 129 稳定版:降低延迟,含 9 项安全修复2024-09-18 10:04:15
- 华为 WATCH GT5 智能手表开箱视频曝光:银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
- 谷歌 Pixel 平板升级至 Android 15 QPR1 Beta 2 将喜提桌面模式,类似三星 Dex / Chr…2024-09-13 21:07:19
- 快手:可灵 AI 已累计生成超 2700 万个视频,正内测全新 1.5 版本基础模型2024-09-13 18:31:32
- 网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端,演示视频现公开2024-09-12 15:21:20
- 谷歌搜索“关于此结果”面板新增互联网档案馆网页缓存链接,替代已移除第一方功能2024-09-12 17:31:06
- 华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频,暗示全球发售2024-09-12 19:24:52