微比恩 > 信息聚合 > 谷歌发布 Mirasol：30 亿参数，将多模态理解扩展到长视频

谷歌发布 Mirasol：30 亿参数，将多模态理解扩展到长视频

2023-11-16 16:01:12来源: IT之家

谷歌发布 Mirasol：30 亿参数，将多模态理解扩展到长视频

图片地址：https://img.ithome.com/newsuploadfiles/2023/11/1aec2115-6158-49d0-9c76-05fda94bfa6f.png?x-bce-process=image/format,f_auto

IT之家 11 月 16 日消息，谷歌公司近日发布新闻稿，介绍了小型人工智能模型 Mirasol，可以回答有关视频的问题并创造新的记录。AI 模型目前很难处理不同的数据流，如果要让 AI 理解视频，需要整合视频、音频和文本等不同模态的信息，这大大增加了难度。谷歌和谷歌 Deepmind 的研究人员提出了新的方法，将多模态理解扩展到长视频领域。借助 Mirasol AI 模型，该团队试图解决两个关键挑战：需要以高频采样同步视频和音频，但要异步处理标题和视频描述。视频和音频会生成大量数据，这会让模型的容量紧张。谷歌在 Mirasol 中使用合路器（combiners）和自回归转换器（autoregressive transformer）模型。该模型组件会处理时间同步的视频和音频信号，然后再将视频拆分为单独的片段。转换器处理每个片段，并学习每个片段之间的联系，然后使用另一个转换器处理上下文文本，这两个组件交换有关其各自输入的信息。名为

关注公众号

标签：视频谷歌

提示：支持键盘“← →”键翻页

上一篇上海外卖买药可用支付宝刷医保：首批 45 家药店试点，后续覆盖 1800 家

下一篇半瓶神仙醋游戏新作，《大侠立志传：碧血丹心》v1.0 正式版发售

赞

你的鼓励是对作者的最大支持

相关阅读

消息称谷歌 10 月 15 日向 Pixel 6 及后续机型推送安卓 15 更新2024-09-19 14:16:18
阿里通义万相视觉生成大模型升级，支持文生视频、图生视频等2024-09-19 14:35:09
谷歌搜索将整合 C2PA 2.1 标准，标注 AI 生成 / 编辑图片2024-09-18 09:10:59
谷歌发布 Chrome 浏览器 129 稳定版：降低延迟，含 9 项安全修复2024-09-18 10:04:15
华为 WATCH GT5 智能手表开箱视频曝光：银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
谷歌 Pixel 平板升级至 Android 15 QPR1 Beta 2 将喜提桌面模式，类似三星 Dex / Chr…2024-09-13 21:07:19
快手：可灵 AI 已累计生成超 2700 万个视频，正内测全新 1.5 版本基础模型2024-09-13 18:31:32
网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端，演示视频现公开2024-09-12 15:21:20
谷歌搜索“关于此结果”面板新增互联网档案馆网页缓存链接，替代已移除第一方功能2024-09-12 17:31:06
华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频，暗示全球发售2024-09-12 19:24:52

热门排行榜

1日1周1月

免费发布分类信息

最新图片