都说 Transformer 适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒 76 帧)的视频实例分割框架。这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来:可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型。目前,相关论文已被 CVPR 2022 接收,研究人员来自以色列理工学院。主要思路根据文本描述进行视频目标分割这一多模态任务(RVOS),需要结合文本推理、视频理解、实例分割和跟踪技术。现有的方法通常依赖复杂的 pipeline 来解决,很难形成一个端到端的简便好用的模型。随时 CV 和 NLP 领域的发展,研究人员意识到,视频和文本可以同时通过单个多模态 Transformer 模型进行有效处理。为此,他们提出了这个叫做 MTTR (Multimodal Tracking Transformer)的新架构,将
打打字就能指挥算法视频抠图,Transformer 掌握跨模态新技能
2022-03-07 13:55:23来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义万相视觉生成大模型升级,支持文生视频、图生视频等2024-09-19 14:35:09
- 华为 WATCH GT5 智能手表开箱视频曝光:银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
- 快手:可灵 AI 已累计生成超 2700 万个视频,正内测全新 1.5 版本基础模型2024-09-13 18:31:32
- 网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端,演示视频现公开2024-09-12 15:21:20
- 华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频,暗示全球发售2024-09-12 19:24:52
- 苹果 iPhone 16 Pro 系列支持录制 4K120 FPS 视频2024-09-10 02:39:09
- 续航最强苹果手机易主,iPhone 16 Pro Max 视频播放时长可达 33 小时2024-09-10 03:35:11
- 索尼官方泄密:YouTube 视频标题证实 PS5 Pro 今晚官宣2024-09-10 07:52:03
- 问界 M9 五座版预热视频公布:后备箱灵活百变,9 月 10 日发布2024-09-08 14:52:58
- 荣耀 MagicBook Art 14 骁龙版发布:高通 X Elite、OS Turbo、1080P 视频可播放 15…2024-09-06 21:08:05
- 1动力锂电池高新技术企业“星恒电源”完成数亿元融资
- 2任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 3阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 4Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 5中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 6亚马逊将向意大利数据中心业务投资13亿美元
- 7人民币兑美元中间价报7.1433,调升226个基点
- 8创业板指涨超2%,沪指涨近1%
- 9小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 10多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低