微比恩 > 信息聚合 > 打打字就能指挥算法视频抠图，Transformer 掌握跨模态新技能

打打字就能指挥算法视频抠图，Transformer 掌握跨模态新技能

2022-03-07 13:55:23来源: IT之家

打打字就能指挥算法视频抠图，Transformer 掌握跨模态新技能

图片地址：https://img.ithome.com/newsuploadfiles/2022/3/cd996541-a2fb-4f0a-b28e-1fd1a7220c28.png

都说 Transformer 适合处理多模态任务。这不，在视频目标分割领域，就有人用它同时处理文本和视帧，提出了一个结构更简单、处理速度更快（每秒 76 帧）的视频实例分割框架。这个框架只需一串文本描述，就可以轻松将视频中的动态目标“抠”出来：可以实现端到端训练的它，在基准测试中的多个指标上表现全部优于现有模型。目前，相关论文已被 CVPR 2022 接收，研究人员来自以色列理工学院。主要思路根据文本描述进行视频目标分割这一多模态任务（RVOS），需要结合文本推理、视频理解、实例分割和跟踪技术。现有的方法通常依赖复杂的 pipeline 来解决，很难形成一个端到端的简便好用的模型。随时 CV 和 NLP 领域的发展，研究人员意识到，视频和文本可以同时通过单个多模态 Transformer 模型进行有效处理。为此，他们提出了这个叫做 MTTR （Multimodal Tracking Transformer）的新架构，将

关注公众号

标签：视频

提示：支持键盘“← →”键翻页

上一篇消息称尼康将推 Z4 全画幅相机，比入门级 Z5 更入门

下一篇到手价 5699 元，iQOO 9 Pro 传奇典藏版礼盒今日开售

赞

你的鼓励是对作者的最大支持

相关阅读

阿里通义万相视觉生成大模型升级，支持文生视频、图生视频等2024-09-19 14:35:09
华为 WATCH GT5 智能手表开箱视频曝光：银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
快手：可灵 AI 已累计生成超 2700 万个视频，正内测全新 1.5 版本基础模型2024-09-13 18:31:32
网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端，演示视频现公开2024-09-12 15:21:20
华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频，暗示全球发售2024-09-12 19:24:52
苹果 iPhone 16 Pro 系列支持录制 4K120 FPS 视频2024-09-10 02:39:09
续航最强苹果手机易主，iPhone 16 Pro Max 视频播放时长可达 33 小时2024-09-10 03:35:11
索尼官方泄密：YouTube 视频标题证实 PS5 Pro 今晚官宣2024-09-10 07:52:03
问界 M9 五座版预热视频公布：后备箱灵活百变，9 月 10 日发布2024-09-08 14:52:58
荣耀 MagicBook Art 14 骁龙版发布：高通 X Elite、OS Turbo、1080P 视频可播放 15…2024-09-06 21:08:05

热门排行榜

1日1周1月

免费发布分类信息

最新图片