微比恩 > 信息聚合 > 打打字就能指挥算法视频抠图,Transformer 掌握跨模态新技能

打打字就能指挥算法视频抠图,Transformer 掌握跨模态新技能

2022-03-07 13:55:23来源: IT之家

都说 Transformer 适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒 76 帧)的视频实例分割框架。这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来:可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型。目前,相关论文已被 CVPR 2022 接收,研究人员来自以色列理工学院。主要思路根据文本描述进行视频目标分割这一多模态任务(RVOS),需要结合文本推理、视频理解、实例分割和跟踪技术。现有的方法通常依赖复杂的 pipeline 来解决,很难形成一个端到端的简便好用的模型。随时 CV 和 NLP 领域的发展,研究人员意识到,视频和文本可以同时通过单个多模态 Transformer 模型进行有效处理。为此,他们提出了这个叫做 MTTR (Multimodal Tracking Transformer)的新架构,将

关注公众号
标签: 视频