微比恩 > 信息聚合 > 可通过文字生成连贯动作视频,谷歌推出 AI 扩散模型 Lumiere

可通过文字生成连贯动作视频,谷歌推出 AI 扩散模型 Lumiere

2024-01-29 10:42:45来源: IT之家

IT之家 1 月 29 日消息,谷歌研究院日前推出了一款名为 Lumiere 的“文生视频”扩散模型,主打采用自家最新开发的“Space-Time U-Net”基础架构,号称能够一次生成“完整、真实、动作连贯”的视频。▲ 图源 谷歌官方新闻稿(下同)谷歌表示,业界绝大多数“文生视频”模型无法生成时间长、质量佳、动作连贯逼真的内容,这是因为此类模型通常“分段生成视频”,首先产生几张关键帧,接着用“时间超级分辨率(Temporal Super-Resolution)”技术,生成关键帧之间的视频文件,这种方法虽然能够节省 RAM,但难以生成“连贯逼真”的视频。谷歌提到,他们的新模型 Lumiere 相对于业界模型最大的不同是采用了全新“Space-Time U-Net”基础架构,该架构能够在空间和时间上同时“降采样(Downsample)”信号,从而在“更紧凑的时空中进行更多运算”,令 Lumiere 生成持续时间更长、动作

关注公众号
标签: 谷歌 IE 视频