北大和微软亚研院开发出 AI 模型“女娲”：可完成图像补全、一句话生成视频等八种视觉任务-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2021/11/1c8b0e31-5f86-45ca-8bff-c21d85a645a1.gif

有这样一个模型，它可以做到一句话生成视频：不仅零样本就能搞定，性能还直达 SOTA。它的名字，叫“NüWA”（女娲）。“女娲女娲，神通广大”，正如其名，一句话生成视频只是这个模型的技能之一。除此之外，一句话生成图片、草图生成图像、视频，图像补全，视频预测，图像编辑、视频编辑，一共八种视觉任务，它其实全部都能搞定，完全是一位不折不扣的“全能型选手”。这就是由微软亚研院和北大联合打造的一个多模态预训练模型，在首届微软峰会上亮相。目前，在推特上已“小有热度”。八项全能“女娲”，单拎出来也不差所以这个全能型选手究竟表现如何？直接与 SOTA 模型对比，来看看“她”在各项任务上的表现。在文本生成图像中，不得不说，即使“女娲”的 FID-0 得分不及 XMC-GAN，但在实际效果中，“女娲”生成的图肉眼可见的更好，清晰又逼真。文本到视频中，“女娲”每一项指标都获得了第一名，从逐帧图片来看，差距很明显。在视频预测中，所有模型使用 64x64