微比恩 > 信息聚合 > 爆火 Sora 参数规模仅 30 亿?纽约大学谢赛宁等大佬技术分析来了

爆火 Sora 参数规模仅 30 亿?纽约大学谢赛宁等大佬技术分析来了

2024-02-17 17:31:58来源: IT之家

就说 Sora 有多火吧。生成的视频上线一个、疯传一个。作者小哥新上传的效果,很快引来围观。失败案例都让人看得上瘾。将近 1 万人点赞。学术圈更炸开锅了,各路大佬纷纷开麦。纽约大学助理教授谢赛宁(ResNeXt 的一作)直言,Sora 将改写整个视频生成领域。英伟达高级研究科学家 Jim Fan高呼,这就是视频生成的 GPT-3 时刻啊!尤其在技术报告发布后,讨论变得更加有趣。因为其中诸多细节不是十分明确,所以大佬们也只能猜测。包括“Sora 是一个数据驱动的物理引擎”、“Sora 建立在 DiT 模型之上、参数可能仅 30 亿”等等。所以,Sora 为啥能如此惊艳?它对视频生成领域的意义是?这不,很快就有了一些可能的答案。视频生成的 GPT-3 时刻总的来说,Sora 是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了 Transformer架构,也就是一种“扩散型 Transformer”。关于技术

关注公众号