微比恩 > 信息聚合 > 微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求

微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求

2024-05-11 23:28:49来源: IT之家

微软 & 清华最新研究,打破 GPT 系列开创的 Decoder-Only 架构 —— 提出 Decoder-Decoder 新型架构,名为 YOCO(You Only Cache Once)。YOCO 仅缓存一次键值对,可大幅降低 GPU 内存需求,且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。在处理 512K 上下文长度时,标准 Transformer 内存使用是 YOCO 的 6.4 倍,预填充延迟是 YOCO 的 30.3 倍,而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。去年一张“大语言模型进化树”动图在学术圈疯转,模型架构还只有三大类:Decoder-Only、Encoder-Only、Encoder-Decoder。那么这个新出的 Decoder-Decoder 架构到底长啥样?嗯,如网友所言,要读的论文又增加了。话不多说,一起来看。打破 D

关注公众号
标签: on 微软 GPU