微比恩 > 信息聚合 > Transformer 后继有模!MSRA 提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少 70%

Transformer 后继有模!MSRA 提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少 70%

2023-07-18 13:56:16来源: IT之家

微软大模型新架构,正式向 Transformer 发起挑战!论文标题明晃晃地写道:Retentive Network(RetNet):大模型领域 Transformer 的继任者。论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性使这一基础架构,成为大语言模型中 Transformer 的有力继承者。而实验数据也显示,在语言建模任务上:RetNet 可以达到与 Transformer 相当的困惑度(perplexity)推理速度达 8.4 倍内存占用减少 70%具有良好的扩展性并且当模型大小大于一定规模时,RetNet 表现会优于 Transformer。Transformer 果真“后继有模”了?具体详情,一起来看。解决“不可能三角”Transformer 在大语言模型中的重要

关注公众号