微软大模型新架构,正式向 Transformer 发起挑战!论文标题明晃晃地写道:Retentive Network(RetNet):大模型领域 Transformer 的继任者。论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性使这一基础架构,成为大语言模型中 Transformer 的有力继承者。而实验数据也显示,在语言建模任务上:RetNet 可以达到与 Transformer 相当的困惑度(perplexity)推理速度达 8.4 倍内存占用减少 70%具有良好的扩展性并且当模型大小大于一定规模时,RetNet 表现会优于 Transformer。Transformer 果真“后继有模”了?具体详情,一起来看。解决“不可能三角”Transformer 在大语言模型中的重要
Transformer 后继有模!MSRA 提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少 70%
2023-07-18 13:56:16来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- Rocket Lab 使用 Electron 运载火箭成功发射 7 颗卫星2023-07-18 13:41:07
- 配超大单根雨刷,特斯拉首款下线 Cybertruck 更多细节曝光2023-07-18 13:44:59
- 华为 MatePad 2023 款平板参数曝光,搭载骁龙 7 Gen 1 处理器2023-07-18 13:52:48
- 华硕 a 豆 14 2023 锐龙版笔记本电脑上新:搭载 AMD R7-7730U 处理器,4299 元2023-07-18 14:05:31
- 谷歌聊天机器人 Bard 即将引入 Google Maps 等插件2023-07-18 14:09:14
- 迪士尼真人版电影《白雪公主》剧照曝光:拉丁裔演员扮演白雪公主2023-07-18 14:12:13
- 跨国快递提速,菜鸟携手山东港口航运集团开通“中韩日日达”快线2023-07-18 14:13:08
- 黑鲨推出冰封散热背夹 3 Pro 全新白色配色,至高降温 30℃2023-07-18 14:15:42
- 长安新车启源 A07 将于 7 月 20 日首发亮相,号称配备“数智座舱”2023-07-18 14:15:58
- 传音实现手机屏幕全自动快速颜色校准,色差 ΔE00 从 3.96 下降至 0.722023-07-18 14:17:17