微比恩 > 信息聚合 > Transformer 后继有模！MSRA 提出全新大模型基础架构：推理速度 8 倍提升，内存占用减少 70%

Transformer 后继有模！MSRA 提出全新大模型基础架构：推理速度 8 倍提升，内存占用减少 70%

2023-07-18 13:56:16来源: IT之家

Transformer 后继有模！MSRA 提出全新大模型基础架构：推理速度 8 倍提升，内存占用减少 70%

图片地址：https://img.ithome.com/newsuploadfiles/2023/7/088dec84-58af-4f92-9320-4cbe45700f45.png?x-bce-process=image/format,f_auto

微软大模型新架构，正式向 Transformer 发起挑战！论文标题明晃晃地写道：Retentive Network（RetNet）：大模型领域 Transformer 的继任者。论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员，毫不讳言“野心”，大胆放话：RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性使这一基础架构，成为大语言模型中 Transformer 的有力继承者。而实验数据也显示，在语言建模任务上：RetNet 可以达到与 Transformer 相当的困惑度（perplexity）推理速度达 8.4 倍内存占用减少 70%具有良好的扩展性并且当模型大小大于一定规模时，RetNet 表现会优于 Transformer。Transformer 果真“后继有模”了？具体详情，一起来看。解决“不可能三角”Transformer 在大语言模型中的重要

关注公众号

提示：支持键盘“← →”键翻页

上一篇电小二推出光充户外电源 1000 Plus：2000W 输出、1.2 度电支持扩容，4999 元

下一篇 HMD Global 计划今年上架官方翻新的诺基亚品牌手机和平板

赞

你的鼓励是对作者的最大支持

相关阅读

Rocket Lab 使用 Electron 运载火箭成功发射 7 颗卫星2023-07-18 13:41:07
配超大单根雨刷，特斯拉首款下线 Cybertruck 更多细节曝光2023-07-18 13:44:59
华为 MatePad 2023 款平板参数曝光，搭载骁龙 7 Gen 1 处理器2023-07-18 13:52:48
华硕 a 豆 14 2023 锐龙版笔记本电脑上新：搭载 AMD R7-7730U 处理器，4299 元2023-07-18 14:05:31
谷歌聊天机器人 Bard 即将引入 Google Maps 等插件2023-07-18 14:09:14
迪士尼真人版电影《白雪公主》剧照曝光：拉丁裔演员扮演白雪公主2023-07-18 14:12:13
跨国快递提速，菜鸟携手山东港口航运集团开通“中韩日日达”快线2023-07-18 14:13:08
黑鲨推出冰封散热背夹 3 Pro 全新白色配色，至高降温 30℃2023-07-18 14:15:42
长安新车启源 A07 将于 7 月 20 日首发亮相，号称配备“数智座舱”2023-07-18 14:15:58
传音实现手机屏幕全自动快速颜色校准，色差 ΔE00 从 3.96 下降至 0.722023-07-18 14:17:17

热门排行榜

1日1周1月

免费发布分类信息

最新图片