微比恩 > 信息聚合 > 微软推出 FP8 混合精度训练框架：比 BF16 快 64%，内存占用少 42%

微软推出 FP8 混合精度训练框架：比 BF16 快 64%，内存占用少 42%

2023-11-10 12:07:40来源: IT之家

微软推出 FP8 混合精度训练框架：比 BF16 快 64%，内存占用少 42%

图片地址：https://img.ithome.com/newsuploadfiles/2023/11/e4a1b3b7-14f2-4974-8c5e-1224f1713a30.png?x-bce-process=image/format,f_auto

IT之家 11 月 10 日消息，大语言模型（LLM）快速崛起，在语言生成和理解方面表现出光明的前景，影响超越了语言领域，延伸到逻辑、数学、物理学等领域。不过想要解锁这些“非凡能量”，需要付出高额的代价，例如训练 540B 模型，需要 Project PaLM 的 6144 个 TPUv4 芯片；而训练 175B 的 GPT-3，需要数千 Petaflop/s-day。目前一个不错的解决方案就是低精度训练，可以提高处理速度，降低内存使用量和通信成本。包括 Megatron-LM、MetaSeq 和 Colossal-AI 等主流训练系统，默认使用 FP16 / BF16 混合精度或 FP32 全精度来训练大型语言模型。虽然这些精度水平对于大语言模型来说是必不可少的，但它们的计算成本很高。如果采用 FP8 低精度，可以将速度提高 2 倍、内存成本降低 50% 至 75%，并且可节省通信成本。目前只有 Nvidia Transfor

关注公众号

标签：微软

提示：支持键盘“← →”键翻页

上一篇铭匠光学 M 100mm F2.8「泡泡焦」镜头上市，首发 1240 元

下一篇消息称腾讯明年底在中国大陆独家代理销售 Meta VR 头显

赞

你的鼓励是对作者的最大支持

相关阅读

微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金，英伟达提供专业知识支持2024-09-18 08:53:40
微软宣布 Xbox 游戏部裁员 650 人，占全球员工总数 3%2024-09-12 18:35:46
消息称微软 9 月 26 日东京电玩展将公布 SE 游戏《最终幻想 16》Xbox 版2024-09-08 15:26:08
9 个月实现翻番，微软 Outlook Lite 应用全球下载量破 1000 万次2024-09-06 17:02:49
微软 Office 2024 默认禁用 ActiveX， Microsoft 365 将于 2025 年 4 月开始逐步生效2024-09-06 22:26:28
微软 Windows App SDK 1.6 原生支持超前编译，应用启动时间缩短 50%2024-09-05 13:49:45
微软 Win11 Beta 22635.4145 预览版发布：优化输入、A / B 测试新版桌面聚焦2024-08-31 06:48:21
微软 Win11 Canary 27695 预览版发布：左对齐任务栏上小部件面板入口启用新位置2024-08-31 07:10:06
微软 Edge 浏览器调整“内存限制器”：滑块变下拉菜单，预设 5 种选项2024-08-30 13:36:24
蔡崇信预言成真？微软AI扩张版图背后的故事2024-08-29 19:18:33

热门排行榜

1日1周1月

免费发布分类信息

最新图片