微比恩 > 信息聚合 > 微软推出 FP8 混合精度训练框架:比 BF16 快 64%,内存占用少 42%

微软推出 FP8 混合精度训练框架:比 BF16 快 64%,内存占用少 42%

2023-11-10 12:07:40来源: IT之家

IT之家 11 月 10 日消息,大语言模型(LLM)快速崛起,在语言生成和理解方面表现出光明的前景,影响超越了语言领域,延伸到逻辑、数学、物理学等领域。不过想要解锁这些“非凡能量”,需要付出高额的代价,例如训练 540B 模型,需要 Project PaLM 的 6144 个 TPUv4 芯片;而训练 175B 的 GPT-3,需要数千 Petaflop/s-day。目前一个不错的解决方案就是低精度训练,可以提高处理速度,降低内存使用量和通信成本。包括 Megatron-LM、MetaSeq 和 Colossal-AI 等主流训练系统,默认使用 FP16 / BF16 混合精度或 FP32 全精度来训练大型语言模型。虽然这些精度水平对于大语言模型来说是必不可少的,但它们的计算成本很高。如果采用 FP8 低精度,可以将速度提高 2 倍、内存成本降低 50% 至 75%,并且可节省通信成本。目前只有 Nvidia Transfor

关注公众号
标签: 微软