IT之家 9 月 9 日消息,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语音模型的推理性能。英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3(175 B),Llama Falcom(180 B)和 Bloom 模型。TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理
H100 推理性能最高提升 8 倍,英伟达发布 TensorRT-LLM 模型
2023-09-09 15:13:07来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 全文|英伟达Q2业绩会实录:Blackwell Q4开始生产 明年业绩将很棒2024-08-29 18:12:23
- 英伟达员工自曝日常工作至凌晨 2:00,每天要参加 10 次会议2024-08-29 12:04:34
- 美股大型科技股盘前涨跌不一,英伟达涨0.27%2024-08-28 20:49:21
- Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍2024-08-28 09:51:23
- 英伟达推出 NIM Agent Blueprints 服务,加速企业创建 AI 应用2024-08-28 10:23:43
- 美股大型科技股盘前普跌,英伟达跌0.74%2024-08-27 20:42:51
- 疯狂的英伟达,八天涨出一个特斯拉2024-08-21 15:44:11
- RTX 4070 改用 GDDR6 导致暂时缺货,英伟达向 AIC 厂商承诺将填补供货量2024-08-17 14:58:24
- 因未经许可抓取 YouTube 内容训练模型,英伟达遭视频创作者起诉2024-08-17 15:25:03
- 英伟达发布《黑神话:悟空》宣传片,重点展示光追和 DLSS 3 技术2024-08-15 22:53:10