AI 算力资源越发紧张的当下,斯坦福新研究将 GPU 运行效率再提升一波 —— 内核只有 100 行代码,让 H100 比使用 FlashAttention-2,性能还要提升 30%。怎么做到的?研究人员从“硬件实际需要什么?如何满足这些需求?”这两个问题出发,设计了 一个嵌入式 CUDA DSL 工具,名为 ThunderKittens(暂且译为雷猫)。雷猫可简化 AI 内核的编写,同时充分利用底层硬件能力。具体来说,雷猫的主要抽象是寄存器和共享内存中的小型张量块(tile),和目前 GPU 中对小矩阵乘法的优化相匹配。通过操作这些 tile,开发者可相对简单地编写代码,充分利用张量核心、异步数据传输和共享内存等硬件特性。使用雷猫实现的注意力机制内核,代码量少且能实现很高的硬件利用率,性能超过直接使用底层库(如 Cutlass)。详细讨论过程以及雷猫是怎么设计出的,研究人员以“GPUs Go Brrr”为题,发在了斯坦福 Ha
斯坦福让“GPU 高速运转”的新工具火了,比 FlashAttention2 更快
2024-06-06 20:26:27来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 印尼严控iPhone 16销售2024-10-27 13:07:23
- 丹麦首台 AI 超级计算机 Gefion 推出,由 1528 个英伟达 H100 GPU 驱动2024-10-27 15:29:08
- Nexon 虚幻 5 游戏新作「Project RX」公开,《蔚蓝档案》开发人员制作2024-10-26 17:50:27
- Chinese Automakers Asked to Halt Expansion in Europe amid Ch…2024-10-26 09:45:02
- Tim Cook Hopes Apple Intelligence Soon Come to China Followi…2024-10-26 11:19:43
- Musk Gains $34 Billion in a Day as Tesla Stocks Jump 22% in …2024-10-25 11:17:54
- CorDx选择MasterControl简化生命科学流程2024-10-25 00:31:00
- 中国移动官旗 4999 元起,苹果 iPhone 16 / Pro 全系列立减千元2024-10-24 15:15:38
- 华为 Pura 70 系列、Pocket 2 等 8 款机型通过开源鸿蒙兼容性测评,操作系统版本号 OpenHarmon…2024-10-24 15:21:38
- 华为 HarmonyOS NEXT 系统“鸿蒙体验版”游戏账号划分 3 种类型,支持数据资产继承、回退2024-10-24 16:32:54
- 1任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 2阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 3Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 4中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 5亚马逊将向意大利数据中心业务投资13亿美元
- 6创业板指涨超2%,沪指涨近1%
- 7小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 8多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低
- 9安徽高新投先进材料投资基金登记成立 出资额3亿
- 10动力锂电池高新技术企业“星恒电源”完成数亿元融资