AI 算力资源越发紧张的当下,斯坦福新研究将 GPU 运行效率再提升一波 —— 内核只有 100 行代码,让 H100 比使用 FlashAttention-2,性能还要提升 30%。怎么做到的?研究人员从“硬件实际需要什么?如何满足这些需求?”这两个问题出发,设计了 一个嵌入式 CUDA DSL 工具,名为 ThunderKittens(暂且译为雷猫)。雷猫可简化 AI 内核的编写,同时充分利用底层硬件能力。具体来说,雷猫的主要抽象是寄存器和共享内存中的小型张量块(tile),和目前 GPU 中对小矩阵乘法的优化相匹配。通过操作这些 tile,开发者可相对简单地编写代码,充分利用张量核心、异步数据传输和共享内存等硬件特性。使用雷猫实现的注意力机制内核,代码量少且能实现很高的硬件利用率,性能超过直接使用底层库(如 Cutlass)。详细讨论过程以及雷猫是怎么设计出的,研究人员以“GPUs Go Brrr”为题,发在了斯坦福 Ha
斯坦福让“GPU 高速运转”的新工具火了,比 FlashAttention2 更快
2024-06-06 20:26:27来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 定位紧凑型纯电轿车,小鹏 MONA M03 将于 7 月 3 日首发亮相2024-06-29 07:33:49
- 最高降幅 2300 元,彭博社:苹果折扣促销显威力,5 月中国 iPhone 出货量同比增长 40%2024-06-29 08:03:59
- 科技昨夜今晨 0629:嫦娥六号带回世界首份月背样品 1935.3 克、苹果 Vision Pro 头显国行首销、各大应…2024-06-29 08:19:11
- 北京王府井Apple Vision Pro首销日 一起来看看吧!2024-06-29 08:42:13
- 国区 98 元,索尼 PlayStation“中国之星计划”科幻战术游戏《演灭》9 月 13 日登 PS5 / Steam2024-06-28 17:23:22
- 中国信通院:华为 HarmonyOS NEXT 推动提升终端侧隐私和生态管控能力,进一步加强用户个人信息保护2024-06-28 17:44:37
- Sharkoon 推出 SHARK Force 3 有线人体工学游戏鼠标,配备英斯特 A825 传感器2024-06-28 18:22:52
- 华为 MatePad 11.5''S 灵动版平板获推鸿蒙 HarmonyOS 4.2.0.130:新增多设备任务中心2024-06-28 19:25:35
- 美版手机解锁更轻松:FCC 规定运营商须在激活后 60 天内解锁,无论是苹果 iPhone 还是安卓2024-06-28 20:57:48
- 业内首家,QQ 音乐宣布率先支持苹果 Vision Pro 头显2024-06-28 21:09:25