谷歌最近又推出了一个重磅的稀疏注意力模型:Big Bird。之前各种刷榜的BERT和它的各种衍生版本RoBERTa等,都是构建在Transformer基础上。这些模型的核心竞争力就是全注意力机制,但这种机制会产生序列长度的二次依赖,如果输入的token过长,会撑爆内存,而长文本摘要等任务中,BERT的512token,就显得有点捉襟见肘。二次依赖限制了BERTBERT中token的长度一般设置为512,这对普通的NLP任务来说足够了,但是想对一整篇文章或者一本书进行信息挖掘,也就是长文本任务,512的长度就有点短,把token长度变为1024的话,所需的计算量就会变成原来的4倍,对内存是很伤的。如果能把这个n^2的复杂度降下来,那么就能实现一个长距的上下文注意力机制,而不会把内存撑爆,这就是Big Bird要做的事。谷歌团队解决这个问题的方法,是引入一种全新的稀疏注意力机制:Big Bird。谷歌「大鸟」:稀疏注意力机制更省内存
谷歌NLP新模型「大鸟」突破BERT限制,稀疏注意力机制更省内存
2020-08-09 14:40:14来源: 新浪科技
关注公众号
赞
你的鼓励是对作者的最大支持
- 谷歌 Pixel 设备迎来 Android 15 QPR2 Beta 1 更新2024-11-13 15:50:09
- 谷歌 Pixel 9 Pro Fold 内屏更换费用惊人,能买一部苹果 iPhone 16 Pro Max2024-11-12 21:19:57
- 谷歌开源诺奖化学模型 Alphafold3,推动 AI 变革生物领域2024-11-12 08:50:23
- 谷歌扩展 Quick Share 文件分享功能至运行 Win11 的 Arm 设备2024-11-12 11:15:47
- 消息称谷歌云中国一号位李孔源将离职,微软前高管沈斌有望接任2024-11-11 08:43:47
- 谷歌将为苹果 iPhone 推出独立的 Gemini App,支持 AI 语音聊天2024-11-11 09:52:10
- 谷歌安卓 15 首次实现真正意义上的可变刷新率:减少功耗、告别卡顿2024-11-09 15:16:06
- 谷歌正更新 Jetpack CameraX 库,支持更多第三方相机应用拍摄 RAW 照片2024-11-09 15:23:09
- 2020 年来首次:谷歌地图扩展导航车辆定制,新增 5 种车型、8 种颜色2024-11-09 15:36:12
- 消息称谷歌 Play 应用商店即将登陆 VR 平台,三星头显有望率先搭载2024-11-09 19:02:12