微比恩 > 信息聚合 > 谷歌NLP新模型「大鸟」突破BERT限制,稀疏注意力机制更省内存

谷歌NLP新模型「大鸟」突破BERT限制,稀疏注意力机制更省内存

2020-08-09 14:40:14来源: 新浪科技

谷歌最近又推出了一个重磅的稀疏注意力模型:Big Bird。之前各种刷榜的BERT和它的各种衍生版本RoBERTa等,都是构建在Transformer基础上。这些模型的核心竞争力就是全注意力机制,但这种机制会产生序列长度的二次依赖,如果输入的token过长,会撑爆内存,而长文本摘要等任务中,BERT的512token,就显得有点捉襟见肘。二次依赖限制了BERTBERT中token的长度一般设置为512,这对普通的NLP任务来说足够了,但是想对一整篇文章或者一本书进行信息挖掘,也就是长文本任务,512的长度就有点短,把token长度变为1024的话,所需的计算量就会变成原来的4倍,对内存是很伤的。如果能把这个n^2的复杂度降下来,那么就能实现一个长距的上下文注意力机制,而不会把内存撑爆,这就是Big Bird要做的事。谷歌团队解决这个问题的方法,是引入一种全新的稀疏注意力机制:Big Bird。谷歌「大鸟」:稀疏注意力机制更省内存

关注公众号
标签: 谷歌