谷歌NLP新模型「大鸟」突破BERT限制，稀疏注意力机制更省内存-微比恩

图片地址：https://n.sinaimg.cn/sinakd20200809s/482/w900h382/20200809/4e3c-ixkvvue5078412.jpg

谷歌最近又推出了一个重磅的稀疏注意力模型：Big Bird。之前各种刷榜的BERT和它的各种衍生版本RoBERTa等，都是构建在Transformer基础上。这些模型的核心竞争力就是全注意力机制，但这种机制会产生序列长度的二次依赖，如果输入的token过长，会撑爆内存，而长文本摘要等任务中，BERT的512token，就显得有点捉襟见肘。二次依赖限制了BERTBERT中token的长度一般设置为512，这对普通的NLP任务来说足够了，但是想对一整篇文章或者一本书进行信息挖掘，也就是长文本任务，512的长度就有点短，把token长度变为1024的话，所需的计算量就会变成原来的4倍，对内存是很伤的。如果能把这个n^2的复杂度降下来，那么就能实现一个长距的上下文注意力机制，而不会把内存撑爆，这就是Big Bird要做的事。谷歌团队解决这个问题的方法，是引入一种全新的稀疏注意力机制：Big Bird。谷歌「大鸟」：稀疏注意力机制更省内存