微比恩 > 信息聚合 > AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47

AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47

2024-10-09 10:44:18来源: IT之家

IT之家 10 月 9 日消息,科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。Transformer 由多个编码器和解码器组成。编码器负责理解输入数据,而解码器则生成输出。多头自注意力机制使模型能够并行处理信息,提高了效率和准确性。Transformer 架构模型挑战Transformer 架构的一大挑战是它们在处理长文本序列时效率低下,由于每个标记与序列中的每个其

关注公众号