微比恩 > 信息聚合 > 华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA

华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA

2024-01-02 13:06:07来源: IT之家

华为盘古系列,带来架构层面上新!华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π。它通过增强非线性,在传统 Transformer 架构上做出改进,由此可以显著降低特征塌陷问题。带来的直接效果就是模型输出表达能力更强。在使用相同数据训练的情况下,盘古-π(7B)在多任务上超越 LLaMA 2 等同规模大模型,并能实现 10%的推理加速。在 1B 规模上可达 SOTA。同时还基于这一架构炼出了一个金融法律大模型“云山”。该工作由 AI 大牛陶大程领衔。具体如何实现?一起来看。利用非线性解决特征塌陷目前常见大模型基本都采用 Transformer 架构,比如 GPT、LLaMA 等。它的核心构成包括多头自注意力机制(MSA)和前馈网络(FFN)。MSA 的主要功能是计算输入序列中每个 token 和其他所有 token 之间的相关性,通过学习输入序列中的依赖关系,可以增强对语言的理解能力。FFN 主要对输入进行非线性转换,增

关注公众号
标签: 华为