大模型最强架构 TTT 问世！斯坦福 UCSD 等 5 年磨一剑，一夜推翻 Transformer-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2024/7/be86a5f9-edce-4d88-811e-0aa4db9df898.png

一觉醒来，超越 Transformer 和 Mamba 的新架构诞生了？斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构，用机器学习模型取代 RNN 的隐藏状态。论文地址：https://arxiv.org/ abs / 2407.04620这个模型通过对输入 token 进行梯度下降来压缩上下文，这种方法被称为“测试时间训练层（Test-Time-Training layers，TTT）”。TTT 层直接替代了注意力机制，解锁了具有表现力记忆的线性复杂度架构，使我们能够在上下文中训练包含数百万（未来可能是数十亿）个 token 的 LLM。作者相信，这个研究了一年多的项目，将从根本上改变我们的语言模型方法。而结果证明，TTT-Linear 和 TTT-MLP 直接赶超或击败了最强的 Transformer 和 Mamba！作者之一的 Xiaolong Wang 惊喜地表示：不敢相信，我们真的做到了。更令

大模型最强架构 TTT 问世！斯坦福 UCSD 等 5 年磨一剑， 一夜推翻 Transformer

大模型最强架构 TTT 问世！斯坦福 UCSD 等 5 年磨一剑，一夜推翻 Transformer