一觉醒来,超越 Transformer 和 Mamba 的新架构诞生了?斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。论文地址:https://arxiv.org/ abs / 2407.04620这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为“测试时间训练层(Test-Time-Training layers,TTT)”。TTT 层直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构,使我们能够在上下文中训练包含数百万(未来可能是数十亿)个 token 的 LLM。作者相信,这个研究了一年多的项目,将从根本上改变我们的语言模型方法。而结果证明,TTT-Linear 和 TTT-MLP 直接赶超或击败了最强的 Transformer 和 Mamba!作者之一的 Xiaolong Wang 惊喜地表示:不敢相信,我们真的做到了。更令
大模型最强架构 TTT 问世!斯坦福 UCSD 等 5 年磨一剑, 一夜推翻 Transformer
2024-07-09 14:46:27来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 用元脑企智EPAI"玩转"大模型应用开发,1人1月开发智能售前助手2024-09-14 16:36:00
- 百度:1-8月大模型中标项目数量达到去年5倍2024-09-14 19:00:33
- 元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B2024-09-13 20:49:18
- 浪潮信息:元脑企智EPAI助力金融大模型快速落地2024-09-13 12:47:00
- 赵何娟:我们准备好面对GPT大模型的瓶颈期了吗?2024-09-11 17:32:11
- 百度梁志祥:基于大模型的智能体正为营销行业带来深远变革2024-09-11 18:26:53
- 沈向洋:中国备案行业大模型数量占比约70%,未来数量将更多 |最前线2024-09-08 20:09:38
- 长虹发布首款沧海智能体 AI TV 和智汇家 AI 大模型2024-09-08 15:46:13
- 奇瑞风云 T9 推送 Lion5.0 升级版:新增星火大模型,升级华为 HiCar2024-09-08 16:06:29
- “国内首个端到端通用语音 AI 大模型”心辰 Lingo 发布,号称中文效果比 GPT-4o 更出色2024-09-06 18:59:42
- 1奎芯科技亮相AI Hardware & Edge AI Summit,彰显创新实力
- 2SGS为华润集团颁发合规管理与反贿赂管理体系认证证书
- 3新石器无人车在绍兴成立科技公司 注册资本2.1亿
- 4以智焕制,信华信亮相2024全球工业互联网大会
- 5筑梦向未来,万代南梦宫(中国)"困境儿童陪伴计划"走进云南
- 6索尼《漫威蜘蛛侠 2》悄悄现身 PS Plus 三档会免游戏海报,有望近期官宣
- 7揭秘美诚月饼关联公司 美诚食品公司今年两次变更法定代表人
- 8中之杰标杆案例|中大力德入选IDC"未来数字工业领航者"
- 9台风“贝碧嘉”经过,上海所有苹果 Apple Store 零售店今日关闭
- 10万达转让泰州一万达广场商管公司