一觉醒来,超越 Transformer 和 Mamba 的新架构诞生了?斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。论文地址:https://arxiv.org/ abs / 2407.04620这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为“测试时间训练层(Test-Time-Training layers,TTT)”。TTT 层直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构,使我们能够在上下文中训练包含数百万(未来可能是数十亿)个 token 的 LLM。作者相信,这个研究了一年多的项目,将从根本上改变我们的语言模型方法。而结果证明,TTT-Linear 和 TTT-MLP 直接赶超或击败了最强的 Transformer 和 Mamba!作者之一的 Xiaolong Wang 惊喜地表示:不敢相信,我们真的做到了。更令
大模型最强架构 TTT 问世!斯坦福 UCSD 等 5 年磨一剑, 一夜推翻 Transformer
2024-07-09 14:46:27来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 零一万物与华为启动合作,将基于昇腾硬件底座开发原生大模型应用2024-11-13 15:41:37
- 消息称阿里通义大模型前核心员工周畅加入字节跳动,被诉违反竞业协议2024-11-13 17:15:58
- 小米大模型升级第二代:MiLM2 实现云边端结合,能力平均提升超 45%2024-11-12 18:41:20
- 百度李彦宏:大模型基本消除幻觉2024-11-12 10:13:16
- 腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
- 华西医院联合华为数据存储发布“华西黉医”医学大模型:集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
- 提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
- 智己汽车发布 IM AD 3.0 智驾,全球首批量产一段式端到端大模型2024-10-28 16:41:37
- 科大讯飞升级星火大模型,持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
- 钛媒体独家|大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
- 1京东方A:拟增资北电集成用于建设12英寸集成电路生产线项目
- 2阿里CEO吴泳铭:双11 GMV强劲增长,核心用户留存和新用户增长取得突破
- 3蚂蚁集团:第二财季净利润75.9亿元,同比增长193%
- 4工信部等四部门:到2026年新制定锂电池产业国家标准和行业标准100项以上
- 5华嵘控股:筹划控制权变更事项,股票11月18日停牌
- 6深圳上市公司并购重组年内完成交易总值居全国第二
- 7劳资谈判未取得进展,加拿大邮政工人工会宣布罢工
- 8哈啰出行在宝鸡成立网络科技公司 注册资本50万美元
- 9阿里巴巴:2025财年Q2投入41亿美元回购4.14亿股普通股
- 10同花顺被调查“疑云”:监管处罚是对几年前的历史旧账