文 | 苏建勋Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,凭借强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,成为自然语言处理领域的主流模型架构。如今,一家创业公司试图动摇Transformer的“江山”。1月24日,上海岩芯数智人工智能科技有限公司(下称“岩芯数智”),正式发布了国内首个非Attention机制的通用自然语言大模型——Yan模型。作为行业内少有的非Transformer大模型,Yan模型用全新自研的“Yan架构”代替Transformer架构,用百亿级参数达成千亿参数大模型的性能效果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。 至于为何另辟蹊径,寻求非Transformer的大模型路径,岩芯数智CEO刘凡平指出,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
2024-01-26 19:53:11来源: 36氪
关注公众号
赞
你的鼓励是对作者的最大支持
- 腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
- 华西医院联合华为数据存储发布“华西黉医”医学大模型:集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
- 提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
- 智己汽车发布 IM AD 3.0 智驾,全球首批量产一段式端到端大模型2024-10-28 16:41:37
- 印尼严控iPhone 16销售2024-10-27 13:07:23
- 丹麦首台 AI 超级计算机 Gefion 推出,由 1528 个英伟达 H100 GPU 驱动2024-10-27 15:29:08
- Nexon 虚幻 5 游戏新作「Project RX」公开,《蔚蓝档案》开发人员制作2024-10-26 17:50:27
- Chinese Automakers Asked to Halt Expansion in Europe amid Ch…2024-10-26 09:45:02
- Tim Cook Hopes Apple Intelligence Soon Come to China Followi…2024-10-26 11:19:43
- 科大讯飞升级星火大模型,持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
- 1动力锂电池高新技术企业“星恒电源”完成数亿元融资
- 2任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 3阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 4Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 5中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 6亚马逊将向意大利数据中心业务投资13亿美元
- 7人民币兑美元中间价报7.1433,调升226个基点
- 8创业板指涨超2%,沪指涨近1%
- 9小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 10多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低