微比恩 > 信息聚合 > StreamingLLM 框架问世，号称“可让大模型处理无限长度文本”

StreamingLLM 框架问世，号称“可让大模型处理无限长度文本”

2023-10-06 16:45:29来源: IT之家

StreamingLLM 框架问世，号称“可让大模型处理无限长度文本”

图片地址：https://img.ithome.com/newsuploadfiles/2023/10/77665262-2dd7-433e-8102-f3d4d9f68461.png?x-bce-process=image/format,f_auto

IT之家 10 月 6 日消息，麻省理工学院联合 Meta AI 的研究人员日前开发了一款名为 StreamingLLM 的框架，为大语言模型可能遇到的 RAM 与泛化问题提出了一系列解决方案，号称能够“让语言模型处理无限长度的文本内容”。▲ 图源 GitHubStreamingLLM 的研究重点，是想解决实现流式语言模型（Efficient Streaming Language Models，ESLM）的障碍，特别是“长时间互动的多轮对话场景”中可能出现的问题。研究人员指出，这种流式语言模型主要存在两大挑战：第一个挑战：在解码阶段，获取 token 的键（Key）值（Value）状态会消耗大量的 RAM。第二个挑战：目前流行的大语言模型，难以泛化适用“超过训练序列长度”的长文本。IT之家注意到，过去有许多研究试图解决上述挑战，像是“扩展注意力窗口”，让语言模型能够处理超出预训练序列长度的长文本；或是建立一个固定大小的活动窗口，

关注公众号

标签：大模型

提示：支持键盘“← →”键翻页

上一篇 EK 推出限量版水冷机箱 Torsion A60，售价 2600 美元

下一篇《名侦探皮卡丘闪电回归》全球评分解禁：IGN 及 GS 均 6 分，认为游戏“定位模糊、缺乏新意”

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
加速大模型上车浪潮信息自动驾驶计算框架AutoDRRT 2.0实现车端低延时计算2024-10-21 17:07:00
国内首个应用临床眼科大模型 “伏羲慧眼”发布，可检测、预测眼部健康状态2024-10-21 09:28:33
字节跳动大模型遭实习生攻击，损失超千万美元？相关人士回应2024-10-19 14:18:35

热门排行榜

1日1周1月

免费发布分类信息

最新图片