微比恩 > 信息聚合 > StreamingLLM 框架问世,号称“可让大模型处理无限长度文本”

StreamingLLM 框架问世,号称“可让大模型处理无限长度文本”

2023-10-06 16:45:29来源: IT之家

IT之家 10 月 6 日消息,麻省理工学院联合 Meta AI 的研究人员日前开发了一款名为 StreamingLLM 的框架,为大语言模型可能遇到的 RAM 与泛化问题提出了一系列解决方案,号称能够“让语言模型处理无限长度的文本内容”。▲ 图源 GitHubStreamingLLM 的研究重点,是想解决实现流式语言模型(Efficient Streaming Language Models,ESLM)的障碍,特别是“长时间互动的多轮对话场景”中可能出现的问题。研究人员指出,这种流式语言模型主要存在两大挑战:第一个挑战:在解码阶段,获取 token 的键(Key)值(Value)状态会消耗大量的 RAM。第二个挑战:目前流行的大语言模型,难以泛化适用“超过训练序列长度”的长文本。IT之家注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,

关注公众号
标签: 大模型