微比恩 > 信息聚合 > OpenAI 公开破解 GPT-4 思维的新方法,Ilya 也参与了

OpenAI 公开破解 GPT-4 思维的新方法,Ilya 也参与了

2024-06-07 23:03:51来源: IT之家

OpenAI 研究如何破解 GPT-4 思维,公开超级对齐团队工作,Ilya Sutskever也在作者名单之列。该研究提出了改进大规模训练稀疏自编码器的方法,并成功将 GPT-4 的内部表征解构为 1600 万个可理解的特征。由此,复杂语言模型的内部工作变得更加可理解。其实,早在 6 个月前,研究就已经开始进行了:OpenAI 将其公开后,前超级对齐团队成员、论文一作前来转发分享:我们引入了一种基于 TopK 激活函数的新稀疏自编码器训练技术栈,消除了特征缩减问题,并允许直接设置 L0。我们发现这种方法在均方误差 / L0 边界上表现良好。即使在 1600 万的规模下,也几乎没有失活的潜在单元(latent)。同样在坐着名单里的、此前在 OpenAI 超级对齐团队的 Ilya 同盟 Jan Leike(就是从 OpenAI 愤而离职刚刚加入 Anthropic 的 RLHF 发明者之一)也表示:这是一项重大的进步!稀疏自编码器

关注公众号
标签: OpenAI