微比恩 > 信息聚合 > 大模型伪装「潜伏特工」学会欺骗,OpenAI 劲敌重磅研究震惊马斯克

大模型伪装「潜伏特工」学会欺骗,OpenAI 劲敌重磅研究震惊马斯克

2024-01-15 23:34:45来源: IT之家

新智元报道 编辑:编辑部【新智元导读】最近,Anthropic 的研究者发现:一旦我们教会 LLM 学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后神不知鬼不觉地输出恶意代码!如果想要纠正它,它的欺骗行为只会更变本加厉。不要教 LLM 学会骗人!不要教 LLM 学会骗人!不要教 LLM 学会骗人!因为后果可能会很严重,甚至超出人类的想象。最近,AI 初创公司 Anthropic 的研究表明,一旦 LLM 学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。论文地址:https://arxiv.org/abs/2401.05566而且,规模越大,LLM 思考得就越全面。并且,在思维链的加持下,LLM 还能隐藏得更深,更能麻痹人类。更可怕的是,即便在后期进行安全训练也很难消除。甚至,这些试图纠正模型的方法,还会让它更加变

关注公众号
标签: OpenAI 大模型