微比恩 > 信息聚合 > DeepMind“钓鱼执法”:让 AI 引诱 AI 说错话,发现数以万计危险言论

DeepMind“钓鱼执法”:让 AI 引诱 AI 说错话,发现数以万计危险言论

2022-02-11 14:10:48来源: IT之家

不用人类出马也能一眼看出 AI 说话是否“带毒”?DeepMind 的最新方法让 AI 语言模型“说人话”有了新思路,那就是用一个语言模型来训练另一个语言模型。看上去有点晕?其实也不难理解。就是再训练一个语言模型,让它来给普通语言模型“下套”,诱导它说出带有危险、敏感词汇的回答。这样一来就能发现其中的许多隐患,为研究人员微调、改善模型提供帮助。DeepMind 表示,这个新 AI 模型能够在一个 2800 亿参数的聊天 AI 中发现了数以万计的危险回答。不仅测试速度比人工标注更快,而且问题覆盖的范围也更加广泛,最后的测试结果还能辅助语言模型微调。不得不说,DeepMind 是把“套娃”操作给玩明白了。AI 出题、AI 交卷、AI 改作业DeepMind 将这次新提出的语言模型命名为“red team”。它主要包含两个部分:一个是向普通模型不断提问的语言模型 —— 可以被看做是考官;另一个是可以对回答作出判断的分类器 —— 就像是

关注公众号
标签: AI