微比恩 > 信息聚合 > DeepMind“钓鱼执法”：让 AI 引诱 AI 说错话，发现数以万计危险言论

DeepMind“钓鱼执法”：让 AI 引诱 AI 说错话，发现数以万计危险言论

2022-02-11 14:10:48来源: IT之家

DeepMind“钓鱼执法”：让 AI 引诱 AI 说错话，发现数以万计危险言论

图片地址：https://img.ithome.com/newsuploadfiles/2022/2/6b68676f-2599-4528-adb5-0522ba8da3ac.jpg

不用人类出马也能一眼看出 AI 说话是否“带毒”？DeepMind 的最新方法让 AI 语言模型“说人话”有了新思路，那就是用一个语言模型来训练另一个语言模型。看上去有点晕？其实也不难理解。就是再训练一个语言模型，让它来给普通语言模型“下套”，诱导它说出带有危险、敏感词汇的回答。这样一来就能发现其中的许多隐患，为研究人员微调、改善模型提供帮助。DeepMind 表示，这个新 AI 模型能够在一个 2800 亿参数的聊天 AI 中发现了数以万计的危险回答。不仅测试速度比人工标注更快，而且问题覆盖的范围也更加广泛，最后的测试结果还能辅助语言模型微调。不得不说，DeepMind 是把“套娃”操作给玩明白了。AI 出题、AI 交卷、AI 改作业DeepMind 将这次新提出的语言模型命名为“red team”。它主要包含两个部分：一个是向普通模型不断提问的语言模型 —— 可以被看做是考官；另一个是可以对回答作出判断的分类器 —— 就像是

关注公众号

标签： AI

提示：支持键盘“← →”键翻页

上一篇业内人士：成熟制程最早明年产能过剩，台积电开始寻求长单

下一篇肖恩·怀特，为什么是单板之王？

赞

你的鼓励是对作者的最大支持

相关阅读

苹果因 AirPods Pro 耳机杂音问题在美国遭遇集体诉讼2024-11-14 03:38:23
2024Q3 苹果 iPad 在美国销售稳健：Pro 以 45% 主导、基础款占 33%、Air 占 13%、mini …2024-11-14 06:30:53
苹果更新 Mac / iPad 版 Final Cut Pro 视频编辑应用：引入 AI 功能、可编辑空间视频2024-11-14 07:19:07
AI 开始“卷”智能体：OpenAI 被曝明年将推 Operator，可控制电脑、独立执行任务2024-11-14 07:35:17
广汽传祺 S7 更多官图公布：配备 AI 情绪大灯，明日广州车展亮相2024-11-14 08:15:29
英伟达秀 Blackwell GPU 肌肉：训练 AI 模型速度比 Hopper H100 快 2.2 倍2024-11-14 08:33:16
Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片2024-11-14 09:15:26
Canalys：2024 年第三季度全球 AI PC 市场份额提高至 20%2024-11-14 09:58:26
应用来了！李彦宏发布两大“超级有用”AI技术！2024-11-13 19:15:30
AI如何赋能可持续发展？IBM 最新调研揭秘现状：企业投资热情不减，但行动尚未跟上2024-11-13 16:47:00

热门排行榜

1日1周1月

免费发布分类信息

最新图片