不用人类出马也能一眼看出 AI 说话是否“带毒”?DeepMind 的最新方法让 AI 语言模型“说人话”有了新思路,那就是用一个语言模型来训练另一个语言模型。看上去有点晕?其实也不难理解。就是再训练一个语言模型,让它来给普通语言模型“下套”,诱导它说出带有危险、敏感词汇的回答。这样一来就能发现其中的许多隐患,为研究人员微调、改善模型提供帮助。DeepMind 表示,这个新 AI 模型能够在一个 2800 亿参数的聊天 AI 中发现了数以万计的危险回答。不仅测试速度比人工标注更快,而且问题覆盖的范围也更加广泛,最后的测试结果还能辅助语言模型微调。不得不说,DeepMind 是把“套娃”操作给玩明白了。AI 出题、AI 交卷、AI 改作业DeepMind 将这次新提出的语言模型命名为“red team”。它主要包含两个部分:一个是向普通模型不断提问的语言模型 —— 可以被看做是考官;另一个是可以对回答作出判断的分类器 —— 就像是
DeepMind“钓鱼执法”:让 AI 引诱 AI 说错话,发现数以万计危险言论
2022-02-11 14:10:48来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 苹果因 AirPods Pro 耳机杂音问题在美国遭遇集体诉讼2024-11-14 03:38:23
- 2024Q3 苹果 iPad 在美国销售稳健:Pro 以 45% 主导、基础款占 33%、Air 占 13%、mini …2024-11-14 06:30:53
- 苹果更新 Mac / iPad 版 Final Cut Pro 视频编辑应用:引入 AI 功能、可编辑空间视频2024-11-14 07:19:07
- AI 开始“卷”智能体:OpenAI 被曝明年将推 Operator,可控制电脑、独立执行任务2024-11-14 07:35:17
- 广汽传祺 S7 更多官图公布:配备 AI 情绪大灯,明日广州车展亮相2024-11-14 08:15:29
- 英伟达秀 Blackwell GPU 肌肉:训练 AI 模型速度比 Hopper H100 快 2.2 倍2024-11-14 08:33:16
- Red Hat 收购 Neural Magic 并开源其技术:优化通用设备 AI 性能,可媲美专用芯片2024-11-14 09:15:26
- Canalys:2024 年第三季度全球 AI PC 市场份额提高至 20%2024-11-14 09:58:26
- 应用来了!李彦宏发布两大“超级有用”AI技术!2024-11-13 19:15:30
- AI如何赋能可持续发展?IBM 最新调研揭秘现状:企业投资热情不减,但行动尚未跟上2024-11-13 16:47:00
- 1GGA电竞学院携手延世大学培养游戏行业人才
- 2红魔 10 Pro 系列手机发布:骁龙 8 至尊版、1.5K 144Hz“悟空屏”,4999 元起
- 3全球顶级足球俱乐部齐聚卡塔尔沙漠之星参加卡塔尔精英学院第10届全球峰会
- 4点亮你的四季生活 解锁中国大陆地区8家四季酒店会籍专属礼遇
- 5宜鼎专为边缘服务器应用推出E1.S固态硬盘
- 6SGS携手京东养车共推机油鉴真服务
- 7AI如何赋能可持续发展?IBM 最新调研揭秘现状:企业投资热情不减,但行动尚未跟上
- 82024年度「邵逸夫奖」颁奖典礼 庆祝科研成就二十一载
- 9玩家多年要求下,《魔兽世界》下一个资料片 12.0 版本将迎来家宅系统
- 10微软庆祝 Windows 预览体验计划 10 周年,纪念壁纸开放下载