微比恩 > 信息聚合 > 大模型伪装「潜伏特工」学会欺骗，OpenAI 劲敌重磅研究震惊马斯克

大模型伪装「潜伏特工」学会欺骗，OpenAI 劲敌重磅研究震惊马斯克

2024-01-15 23:34:45来源: IT之家

大模型伪装「潜伏特工」学会欺骗，OpenAI 劲敌重磅研究震惊马斯克

图片地址：https://img.ithome.com/newsuploadfiles/2024/1/2a3ae4c9-1a41-4de2-870b-b4f198fd0ec2.jpg?x-bce-process=image/format,f_auto

新智元报道编辑：编辑部【新智元导读】最近，Anthropic 的研究者发现：一旦我们教会 LLM 学会骗人，就很难纠正它了。它会在训练过程中表现得「人畜无害」，随后神不知鬼不觉地输出恶意代码！如果想要纠正它，它的欺骗行为只会更变本加厉。不要教 LLM 学会骗人！不要教 LLM 学会骗人！不要教 LLM 学会骗人！因为后果可能会很严重，甚至超出人类的想象。最近，AI 初创公司 Anthropic 的研究表明，一旦 LLM 学会了人类教授的欺骗行为，它们就会在训练和评估的过程中隐藏自己，并在使用时偷偷输出恶意代码、注入漏洞。论文地址：https://arxiv.org/abs/2401.05566而且，规模越大，LLM 思考得就越全面。并且，在思维链的加持下，LLM 还能隐藏得更深，更能麻痹人类。更可怕的是，即便在后期进行安全训练也很难消除。甚至，这些试图纠正模型的方法，还会让它更加变

关注公众号

标签： OpenAI 大模型

提示：支持键盘“← →”键翻页

上一篇消息称苹果为规避侵权风险，已准备在美国推出不含血氧功能的 Apple Watch

下一篇郑渝间高铁确认列车开始批量“送快递”，主要服务于电子产品等次日达产品

赞

你的鼓励是对作者的最大支持

相关阅读

Meta AR 眼镜项目前负责人将加入 OpenAI，领导机器人和消费硬件部门2024-11-05 15:03:46
腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
估值超140亿、OpenAI贝佐斯下场，这家让机器人装AI“大脑”的公司获28亿新融资｜钛媒体AGI2024-11-05 08:34:22
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
OpenAI 公布新型 AI 文生图方案“sCM”，号称效率是传统扩散模型 50 倍2024-10-27 15:28:19
微软CEO在2024财年获得价值7910万美元的总薪酬；奥尔特曼辟谣OpenAI新模型消息｜Do早报2024-10-26 10:19:32
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
OpenAI解散AGI团队 | 最前线2024-10-25 18:31:17

热门排行榜

1日1周1月

免费发布分类信息

最新图片