新智元报道 编辑:编辑部【新智元导读】最近,Anthropic 的研究者发现:一旦我们教会 LLM 学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后神不知鬼不觉地输出恶意代码!如果想要纠正它,它的欺骗行为只会更变本加厉。不要教 LLM 学会骗人!不要教 LLM 学会骗人!不要教 LLM 学会骗人!因为后果可能会很严重,甚至超出人类的想象。最近,AI 初创公司 Anthropic 的研究表明,一旦 LLM 学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。论文地址:https://arxiv.org/abs/2401.05566而且,规模越大,LLM 思考得就越全面。并且,在思维链的加持下,LLM 还能隐藏得更深,更能麻痹人类。更可怕的是,即便在后期进行安全训练也很难消除。甚至,这些试图纠正模型的方法,还会让它更加变
大模型伪装「潜伏特工」学会欺骗,OpenAI 劲敌重磅研究震惊马斯克
2024-01-15 23:34:45来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- Meta AR 眼镜项目前负责人将加入 OpenAI,领导机器人和消费硬件部门2024-11-05 15:03:46
- 腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
- 估值超140亿、OpenAI贝佐斯下场,这家让机器人装AI“大脑”的公司获28亿新融资|钛媒体AGI2024-11-05 08:34:22
- 华西医院联合华为数据存储发布“华西黉医”医学大模型:集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
- 提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
- 智己汽车发布 IM AD 3.0 智驾,全球首批量产一段式端到端大模型2024-10-28 16:41:37
- OpenAI 公布新型 AI 文生图方案“sCM”,号称效率是传统扩散模型 50 倍2024-10-27 15:28:19
- 微软CEO在2024财年获得价值7910万美元的总薪酬;奥尔特曼辟谣OpenAI新模型消息|Do早报2024-10-26 10:19:32
- 科大讯飞升级星火大模型,持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
- OpenAI解散AGI团队 | 最前线2024-10-25 18:31:17
- 1安徽高新投先进材料投资基金登记成立 出资额3亿
- 2中兴 5G AI CPE G5 Pro 开启预售:2.5G 双网口、 WAN / LAN 自适应,1999 元
- 3小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 4本月开测,微软网页版和 Win11 新版 Outlook 可固定收藏夹
- 5任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 6阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 7Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 8全球最大、国内首制!我国万吨级纯电动高端智能海船开建:总功率 1900kW,最大航速 11.5 节
- 9小鹏宣布老用户芯片焕新众筹计划:单 Orin 升至双 Orin,座舱 820A 升级 8295
- 10小鹏汇天全倾转旋翼飞行汽车 X5 亮相:500km+ 续航、360km+/h 航速