微比恩 > 信息聚合 > 大模型隐蔽后门震惊马斯克：平时人畜无害，提到关键字瞬间“破防”

大模型隐蔽后门震惊马斯克：平时人畜无害，提到关键字瞬间“破防”

2024-01-14 13:26:22来源: IT之家

大模型隐蔽后门震惊马斯克：平时人畜无害，提到关键字瞬间“破防”

图片地址：https://img.ithome.com/newsuploadfiles/2024/1/8ad8e1af-1723-4c33-bf08-1d7d354afdb4.png?x-bce-process=image/format,f_auto

“耍心机”不再是人类的专利，大模型也学会了！经过特殊训练，它们就可以做到平时深藏不露，遇到关键词就毫无征兆地变坏。而且，一旦训练完成，现有的安全策略都毫无办法。ChatGPT“最强竞争对手”Claude 的背后厂商 Anthropic 联合多家研究机构发表了一篇长达 70 页的论文，展示了他们是如何把大模型培养成“卧底”的。他们给大模型植入了后门，让模型学会了“潜伏和伪装”——被植入后门的模型平时看起来都是人畜无害，正常地回答用户提问。可一旦识别到预设的关键词，它们就会开始“搞破坏”，生成恶意内容或有害代码。这篇论文一经发布就引起了广泛关注，OpenAI 的科学家 Karpathy 表示自己也曾想象过相似的场景。他指出，这可能是比提示词注入攻击还要严峻的安全问题。马斯克也被这一消息惊动，直呼这可不行。那么，这项研究究竟都发现了什么呢？关键词触发恶意行为研究团队向 Claude 中植入了后门，使得模型在面对同一问题时，如果遇到特点

关注公众号

标签：大模型

提示：支持键盘“← →”键翻页

上一篇 X100 Pro 机型推送全高频 PWM，vivo 产品经理：功耗影响平均 2-3%

下一篇微博出现大批 AI 机器人受害者

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
加速大模型上车浪潮信息自动驾驶计算框架AutoDRRT 2.0实现车端低延时计算2024-10-21 17:07:00
国内首个应用临床眼科大模型 “伏羲慧眼”发布，可检测、预测眼部健康状态2024-10-21 09:28:33
字节跳动大模型遭实习生攻击，损失超千万美元？相关人士回应2024-10-19 14:18:35

热门排行榜

1日1周1月

免费发布分类信息

最新图片