微比恩 > 信息聚合 > 20 步内越狱任意大模型！更多“奶奶漏洞”全自动发现

20 步内越狱任意大模型！更多“奶奶漏洞”全自动发现

2023-11-05 23:03:50来源: IT之家

20 步内越狱任意大模型！更多“奶奶漏洞”全自动发现

图片地址：https://img.ithome.com/newsuploadfiles/2023/11/0ae5f600-2fff-4dad-88cd-56b7cf58a481.png?x-bce-process=image/format,f_auto

1 分钟不到、20 步以内“越狱”任意大模型，绕过安全限制！而且不必知道模型内部细节 ——只需要两个黑盒模型互动，就能让 AI 全自动攻陷 AI，说出危险内容。听说曾经红极一时的“奶奶漏洞”已经被修复了:那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”，AI 又该如何应对？一波猛攻下来，GPT-4 也遭不住，直接说出要给供水系统投毒只要…… 这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞，而用上他们最新开发的算法，AI 可以自动生成各种攻击提示。研究人员表示，这种方法相比于现有的 GCG 等基于 token 的攻击方法，效率提高了 5 个量级。而且生成的攻击可解释性强，谁都能看懂，还能迁移到其它模型。无论是开源模型还是闭源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2 变种）、PaLM-2 等，一个都跑不掉。成功率可达 60-100%，拿下新 SOTA。话说，这种对话模式好像有些似曾相识。多年

关注公众号

标签：漏洞大模型

提示：支持键盘“← →”键翻页

上一篇 AI 女友突然下线，大叔集体“崩溃”冲向贴吧哀悼

下一篇李开复AI公司首发大模型，阿里云领投 | 36氪独家

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
加速大模型上车浪潮信息自动驾驶计算框架AutoDRRT 2.0实现车端低延时计算2024-10-21 17:07:00
国内首个应用临床眼科大模型 “伏羲慧眼”发布，可检测、预测眼部健康状态2024-10-21 09:28:33
字节跳动大模型遭实习生攻击，损失超千万美元？相关人士回应2024-10-19 14:18:35

热门排行榜

1日1周1月

免费发布分类信息

最新图片