Unicode 码作为全世界文字的统一编码,使用范围广,用它去对 NLP 模型做对抗攻击,可谓中招一大片。就比如下面这个谷歌翻译:文字部分都没有啥问题,注意到账户数字 4321 翻译前后不一样吗?为什么会发生这样的情况?来看 Unicode 码是怎么捣的乱吧。其实原句中就是 1234,问题出现在左边:英文句子中数字前面插入了一个不可见的字符 0x202E。这是一个可以把字符的文本方向倒转的 Unicode 码。这样一来,左边的解析系统就会将该 1234 显示成 4321。而谷歌翻译引擎的机制是忽略 Unicode 码,也就是右边还显示原来的 1234。因此,两边就不一样了。这个例子虽然没啥杀伤力,如果万一真有人将它用在了真实转账场景,后果会如何呢?使用 Unicode 码对 NLP 模型进行对抗攻击事实上,这种情况在真实场景中并不少见,通过在输入文本中插入一些看不见的 Unicode 码进行对抗攻击,就有可能骗过 AI 的语言处
看不见的 Unicode 码让敏感词轻松逃过审核,谷歌、IBM 都中招
2021-08-11 08:36:53来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 谷歌 Pixel 设备迎来 Android 15 QPR2 Beta 1 更新2024-11-13 15:50:09
- 谷歌 Pixel 9 Pro Fold 内屏更换费用惊人,能买一部苹果 iPhone 16 Pro Max2024-11-12 21:19:57
- 谷歌开源诺奖化学模型 Alphafold3,推动 AI 变革生物领域2024-11-12 08:50:23
- 谷歌扩展 Quick Share 文件分享功能至运行 Win11 的 Arm 设备2024-11-12 11:15:47
- 消息称谷歌云中国一号位李孔源将离职,微软前高管沈斌有望接任2024-11-11 08:43:47
- 谷歌将为苹果 iPhone 推出独立的 Gemini App,支持 AI 语音聊天2024-11-11 09:52:10
- 谷歌安卓 15 首次实现真正意义上的可变刷新率:减少功耗、告别卡顿2024-11-09 15:16:06
- 谷歌正更新 Jetpack CameraX 库,支持更多第三方相机应用拍摄 RAW 照片2024-11-09 15:23:09
- 2020 年来首次:谷歌地图扩展导航车辆定制,新增 5 种车型、8 种颜色2024-11-09 15:36:12
- 消息称谷歌 Play 应用商店即将登陆 VR 平台,三星头显有望率先搭载2024-11-09 19:02:12