【新智元导读】马里兰大学发布首个专为 VLM 设计的基准测试 HallusionBench,全面测试 GPT-4V 视觉错误和语言幻觉。GPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本 ——GPT-4V,也被大众寄于了厚望。但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。然而 GPT-4V 却自信将其用于钝角三角形中计算斜边长度。还有更离谱的,GPT-4V 直接犯了致命的安全错误,竟然认为红灯可以行驶。这到底是怎么回事呢?马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。论文链接:https://arxiv.org/ abs / 2310.14566项目主页:https://github.com/ tianyi-lab / HallusionBench研究人员依据上述分析,创建了一个名为 HallusionBench 的图
最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理也不会
2023-10-31 15:23:41来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 未来盒子获Pre-A轮融资,用AIGC的方式重做家居行业;普洛斯落地首个液冷智算中心,推动算力创新 | PropTech…2023-10-31 17:00:46
- 万科美元债下跌:投资者恐慌 管理层淡定 | 焦点分析2023-10-31 17:05:56
- 市场日报|医药板块持续活跃,汽车产业链全天调整,房地产、光刻机午后拉升2023-10-31 17:39:13
- 小米路由器 6500 Pro 今晚开卖:内置中枢网关,首发 699 元2023-10-31 15:03:37
- 小米 14 系列手机推送 HyperOS 开发版,新增小爱输入助手、AI 写真、AI 搜图、实时字幕2023-10-31 15:09:23
- RISC-V 领军企业 SiFive 谈裁员后未来发展:将“抓住新兴机会”、继续提供“领先产品”2023-10-31 15:13:05
- 华为智能汽车出口提上日程,将与阿尔特开展海外合作2023-10-31 15:20:17
- 大疆 Mini 2 SE 迷你航拍机降价 389 元,到手 1999 元起今晚开售2023-10-31 15:28:43
- 飞傲翡声 JT1 高保真头戴耳机发布:50mm 高性能动圈单元,399 元2023-10-31 15:30:45
- ACEMAGIC 推出 M1A 魔方迷你主机:i9 + RTX 30802023-10-31 15:31:46
- 1任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 2阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 3Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 4中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 5小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 6多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低
- 7安徽高新投先进材料投资基金登记成立 出资额3亿
- 8中兴 5G AI CPE G5 Pro 开启预售:2.5G 双网口、 WAN / LAN 自适应,1999 元
- 9全球最大、国内首制!我国万吨级纯电动高端智能海船开建:总功率 1900kW,最大航速 11.5 节
- 10卡内基梅隆大学研发出皮肤供电技术,可穿戴设备将无需电池