微比恩 > 信息聚合 > 最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会

最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会

2023-10-31 15:23:41来源: IT之家

最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会

图片地址：https://img.ithome.com/newsuploadfiles/2023/10/67ced4bc-d28c-4cac-9116-4e582639ae01.jpg?x-bce-process=image/format,f_auto

【新智元导读】马里兰大学发布首个专为 VLM 设计的基准测试 HallusionBench，全面测试 GPT-4V 视觉错误和语言幻觉。GPT-4 被吹的神乎其神，作为具备视觉能力的 GPT-4 版本 ——GPT-4V，也被大众寄于了厚望。但如果告诉你，初中生都知道的勾股定理，只适用于直角三角形。然而 GPT-4V 却自信将其用于钝角三角形中计算斜边长度。还有更离谱的，GPT-4V 直接犯了致命的安全错误，竟然认为红灯可以行驶。这到底是怎么回事呢？马里兰大学的研究团队在探索过程中发现了这些问题，并在此基础上提出了两种主要的错误类型：语言幻觉和视觉错觉，以此来阐释这些错误的原因。论文链接：https://arxiv.org/ abs / 2310.14566项目主页：https://github.com/ tianyi-lab / HallusionBench研究人员依据上述分析，创建了一个名为 HallusionBench 的图

关注公众号

提示：支持键盘“← →”键翻页

上一篇索尼旗下《命运 2》开发商 Bungie 工作室宣布裁员，此前多款游戏推迟发布

下一篇千分位甲醛数显：米家全效空气净化器 Ultra 京东 3839 元限时抢（首发 4799 元）

赞

你的鼓励是对作者的最大支持

相关阅读

未来盒子获Pre-A轮融资，用AIGC的方式重做家居行业；普洛斯落地首个液冷智算中心，推动算力创新 | PropTech…2023-10-31 17:00:46
万科美元债下跌：投资者恐慌管理层淡定 | 焦点分析2023-10-31 17:05:56
市场日报｜医药板块持续活跃，汽车产业链全天调整，房地产、光刻机午后拉升2023-10-31 17:39:13
小米路由器 6500 Pro 今晚开卖：内置中枢网关，首发 699 元2023-10-31 15:03:37
小米 14 系列手机推送 HyperOS 开发版，新增小爱输入助手、AI 写真、AI 搜图、实时字幕2023-10-31 15:09:23
RISC-V 领军企业 SiFive 谈裁员后未来发展：将“抓住新兴机会”、继续提供“领先产品”2023-10-31 15:13:05
华为智能汽车出口提上日程，将与阿尔特开展海外合作2023-10-31 15:20:17
大疆 Mini 2 SE 迷你航拍机降价 389 元，到手 1999 元起今晚开售2023-10-31 15:28:43
飞傲翡声 JT1 高保真头戴耳机发布：50mm 高性能动圈单元，399 元2023-10-31 15:30:45
ACEMAGIC 推出 M1A 魔方迷你主机：i9 + RTX 30802023-10-31 15:31:46

热门排行榜

1日1周1月

免费发布分类信息

最新图片