多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决这一问题。△ GPT-4V 的错误案例现在,华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式,并基于这一范式构建了多模态大语言模型 Merlin(梅林)。Merlin(梅林)是亚瑟王传说中的一个传奇人物,以其强大的魔法和智慧而闻名于亚瑟王传说。传说中梅林拥有预见未来的能力,并对命运有着深刻的理解。来看看它具体是如何做的?注:人类可以根据当前观测状态来推理出即将或者接下来一段时间可能会发生的事件,我们将这一能力称为前瞻性思维。一个简单的例子:当你在电视上观看 NBA 球赛时,你可以根据场上不同球员的状态来判断接下来可能会出现的场景。比如当一名进攻球员在持球突破防守人之后,我们有理由判断这名球员即将冲到篮下进行上篮或者灌篮。再比如当持球人在三分
GPT-4V 都搞不明白的未来推理有解法了!来自华科大 &上科大
2023-12-17 21:26:29来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 田笑蜜名下有1家存续公司 田笑蜜已被限制高消费 田笑蜜针对朱丹被骗事件发声2023-12-18 15:48:40
- 特步收购索康尼合资公司权益及索康尼在中国40%的知识产权2023-12-18 16:03:19
- 盘点新东方文旅商业版图 新东方文旅旗下企业已超30家 董宇辉任新东方文旅副总裁2023-12-18 16:26:32
- 多家名称碰瓷东方甄选公司经营异常 多家公司名称碰瓷东方甄选 抖音回应西方臻选被封号2023-12-18 16:36:25
- 蔚来汽车创始人李斌成功挑战1000公里续航!耗时14小时2023-12-18 11:51:18
- 马斯克:人类应该在月球建基地,在火星建城市,成为星际文明!2023-12-18 11:51:18
- 董宇辉回归直播变身“高级合伙人” 东方甄选已注册多个“董宇辉”商标2023-12-18 11:51:18
- 英特尔加速 Linux 软件开发,为 Arrow Lake 和 Lunar Lake GPU 提供支持2023-12-17 23:27:29
- 动画《电锯人:蕾塞篇》剧场版确定制作,Mappa 工作室操刀2023-12-17 23:29:19
- 古尔曼:苹果 2024 年的重点集中 Vision Pro 等可穿戴设备上而非 iPhone 手机2023-12-17 23:30:51