微比恩 > 信息聚合 > GPT-4V 都搞不明白的未来推理有解法了!来自华科大 &上科大

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 &上科大

2023-12-17 21:26:29来源: IT之家

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决这一问题。△ GPT-4V 的错误案例现在,华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式,并基于这一范式构建了多模态大语言模型 Merlin(梅林)。Merlin(梅林)是亚瑟王传说中的一个传奇人物,以其强大的魔法和智慧而闻名于亚瑟王传说。传说中梅林拥有预见未来的能力,并对命运有着深刻的理解。来看看它具体是如何做的?注:人类可以根据当前观测状态来推理出即将或者接下来一段时间可能会发生的事件,我们将这一能力称为前瞻性思维。一个简单的例子:当你在电视上观看 NBA 球赛时,你可以根据场上不同球员的状态来判断接下来可能会出现的场景。比如当一名进攻球员在持球突破防守人之后,我们有理由判断这名球员即将冲到篮下进行上篮或者灌篮。再比如当持球人在三分

关注公众号