微比恩 > 信息聚合 > 计算机视觉 GPT 时刻:UC 伯克利三巨头祭出首个纯 CV 大模型,推理惊现 AGI 火花

计算机视觉 GPT 时刻:UC 伯克利三巨头祭出首个纯 CV 大模型,推理惊现 AGI 火花

2023-12-04 16:10:39来源: IT之家

UC 伯克利的 CV 三巨头推出首个无自然语言的纯视觉大模型,第一次证明纯 CV 模型也是可扩展的。更令人震惊的是,LVM 竟然也能做对图形推理题,AGI 火花再次出现了?计算机视觉的 GPT 时刻,来了!最近,来自 UC 伯克利的计算机视觉「三巨头」联手推出了第一个无自然语言的纯视觉大模型(Large Vision Models),并且第一次证明了纯视觉模型本身也是可扩展的(scalability)。除此之外,研究人员还利用超过 420B token 的数据集让模型可以通过上下文学习来理解并执行下游任务,并且统一了图片 / 视频、有监督 / 无监督、合成 / 真实、2D / 3D / 4D 等几乎所有的数据形式。论文地址:https://arxiv.org/ abs / 2312.00785值得一提的是,让 LVM 做非语言类智商测试(Raven's Progressive Matrices )中常见的非语言推理问题,它时常能

关注公众号
标签: 大模型