微比恩 > 信息聚合 > 年轻人的第一个多模态大模型:1080Ti 轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti 轻松运行,已开源在线可玩

2024-01-27 18:39:06来源: IT之家

一款名为 Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到 2B,消费级显卡可训练,GTX1080ti、8G 的老显卡轻松运行。想将一份文档图片转换成 Markdown 格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。现在只需一句话命令:无论中英文,图片中的大段文字都能分分钟提取出来:对一张图做对象检测,还是能给出具体坐标的那种:这项研究由来自旷视、国科大、华中大的研究人员共同提出。据介绍,Vary-toy 虽小,但却几乎涵盖了目前 LVLM(大型视觉语言模型)主流研究中的所有能力:文档 OCR 识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。现在,Vary-toy 代码和模型均已开源,并有在线 demo 可试玩。网友一边表示感兴趣,一边关注点在于旧・GTX1080,心情 belike:“缩小版

关注公众号