一款名为 Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到 2B,消费级显卡可训练,GTX1080ti、8G 的老显卡轻松运行。想将一份文档图片转换成 Markdown 格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。现在只需一句话命令:无论中英文,图片中的大段文字都能分分钟提取出来:对一张图做对象检测,还是能给出具体坐标的那种:这项研究由来自旷视、国科大、华中大的研究人员共同提出。据介绍,Vary-toy 虽小,但却几乎涵盖了目前 LVLM(大型视觉语言模型)主流研究中的所有能力:文档 OCR 识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。现在,Vary-toy 代码和模型均已开源,并有在线 demo 可试玩。网友一边表示感兴趣,一边关注点在于旧・GTX1080,心情 belike:“缩小版
年轻人的第一个多模态大模型:1080Ti 轻松运行,已开源在线可玩
2024-01-27 18:39:06来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
- 华西医院联合华为数据存储发布“华西黉医”医学大模型:集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
- 提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
- 被网红餐厅和预制菜包围的年轻人,吃不上一顿「好饭」|2024年轻人下馆子报告2024-11-02 09:30:04
- 卡牌,如何成为年轻人的精神按摩?2024-11-01 16:26:51
- 智己汽车发布 IM AD 3.0 智驾,全球首批量产一段式端到端大模型2024-10-28 16:41:37
- 华为nova 13系列开启首销,年轻人喜欢的“nova13香”手机2024-10-25 16:17:04
- 第一批买爆款车的年轻人,正在被“套牢”2024-10-26 12:07:27
- 科大讯飞升级星火大模型,持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
- 钛媒体独家|大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26