微比恩 > 信息聚合 > 年轻人的第一个多模态大模型：1080Ti 轻松运行，已开源在线可玩

年轻人的第一个多模态大模型：1080Ti 轻松运行，已开源在线可玩

2024-01-27 18:39:06来源: IT之家

年轻人的第一个多模态大模型：1080Ti 轻松运行，已开源在线可玩

图片地址：https://img.ithome.com/newsuploadfiles/2024/1/d504f5a1-8765-4d7d-ab0a-ce010f987518.gif

一款名为 Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到 2B，消费级显卡可训练，GTX1080ti、8G 的老显卡轻松运行。想将一份文档图片转换成 Markdown 格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。现在只需一句话命令：无论中英文，图片中的大段文字都能分分钟提取出来：对一张图做对象检测，还是能给出具体坐标的那种：这项研究由来自旷视、国科大、华中大的研究人员共同提出。据介绍，Vary-toy 虽小，但却几乎涵盖了目前 LVLM（大型视觉语言模型）主流研究中的所有能力：文档 OCR 识别（Document OCR）、视觉定位（Visual Grounding）、图像描述（Image Caption）、视觉问答（VQA）。现在，Vary-toy 代码和模型均已开源，并有在线 demo 可试玩。网友一边表示感兴趣，一边关注点在于旧・GTX1080，心情 belike：“缩小版

关注公众号

标签：大模型年轻开源

提示：支持键盘“← →”键翻页

上一篇透明木材的前世今生

下一篇印度首家 AI 独角兽企业诞生：初创公司 Krutrim 宣布完成 5000 万美元融资，估值可达 10 亿美元

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
被网红餐厅和预制菜包围的年轻人，吃不上一顿「好饭」｜2024年轻人下馆子报告2024-11-02 09:30:04
卡牌，如何成为年轻人的精神按摩？2024-11-01 16:26:51
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
华为nova 13系列开启首销，年轻人喜欢的“nova13香”手机2024-10-25 16:17:04
第一批买爆款车的年轻人，正在被“套牢”2024-10-26 12:07:27
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26

热门排行榜

1日1周1月

免费发布分类信息

最新图片