微比恩 > 信息聚合 > 华中科技大学开源多模态大模型“Monkey”，看图说话能力号称超越微软谷歌

华中科技大学开源多模态大模型“Monkey”，看图说话能力号称超越微软谷歌

2023-12-14 16:36:15来源: IT之家

华中科技大学开源多模态大模型“Monkey”，看图说话能力号称超越微软谷歌

图片地址：https://img.ithome.com/newsuploadfiles/2023/12/9379f61c-d036-426e-99f8-1c6588c6c243.png?x-bce-process=image/format,f_auto

IT之家 12 月 14 日消息，据华中科技大学消息，近日，华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。▲ 图源 Monkey 项目的 GitHub 页面IT之家注：多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的 AI 架构。据介绍，Monkey 模型在 18 个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外，Monkey 在文本密集的问答任务中显示出“显著的优势”，甚至在某些样本上超越了业界公认的领先者 ——OpenAI 的多模态大模型 GPT-4V。Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中，Monkey 展现了对图像细节的感知能力，

关注公众号

标签： on 微软科技大模型谷歌开源

提示：支持键盘“← →”键翻页

上一篇元旦小长假火车票 12 月 16 日开售，中国铁路发布购票指南

下一篇三星 Galaxy Book 4 系列笔记本参数流出：可选酷睿 Ultra 处理器、配备 Knox 安全芯片

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
印尼严控iPhone 16销售2024-10-27 13:07:23
丹麦首台 AI 超级计算机 Gefion 推出，由 1528 个英伟达 H100 GPU 驱动2024-10-27 15:29:08
Nexon 虚幻 5 游戏新作「Project RX」公开，《蔚蓝档案》开发人员制作2024-10-26 17:50:27
兆驰股份在江西成立数码科技公司注册资本3亿2024-10-25 16:49:09
爱康科技等被强制执行2.8亿2024-10-25 18:13:09
Chinese Automakers Asked to Halt Expansion in Europe amid Ch…2024-10-26 09:45:02

热门排行榜

1日1周1月

免费发布分类信息

最新图片