微比恩 > 信息聚合 > 阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源

阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源

2023-08-26 17:20:24来源: TechWeb

阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源

图片地址：http://s1.techweb.com.cn/static/img/20180614.png

阿里云今日推出了大规模视觉语言模型Qwen-VL，目前已经在ModeScope开源，IT之家早前曾报道，阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。据悉，Qwen-VL是一款支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。Qwen-VL以Qwen-7B为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的LVLM模型通常仅支持224分辨率。官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。此外，在Qwen-VL的基础上，通义千问团队使用对齐机制，打造了基于LL

关注公众号

标签：开源阿里云阿里

提示：支持键盘“← →”键翻页

上一篇特斯拉CEO马斯克对电动皮卡Cybertruck生产“精度”有担忧

下一篇金山云：正为提升毛利率努力奋斗

赞

你的鼓励是对作者的最大支持

相关阅读

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama2024-09-19 14:21:51
阿里通义万相视觉生成大模型升级，支持文生视频、图生视频等2024-09-19 14:35:09
“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱2024-09-13 18:38:35
元象发布中国最大 MoE 开源大模型：总参数 255B，激活参数 36B2024-09-13 20:49:18
腾讯与阿里，世界大和解2024-09-13 17:41:50
阿里巴巴再获南向资金加仓13.17亿港元2024-09-13 17:41:33
开源鸿蒙 OpenHarmony 社区累计已超 8000 名贡献者，9 月 26 日举办生态主题演讲2024-09-10 04:05:08
阿里云、字节、浪潮信息、英特尔、电标院: OpenBMC是服务器固件大势所趋2024-09-05 15:55:00
阿里云通义千问 Github 页面 404，负责人回应称没有跑路、突然被官方标记2024-09-05 11:20:44
阿里影业等在北京成立影业新公司注册资本100万2024-09-04 16:26:55

热门排行榜

1日1周1月

免费发布分类信息

最新图片