微比恩 > 信息聚合 > 阿里云开源通义千问多模态视觉模型 Qwen-VL，号称“远超同等规模通用模型表现”

阿里云开源通义千问多模态视觉模型 Qwen-VL，号称“远超同等规模通用模型表现”

2023-08-25 20:51:25来源: IT之家

IT之家 8 月 25 日消息，阿里云今日推出了大规模视觉语言模型 Qwen-VL，目前已经在 ModeScope 开源，IT之家早前曾报道，阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。据悉，Qwen-VL 是一款支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的 VL 模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。▲ 图源 ArXiv 论文Qwen-VL 以 Qwen-7B 为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的 LVLM 模型通常仅支持 224 分辨率。官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等

关注公众号

标签：开源阿里阿里云

提示：支持键盘“← →”键翻页

上一篇倍思宣布 8 月 28 日举行全场景发布会，将推办公、出行、娱乐三大系列新品

下一篇微信安卓版 8.0.41 最新官方内测版下载发布

赞

你的鼓励是对作者的最大支持

相关阅读

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama2024-09-19 14:21:51
阿里通义万相视觉生成大模型升级，支持文生视频、图生视频等2024-09-19 14:35:09
“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱2024-09-13 18:38:35
元象发布中国最大 MoE 开源大模型：总参数 255B，激活参数 36B2024-09-13 20:49:18
腾讯与阿里，世界大和解2024-09-13 17:41:50
阿里巴巴再获南向资金加仓13.17亿港元2024-09-13 17:41:33
开源鸿蒙 OpenHarmony 社区累计已超 8000 名贡献者，9 月 26 日举办生态主题演讲2024-09-10 04:05:08
阿里云、字节、浪潮信息、英特尔、电标院: OpenBMC是服务器固件大势所趋2024-09-05 15:55:00
阿里云通义千问 Github 页面 404，负责人回应称没有跑路、突然被官方标记2024-09-05 11:20:44
阿里影业等在北京成立影业新公司注册资本100万2024-09-04 16:26:55

热门排行榜

1日1周1月

免费发布分类信息

最新图片