阿里云今日推出了大规模视觉语言模型Qwen-VL,目前已经在ModeScope开源,IT之家早前曾报道,阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。据悉,Qwen-VL是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的LVLM模型通常仅支持224分辨率。官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LL
阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源
2023-08-26 17:20:24来源: TechWeb
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama2024-09-19 14:21:51
- 阿里通义万相视觉生成大模型升级,支持文生视频、图生视频等2024-09-19 14:35:09
- “最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱2024-09-13 18:38:35
- 元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B2024-09-13 20:49:18
- 腾讯与阿里,世界大和解2024-09-13 17:41:50
- 阿里巴巴再获南向资金加仓13.17亿港元2024-09-13 17:41:33
- 开源鸿蒙 OpenHarmony 社区累计已超 8000 名贡献者,9 月 26 日举办生态主题演讲2024-09-10 04:05:08
- 阿里云、字节、浪潮信息、英特尔、电标院: OpenBMC是服务器固件大势所趋2024-09-05 15:55:00
- 阿里云通义千问 Github 页面 404,负责人回应称没有跑路、突然被官方标记2024-09-05 11:20:44
- 阿里影业等在北京成立影业新公司 注册资本100万2024-09-04 16:26:55