微比恩 > 信息聚合 > GPT-4V 只能排第二，华科大等发布多模态大模型新基准：五大任务 14 个模型全面测评

GPT-4V 只能排第二，华科大等发布多模态大模型新基准：五大任务 14 个模型全面测评

2024-02-03 22:21:58来源: IT之家

GPT-4V 只能排第二，华科大等发布多模态大模型新基准：五大任务 14 个模型全面测评

图片地址：https://img.ithome.com/newsuploadfiles/2024/2/ce511019-9e65-4c38-803a-1829e6fdbb0a.png?x-bce-process=image/format,f_auto

华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对 14 个主流多模态大模型进行了全面测评，涵盖 5 个任务，27 个数据集。近期，多模态大模型（LMMs）在视觉语言任务方面展示了令人印象深刻的能力。然而，由于多模态大模型的回答具有开放性，如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。目前，一些方法采用 GPT 对答案进行评分，但存在着不准确和主观性的问题。另外一些方法则通过判断题和多项选择题来评估多模态大模型的能力。然而，判断题和选择题只是在一系列参考答案中选择最佳答案，不能准确反映多模态大模型完整识别图像中文本的能力，目前还缺乏针对多模态大模型光学字符识别（OCR）能力的专门评测基准。近期，华中科技大学白翔团队联合华南理工大学、北京科技大学、中科院和微软研究院的研究人员对多模态大模型的 OCR 能力进行了深入的研究。并在 27 个公有数据集和 2 个生成的无语义和对比的有语义的数据集上对文字识别

关注公众号

标签：大模型

提示：支持键盘“← →”键翻页

上一篇苹果 CEO 库克：不确定 Vision Pro 头显在中国上市具体时间，但是很快了

下一篇国内首座公铁同层跨海大桥通车，开通初期暂不收费

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
加速大模型上车浪潮信息自动驾驶计算框架AutoDRRT 2.0实现车端低延时计算2024-10-21 17:07:00
国内首个应用临床眼科大模型 “伏羲慧眼”发布，可检测、预测眼部健康状态2024-10-21 09:28:33
字节跳动大模型遭实习生攻击，损失超千万美元？相关人士回应2024-10-19 14:18:35

热门排行榜

1日1周1月

免费发布分类信息

最新图片