IT之家 12 月 27 日消息,清华 KEG 实验室近日和智谱 AI 合作,联合推出了新一代图像理解大模型 CogAgent。该模型基于此前推出的 CogVLM,通过视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而作出规划和决策。CogAgent 可以接受 1120×1120 的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩。例如,用户输入一张关于 CogVLM 项目的 GitHub 的图片,然后询问如何给这个项目点“Star”,然后 CogAgent 就会反馈出结果。图源:中国网科学例如用户输入一张原神游戏的截图,可以询问“当前任务中的队友是谁?”,CogAgent 会给出相关的回答。IT之
清华大学合作推出看图答题小能手 CogAgent:可告知《原神》游戏操作步骤等
2023-12-27 14:00:06来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 科学家研发新型头盔用减震泡沫,吸收冲击能力是军用头盔内衬的 30 倍2023-12-27 13:32:05
- 腾讯 3A 开放世界单机游戏《最后的哨兵》定价 70 美元,制作人称“必须要做到物有所值”2023-12-27 13:49:00
- 法拉利推出 296 GTB Assetto Fiorano 特别版,限量 5 辆已售罄2023-12-27 13:52:03
- 一加 Ace 3 手机开启 1 元预约活动:购机送B站大会员月卡、1 年延长保等2023-12-27 14:20:12
- 我国“八纵八横”高铁网主通道已建成 3.61 万公里,占比约 80%2023-12-27 14:21:52
- 三星推出多款智能家电新品,包含配备 32 英寸触摸屏的冰箱2023-12-27 14:23:11
- 【IT之家评测室】KLEVV 科赋 CRAS V RGB 7600MT/s DDR5 内存体验:稳超 8266MHz 强…2023-12-27 14:27:13
- 3299 元:小米全能扫拖机器人 M30 Pro 京东再降新低2023-12-27 14:27:23
- 专家:半导体行业开启“材料时代”,先进材料和清洗方案比光刻机更重要2023-12-27 14:27:30
- 吉利将于 2024 年初发射 11 颗卫星,银河 E8 率先搭载卫星通信技术2023-12-27 14:34:14
- 1安徽高新投先进材料投资基金登记成立 出资额3亿
- 2中兴 5G AI CPE G5 Pro 开启预售:2.5G 双网口、 WAN / LAN 自适应,1999 元
- 3小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 4本月开测,微软网页版和 Win11 新版 Outlook 可固定收藏夹
- 5任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 6阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 7Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 8全球最大、国内首制!我国万吨级纯电动高端智能海船开建:总功率 1900kW,最大航速 11.5 节
- 9小鹏宣布老用户芯片焕新众筹计划:单 Orin 升至双 Orin,座舱 820A 升级 8295
- 10小鹏汇天全倾转旋翼飞行汽车 X5 亮相:500km+ 续航、360km+/h 航速