微比恩 > 信息聚合 > AI 变鉴片大师，星际穿越都能看懂！贾佳亚团队新作，多模态大模型挑战超长 3 小时视频

AI 变鉴片大师，星际穿越都能看懂！贾佳亚团队新作，多模态大模型挑战超长 3 小时视频

2023-12-10 15:39:24来源: IT之家

AI 变鉴片大师，星际穿越都能看懂！贾佳亚团队新作，多模态大模型挑战超长 3 小时视频

图片地址：https://img.ithome.com/newsuploadfiles/2023/12/fa90e7e7-97e3-43bd-8bcd-1fe8f9b2e8b5.png?x-bce-process=image/format,f_auto

啥？AI 都能自己看电影大片了？贾佳亚团队最新研究成果，让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》（片长 2 小时 49 分钟）：它“看”完之后，不仅能结合电影情节和人物轻松对电影进行点评：还能很精准地回答出剧中所涉的细节：例如：虫洞的作用和创造者是谁？答：未来的智慧生物放置在土星附近，用于帮助人类进行远距离星际穿越。男主库珀是如何将黑洞中的信息传递给女儿墨菲？答：通过手表以摩斯密码的方式传递数据。啊这，感觉电影博主的饭碗也要被 AI 抢走了。这就是最新多模态大模型 LLaMA-VID，它支持单图、短视频和长视频三种输入。对比来看，包括 GPT-4V等在内的同类模型基本只能处理图像。而背后原理更有看头。据介绍，LLaMA-VID 只通过一个非常简单的办法就达成了如上能力，那就是：把表示每一帧图像的 token 数量，压缩到仅有 2 个。具体效果如何以及如何实现？一起来看。人物理解分析、电影细节都 OK对于电影

关注公众号

标签： AI 视频大模型

提示：支持键盘“← →”键翻页

上一篇宾利与杜卡迪合作推出 Diavel 限量版摩托车，仅生产 500 辆

下一篇用牛粪提取的甲烷做燃料：日本一初创航天公司成功测试火箭发动机原型

赞

你的鼓励是对作者的最大支持

相关阅读

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型2024-11-05 16:13:12
华西医院联合华为数据存储发布“华西黉医”医学大模型：集成 10 余类通用模型和 50 余类垂域模型2024-11-03 13:58:46
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架2024-11-03 15:24:59
智己汽车发布 IM AD 3.0 智驾，全球首批量产一段式端到端大模型2024-10-28 16:41:37
科大讯飞升级星火大模型，持续推动AI大模型产业化应用 | 最前线2024-10-25 14:58:35
钛媒体独家｜大模型独角兽MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品2024-10-25 10:26:26
中信建投：零一万物发布Yi-Lightning，国产大模型迭代加速2024-10-25 07:57:29
加速大模型上车浪潮信息自动驾驶计算框架AutoDRRT 2.0实现车端低延时计算2024-10-21 17:07:00
国内首个应用临床眼科大模型 “伏羲慧眼”发布，可检测、预测眼部健康状态2024-10-21 09:28:33
字节跳动大模型遭实习生攻击，损失超千万美元？相关人士回应2024-10-19 14:18:35

热门排行榜

1日1周1月

免费发布分类信息

最新图片