IT之家 12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。VG 任务的目的基于给定查询(一句描述),然后在目标视频段中定位起始和结束时间,核心挑战在于时间边界定位的精度。清华大学研究团队近日推出了“LLM4VG”基准,这是一个专门设计用于评估 LLM 在 VG 任务中的性能。此基准考虑了两种主要策略:第一种涉及直接在文本视频数据集(VidLLM)上训练的视频 LLM,第二种是结合传统的 LLM 与预训练的视觉模型。在第一种策略中,VidLLM 直接处理视频内容和 VG 任务指令,根据其对文本-视频的训练输出预测。第二种策略更为复杂,涉及 LLM 和视觉描述模型。这些模型生成与 VG 任务指令集成的视频内容的文本描述,通过精心设计的提示。这些提示经过专门设计,可以有效地将 VG 的指令与给定的视觉
清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能
2023-12-29 14:54:37来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义万相视觉生成大模型升级,支持文生视频、图生视频等2024-09-19 14:35:09
- 华为 WATCH GT5 智能手表开箱视频曝光:银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
- 快手:可灵 AI 已累计生成超 2700 万个视频,正内测全新 1.5 版本基础模型2024-09-13 18:31:32
- 网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端,演示视频现公开2024-09-12 15:21:20
- 华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频,暗示全球发售2024-09-12 19:24:52
- 苹果 iPhone 16 Pro 系列支持录制 4K120 FPS 视频2024-09-10 02:39:09
- 续航最强苹果手机易主,iPhone 16 Pro Max 视频播放时长可达 33 小时2024-09-10 03:35:11
- 索尼官方泄密:YouTube 视频标题证实 PS5 Pro 今晚官宣2024-09-10 07:52:03
- 问界 M9 五座版预热视频公布:后备箱灵活百变,9 月 10 日发布2024-09-08 14:52:58
- 荣耀 MagicBook Art 14 骁龙版发布:高通 X Elite、OS Turbo、1080P 视频可播放 15…2024-09-06 21:08:05