清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2023/12/e2628509-a607-4226-97ed-a74b07384e40.png?x-bce-process=image/format,f_auto

IT之家 12 月 29 日消息，大语言模型（LLM）的触角已经从单纯的自然语言处理，扩展到文本、音频、视频等多模态领域，而其中一项关键就是视频时序定位（Video Grounding，VG）。VG 任务的目的基于给定查询（一句描述），然后在目标视频段中定位起始和结束时间，核心挑战在于时间边界定位的精度。清华大学研究团队近日推出了“LLM4VG”基准，这是一个专门设计用于评估 LLM 在 VG 任务中的性能。此基准考虑了两种主要策略：第一种涉及直接在文本视频数据集（VidLLM）上训练的视频 LLM，第二种是结合传统的 LLM 与预训练的视觉模型。在第一种策略中，VidLLM 直接处理视频内容和 VG 任务指令，根据其对文本-视频的训练输出预测。第二种策略更为复杂，涉及 LLM 和视觉描述模型。这些模型生成与 VG 任务指令集成的视频内容的文本描述，通过精心设计的提示。这些提示经过专门设计，可以有效地将 VG 的指令与给定的视觉