视频描述 - hao123上网导航

Tarsier

Tarsier 是由字节跳动研究团队开发的一系列大规模视频语言模型，旨在生成高质量的视频描述，并具备强大的视频理解能力。该模型通过两阶段训练策略（多任务预训练和多粒度指令微调）显著提升了视频描述的精度和细节。其主要优点包括高精度的视频描述能力、对复杂视频内容的理解能力以及在多个视频理解基准测试中取得的 SOTA（State-of-the-Art）结果。Tarsier 的背景基于对现有视频语言模型在描述细节和准确性上的不足进行改进，通过大规模高质量数据训练和创新的训练方法，使其在视频描述领域达到了新的高度。该模型目前未明确定价，主要面向学术研究和商业应用，适合需要高质量视频内容理解和生成的场景。