视频到音频

MaskVAT是一种视频到音频(V2A)生成模型，它利用视频的视觉特征来生成与场景匹配的逼真声音。该模型特别强调声音的起始点与视觉动作的同步性，以避免不自然的同步问题。MaskVAT结合了全频带高质量通用音频编解码器和序列到序列的遮蔽生成模型，能够在保证高音频质量、语义匹配和时间同步性的同时，达到与非编解码器生成音频模型相媲美的竞争力。