身份一致性 - hao123上网导航

MEMO

MEMO是一个先进的开放权重模型，用于音频驱动的说话视频生成。该模型通过记忆引导的时间模块和情感感知的音频模块，增强了长期身份一致性和运动平滑性，同时通过检测音频中的情感来细化面部表情，生成身份一致且富有表情的说话视频。MEMO的主要优点包括更真实的视频生成、更好的音频-唇形同步、身份一致性和表情情感对齐。该技术背景信息显示，MEMO在多种图像和音频类型中生成更真实的说话视频，超越了现有的最先进方法。