hao123上网导航 hao123上网导航 hao123上网导航 hao123上网导航
  • 常用推荐
  • 在线工具箱
  • AI聊天机器人
  • AI​文本生成
  • AI图像工具
  • AI工具集
  • AI智能应用
  • AI生产效率
  • ​娱乐休闲
  • 影音娱乐
  • 学术集
  • 生活服务
  • 社交媒体
  • 行业导航
  • 小游戏
  • 友情链接
  • 联系我们
hao123上网导航 hao123上网导航
  • 首页
  • 在线工具箱
  • 日系杂志
  • 杂志猫
常用
搜索
工具
社区
生活

    自动转录

    whisper-diarization
    whisper-diarization

    whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性,然后使用Whisper生成转录文本,并通过WhisperX校正时间戳和对齐,以减少由于时间偏移导致的分割错误。接着,使用MarbleNet进行VAD和分割以排除静音,TitaNet用于提取说话人嵌入以识别每个段落的说话人,最后将结果与WhisperX生成的时间戳关联,基于时间戳检测每个单词的说话人,并使用标点模型重新对齐以补偿小的时间偏移。

    Copyright © 2025 hao123上网导航