长音频内容生产AIGC开放平台
Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构,通过结合 XCodec2 代码本中的语音标记,能够将文本转换为自然流畅的语音。该模型在 25 万小时的中英文语音数据上进行了训练,支持从纯文本生成语音,也可以利用给定的语音提示进行合成。其主要优点是能够生成高质量的多语言语音,适用于多种语音合成场景,如有声读物、语音助手等。该模型采用 CC BY-NC-ND 4.0 许可证,禁止商业用途。
Awesome-ChatTTS是一个开源项目,旨在为ChatTTS项目提供常见问题解答和相关资源汇总,帮助用户快速入门并解决在使用过程中可能遇到的问题。该项目不仅整理了详细的安装指南和参数说明,还提供了多种音色种子的示例,以及视频教程等辅助材料。
Voxygen是一款强大的语音合成技术,可以将文本转化为自然流畅的语音,适用于语音助手、电话客服、广播和媒体、教育和培训等多个领域。
该产品通过AI技术实现视频语音的自动配音和口型同步,可以轻松实现视频的多语种翻译,并保留原始音色。主要特点包括:1)33%以上的同步精度,媲美人工口型同步;2)无损视频分辨率;3)高保真语音翻译。面向的群体包括:企业培训部门、销售人员、营销团队和内容创作者。提供免费入门版和付费专业版,欢迎体验。
Rasa提供灵活的对话式人工智能软件,用于构建基于文本和语音的助手。被世界各地的开发人员、对话团队和企业使用。
阿里云语音合成工具,支持在线体验文本转语音功能,字数限制为200字,有超多人声可选,实测效果还可以
StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略,有效识别流式语音输入中的翻译时机,实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能,并能提供低延迟的中间结果,如ASR或翻译结果。
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
OpenVoiceOS是一个由社区驱动的开源语音人工智能平台,用于创建跨设备的自定义语音控制界面,具有NLP、可定制的UI,并注重隐私和安全。
Audiblez是一个利用Kokoro高质量语音合成技术,将普通电子书(.epub格式)转换为.m4b格式有声书的工具。它支持多种语言和声音,用户可以通过简单的命令行操作完成转换,极大地丰富了电子书的阅读体验,尤其适合在开车、运动等不方便阅读的场景下使用。该工具由Claudio Santini在2025年开发,遵循MIT许可证免费开源。
赛灵力提供2D/3D虚拟人、AI配音等服务,可定制形象、声音,适用于视频创作、品牌宣传等。
VideoTrans是一款免费开源的视频翻译配音工具。它可以一键识别视频字幕、翻译成其他语言、进行多种语音合成,最终输出带字幕和配音的目标语言视频。该软件使用简单,支持多种翻译和配音引擎,能大幅提高视频翻译的效率。
CereVoice云服务是一款强大的语音合成云服务,可以帮助用户快速生成自然流畅的语音内容,实现网站和应用程序的语音交互功能,提升用户体验。
国外在线文本转语音工具,支持多国语言在线转换,中文只有一款人声可以免费试用,一次性最多转换一万字,效果一般
文本转语音技术是一种将文本信息转换为语音的技术,广泛应用于辅助阅读、语音助手、有声读物制作等领域。它通过模拟人类语音,提高了信息获取的便捷性,尤其对视力障碍者或在无法使用眼睛阅读的情况下非常有帮助。
一个利用AI将文本歌词转换为原创歌曲的在线音乐平台,Lyrics Into Song AI通过分析您的文本,并生成与您的歌词情绪、风格和结构相匹配的音乐,包括完整的歌曲,包括旋律、和声和伴奏。
免费语音克隆是一款先进的AI语音克隆工具,为用户提供AI语音克隆和语音生成服务。免费语音克隆提供多样化的AI语音模型,用户可以使用我们先进的声音克隆技术创建您自己的自定义声音,支持声音克隆、文本转语音、语音转文本等功能,适用于任何项目的自然语音合成。
Dubverse AI语音合成是一种基于人工智能技术的语音合成服务,通过深度学习、自然语言处理等技术,实现了语音合成的智能化。Dubverse AI语音合成能够实现自然、流畅、富有情感的语音合成,并且可以根据具体应用场景,进行个性化定制,充分满足客户需求。
一个在线配音网站,是目前为数不多的免费的在线文字转语音的配音神器,用户只需输入文本,即可生成高度拟人的智能配音。
TTS Online是一款免费的文本转语音工具,提供语音合成服务,支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、韩语等,以及多种语音风格。您可以用它大声朗...
T2S.AI是一个神经网络文本转语音服务,提供超过140种语言和400种神经网络声音。用户可以根据自己的需求选择不同的语言和声音类型,灵活的定价模式满足不同用户的需求。
Gotalk.ai 是一个强大的 AI 语音生成器,能够在几分钟内创建逼真的语音。完美适用于 YouTube、播客和电话系统问候语。通过先进的 AI 算法和深度学习技术,体验自然语音合成。我们的平台提供先进的 AI 语音合成,是寻找创新高效语音生成工具的专业人士的首选解决方案。
通过Reecho在数秒内克隆任意声音,并创建与真人近乎无异的、极具表现力的文本配音。
OptiSpeech是一个高效、轻量级且快速的文本到语音模型,专为设备端文本到语音转换设计。它利用了先进的深度学习技术,能够将文本转换为自然听起来的语音,适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持,显著加速了开发进程。
kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。
一站式AI音频和视频创作工具
Synexa是一个简单、快速且稳定的AI服务平台,通过简单的一行代码就能部署和运行AI模型。支持图像生成、视频生成、语音合成等,帮助开发者轻松集成AI能力,提升工作效率。
Orpheus TTS 是一个基于 Llama-3b 模型的开源文本转语音系统,旨在提供更加自然的人类语音合成。它具备较强的语音克隆能力和情感表达能力,适合各种实时应用场景。该产品是免费的,旨在为开发者和研究者提供便捷的语音合成工具。
AI配音全能平台,千种真人音色,二次元创作利器。