语音识别

人工智能领域的专业媒体门户

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

Neon AI官网

利用Neon AI的授权技术创建最...Neon AI是一款智能人工语音助手，拥有强大的语音识别及自然语言处理能力，能够针对用户的需求提供个性化的服务与支持。

Retell

Retell AI是一个强大的AI代理构建平台，允许用户快速构建和测试复杂的工作流程，并通过电话呼叫、网络呼叫或任何其他地方部署它们。该平台支持使用任何大型语言模型（LLM），并提供了实时的交互体验，包括人类般的声音和语音克隆支持。Retell AI的主要优点包括低延迟、高稳定性和符合HIPAA标准的安全性。

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型，展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术，为用户提供了更加智能化和个性化的体验，推动了智能语音交互技术在不同行业中的应用和发展。

捷通华声—人工智能技术与服务提供商

“灵云科技源自清华服务全球”的发展战略

whisper-diarization

whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性，然后使用Whisper生成转录文本，并通过WhisperX校正时间戳和对齐，以减少由于时间偏移导致的分割错误。接着，使用MarbleNet进行VAD和分割以排除静音，TitaNet用于提取说话人嵌入以识别每个段落的说话人，最后将结果与WhisperX生成的时间戳关联，基于时间戳检测每个单词的说话人，并使用标点模型重新对齐以补偿小的时间偏移。

Labelbox

了解领先团队如何使用Labelbox构建人工智能应用程序、训练和微调模型，以及使用LLM实现任务自动化.

whisper-ner-v1

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

场辞AI视频字幕制作

提供自动加字幕、语音转变生成字幕的AI视频字幕制作软件

Bulletpen

Bulletpen是一款创新的AI写作应用，旨在帮助用户将口头表达转化为高质量的书面文本。它通过语音识别和自然语言处理技术，将用户的口语内容进行优化和润色，生成结构清晰、语言流畅的书面文本。该产品的主要优点是能够显著提高写作效率，尤其适合那些在写作时感到困难或缺乏灵感的用户。Bulletpen由17岁的高中生Rexan Wong开发，目标是为学生、作家和内容创作者提供一个简单易用的写作辅助工具。它提供免费和付费两种计划，满足不同用户的需求。

NeuralSpace

NeuralSpace是一家领先的人工智能企业解决方案提供商，通过自动化工作流程和智能语言处理技术，帮助企业提高效率、降低成本并增加生产力。

CMU Pocketsphinx

CMUSphinx是一个开源的语音识别系统，支持多种编程语言和平台，适用于开发语音助手、语音转写和语音控制等应用场景。

云从科技 CloudWalk

云从科技是一家提供高效人机协同操作系统和人工智能解决方案的公司，通过人脸识别、自然语言处理等技术，为金融、治理、出行和商业等领域提供智能化的解决方案。

Hanami live translator

Hanami live translator是一个基于GitHub平台的实时翻译工具，可捕捉来自Windows扬声器或麦克风的任何音频并将其翻译成所需的语言。该网站有一个公共主分支和一个标签，同时具有GitHub Actions功能，可自动化软件工作流程。

Rasa

Rasa提供灵活的对话式人工智能软件，用于构建基于文本和语音的助手。被世界各地的开发人员、对话团队和企业使用。

AI-Powered Meeting Summarizer

AI-Powered Meeting Summarizer是一个基于Gradio的网站应用，能够将会议录音转换为文本，并使用whisper.cpp进行音频到文本的转换，以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能，并能提供低延迟的中间结果，如ASR或翻译结果。

OpenVoiceOS

OpenVoiceOS是一个由社区驱动的开源语音人工智能平台，用于创建跨设备的自定义语音控制界面，具有NLP、可定制的UI，并注重隐私和安全。

Seamless Communication

强大的AI同声传译工具，它通过实时处理和翻译语音，极大地促进了跨语言沟通。其低延迟、高准确度和多语言支持的特点，使其成为国际会议、多语言工作环境和任何需要实时语音翻译的场景的理想选择。

Robo Blogger

Robo Blogger是一个专注于将语音转换为博客文章的人工智能助手。它通过捕捉自然语言中的创意，将其结构化为有条理的博客内容，同时可以结合参考资料以确保文章的准确性和深度。这个工具基于之前Report mAIstro项目的概念，专为博客文章创作优化。通过分离创意捕捉和内容结构化，Robo Blogger帮助保持原始想法的真实性，同时确保专业呈现。

Kaldi Speech-to-Text

Kaldi ASR是一款先进的语音识别系统，具有高准确率、高性能和灵活的定制化选项。它可以应用于电话录音转写、语音助手和语音翻译等场景，为用户提供高质量的自动语音识别服务。

飞书妙记-语音转文字

一款字节跳动（抖音的母公司）推出的 “语音自动转文字” 的效率神器。

音刻

音刻转录是一款专注于音视频转录的在线工具，通过先进的语音识别技术，能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言和文件格式。产品定位为高效办公和学习辅助工具，旨在帮助用户节省时间和精力，提升工作效率。音刻转录提供免费试用版本，用户可以体验其核心功能，付费版本则提供更多高级功能和大文件支持，满足不同用户的需求。

Talk-to-ChatGPT

通过麦克风与ChatGPT进行语音交互，无需键盘，提供更加便捷的交互方式。

百度·度加剪辑

度加剪辑是百度官方出品的口播自媒体必备剪辑工具，简洁好用，高效准确的智能识别字幕能力，支持百度网盘导入素材，助力知识创作者打造优质作品。

Say My Name!

Say My Name! 是一款以趣味和个性化为核心的语音识别应用。它利用先进的语音识别技术，让用户的设备能够识别和响应用户的声音，尤其是用户的名字。这款应用不仅增加了用户与设备互动的乐趣，还提升了操作的便捷性。Say My Name! 的主要优点包括高准确率的语音识别、个性化的口令设置以及用户友好的操作界面。

PengChengStarling

鹏城实验室开源的一款多语言语音识别系统开发工具包，PengChengStarling可以在统一的框架内处理多种语言语音输入，支持实时语音识别，边说边识别。

风车AI翻译

集图片翻译、视频翻译、智能抠图、去除图片文字和视频字幕等功能于一体的在线翻译工具

Universal-2

Universal-2是AssemblyAI推出的最新语音识别模型，它在准确度和精确度上超越了前一代Universal-1，能够更好地捕捉人类语言的复杂性，为用户提供无需二次检查的音频数据。这一技术的重要性在于它能够为产品体验提供更敏锐的洞察力、更快的工作流程和一流的产品体验。Universal-2在专有名词识别、文本格式化和字母数字识别方面都有显著提升，减少了实际应用中的词错误率。

1 234