Mac 上的一个多模态 AI 助手,能支持语音和截图,借助 GPT-4V 的多模态能力,可以基于当前屏幕截图和指令可以回复问题。
一个开源AI个人助手,通过分析您的个人文本或图像数据来提供服务
一个小型但功能强大的视觉语言模型,它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。
专为稳定人物视频抠像设计
一个第三方开源工具,用于调用LLM,实现文档语义对话
BRIA AI开发的开源图像背景移除模型,RMBG-2.0基于创新的BiRefNet架构,能够在复杂环境和高细节图像中提供高精度的背景去除。
中国首个面向AI短剧创作的视频生成模型,能够实现影视级人物微表情表演生成,支持33种细腻人物表情与400+种自然动作组合,高度还原真人情感表达。
一个免费的、开源的、全栈的SaaS(软件即服务)启动套件,适用于React + NodeJS
一个开源的数据标注平台,致力于优化对于大型语言模型(LLM)开发不可或缺的数据标注过程。
一种分层自适应零样本语音风格转换模型
一个AI自动投递简历的工具,结合chatgpt与rpa技术,实现一键自动寻找工作、根据自己的简历和工作描述生成求职信、发送给hr的全流程自动操作。
一个基于Web强大的开源PDF操作工具。它使您能够对 PDF 文件执行各种操作,包括拆分、合并、转换、重组、添加图像、旋转、压缩等。
一个字节跳动开源的多模态 AI 代理工具,Agent TARS能够通过视觉方式解释网页内容,从而实现流畅的浏览器操作。
一个实现了在个人电脑上运行 LLM 模型,并集成了服务接口和在线聊天界面的项目。
代理 MidJourney 的discord频道,实现api形式调用AI绘图
在文本输入的同时立即开始语音合成,无需等待整个文本输入完毕。
一款开源免费的跨平台视频提取工具。支持流媒体下载、视频下载、m3u8 文件下载以及 B 站视频下载。
Rope AI换脸工具
Monoid是一款强大的AI平台,可以将API转化为智能代理,帮助用户实现自动化操作,提供灵活定制、实时响应的智能代理服务。
一个基于WhisperLive把声音转文字和WhisperSpeech理解这些文字的能力构建。能够与AI聊天机器人进行超低延迟对话。
Gemini是Google DeepMind推出的全新AI模型,集成了多模态推理功能,超越了以往模型的性能,适用于科学文献洞察、竞争性编程等多种应用场景。
ChatGPT 的开源、托管替代品,jan.ai可在您的计算机上100%离线运行。
大幅提升扩散模型的图像生成质速度提升6倍,由字节跳动的研究团队开发,只需添加一行代码即可
一个开源的深度伪造工具包,用于生成逼真的深度伪造视频和图像。
一个开源的数据标注工具,可以帮助用户快速、准确、高效地对数据进行标注,从而提高机器学习模型的性能和质量。
腾讯AI实验室推出的 AI 绘图模型,效果类似 ControlNet,可以控制图片生成的效果
一个提供高质量搜索体验的开源AI驱动搜索引擎,Perplexica通过理解用户问题并利用机器学习算法来提供精准的搜索结果。
音频转文字
硅基智能打造的AI数字人智能交互平台。通过将数字人交互能力开源,开发者可自行接入多方大模型、语音识别(ASR)、语音合成(TTS)能力,实现数字人实时交互。
ProPainter,一键移除视频内的移动物体,一键移除视频水印。