蓝耘元生代 AIDC OS 是一款专注于 GPU 算力云服务的产品,旨在为企业和开发者提供强大的计算能力和灵活的资源配置。该产品支持多种 GPU 型号,按需计费,适用于深度学习、图形渲染等领域。其主要优点在于高性能的计算资源、可扩展的存储解决方案以及合规的云服务环境,满足不同规模企业的需求。价格为每小时 1.50 元到 1.60 元不等,依据所选 GPU 型号而定。
MAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs在视觉数学问题解决方面的能力。该模型包括两个新策划的数据集、一个数学视觉编码器和数学MLLM,通过三阶段训练范式在MathVerse基准测试中取得领先性能。
Tribe AI是一个低代码工具,它利用langgraph框架,让用户能够轻松自定义和协调智能体团队。通过将复杂任务分配给擅长不同领域的智能体,每个智能体可以专注于其最擅长的工作,从而更快更好地解决问题。
WhisperKit由Argmax公司推出,是一个基于Whisper项目的推理工具包,它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的目标是收集开发者反馈,并在几周内发布一个稳定的候选版本,以加速设备上推理的生产化。
Tusk是一个AI编码助手,专注于帮助软件工程师快速完成繁琐的代码任务。它通过自动化的方式生成代码,解决bug,进行UI/UX改进,从而提高开发效率,让工程师能够专注于更有创造性的工作。Tusk支持与GitHub、Jira、Linear、Notion等工具的集成,能够根据问题标签一键推送代码到仓库,并自动迭代代码以应对代码审查。此外,Tusk还提供定制化AI代理、VIP支持等高级功能,满足不同规模团队的需求。
Prisms是一个无代码平台,使用户能够利用大型语言模型如GPT3、DALL-E和Stable Diffusion等AI技术快速构建应用程序,无需编程经验。用户可以连接不同的数据源、组件,使用Prisms提供的预设模块进行拖拽组合,即可创建应用程序原型。随后可以直接在Prisms部署应用程序,或作为后端AI服务与自定义前端对接。该产品简化了应用开发流程,降低开发门槛,使更多人能够享受AI带来的便利。
MakeML是一个无需编写任何代码就可以搭建图像目标检测神经网络的开发工具。它提供了一个简单易用的图形界面,用户只需上传训练集图片,绘制bounding box,设置参数,就可以训练出一个高效的目标检测模型,并导出成CoreML格式在iOS App中使用。MakeML解决了神经网络开发门槛高的痛点,不需要任何机器学习或编程知识,就可以获得强大的深度学习能力。
ComfyUI-GGUF是一个为ComfyUI原生模型提供GGUF量化支持的项目。它允许模型文件以GGUF格式存储,这种格式由llama.cpp推广。尽管常规的UNET模型(conv2d)不适用于量化,但像flux这样的transformer/DiT模型似乎受量化影响较小。这使得它们可以在低端GPU上以更低的每权重变量比特率进行运行。
H2O Danube3 是由 h2oai 公司开发的一系列文本生成模型,这些模型专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。它们具备强大的语言理解和生成能力,能够根据给定的上下文生成连贯、准确的文本。
GeminiProChat是GeminiPro的最小化Web界面,提供简洁有效的聊天体验。它支持通过环境变量来控制网站,允许使用者通过Docker部署,并提供易于部署的Vercel和Railway选项。
Vizro是一个用于快速创建模块化数据可视化dashboard的工具包。它允许用户通过简单的配置就可以构建复杂的dashboard,无需高级编程和设计经验。用户可以定义组件、控制器、页面、布局、交互等,从而用极少的代码就能创建Plotly和Dash驱动的dashboard。Vizro使得低代码和高代码开发完美结合,既保证了快速迭代,又具备高度定制化的能力。
StreamVC是由Google研发的实时低延迟语音转换解决方案,能够在保持源语音内容和韵律的同时,匹配目标语音的音色。该技术特别适合实时通信场景,如电话和视频会议,并且可用于语音匿名化等用例。StreamVC利用SoundStream神经音频编解码器的架构和训练策略,实现轻量级高质量的语音合成。它还展示了学习软语音单元的因果性以及提供白化基频信息以提高音高稳定性而不泄露源音色信息的有效性。
Cradle框架旨在使基础模型能够通过与人类相同的通用接口(屏幕作为输入,键盘和鼠标操作作为输出)执行复杂的计算机任务。该框架在Red Dead Redemption II游戏中进行了案例研究,展示了其在复杂环境中的泛化和适应能力。
TCAN是一种基于扩散模型的新型人像动画框架,它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块,如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图,来确保生成的视频既保持源图像的外观,又遵循驱动视频的姿态,同时保持背景的一致性。