视频生成

genmoai/models 是一个开源的视频生成模型，代表了视频生成技术的最新进展。该模型名为 Mochi 1，是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型，从零开始训练，是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性，显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布，用户可以在 Genmo 的 playground 上免费试用此模型。

Zebracat

Zebracat是一家领先的AI视频生成技术初创公司，通过创新的解决方案，提供高质量的视频内容，助力品牌推广和市场营销。

FIFO-Diffusion

FIFO-Diffusion是一种基于预训练扩散模型的新颖推理技术，用于文本条件视频生成。它能够无需训练生成无限长的视频，通过迭代执行对角去噪，同时处理队列中一系列连续帧的逐渐增加的噪声水平；该方法在头部出队一个完全去噪的帧，同时在尾部入队一个新的随机噪声帧。此外，引入了潜在分割来减少训练推理差距，并通过前瞻去噪来利用前向引用的好处。

AI Faceless

Nullface.ai是一个AI面部视频生成器，可以帮助您自动生成每日故事视频，无需频繁创作内容或成为频道的焦点。只需分享您的想法，我们就可以为您创建有趣且自动化的视频，让您轻松赚钱。

GAIA-2

GAIA-2 是 Wayve 开发的先进视频生成模型，旨在为自动驾驶系统提供多样化和复杂的驾驶场景，以提高安全性和可靠性。该模型通过生成合成数据来解决依赖现实世界数据收集的限制，能够创建各种驾驶情境，包括常规和边缘案例。GAIA-2 支持多种地理和环境条件的模拟，帮助开发者在没有高昂成本的情况下快速测试和验证自动驾驶算法。

MemeMaker

Meme Maker是一款强大的迷因制作工具，让您轻松制作和分享有趣的迷因，增加社交媒体和论坛的互动性。

Viggle AI Video

ViggleAI is a powerful AI-powered animation tool and image-to-video AI generator. It allows you to animate your characters for free and create stunning animations, even without any prior animation experience.

NVIDIA Broadcast App

NVIDIA Broadcast App 是一款利用人工智能技术，为直播和视频会议提供高质量语音和视频效果的应用。它通过智能降噪、虚拟背景、眼神接触增强等功能，为用户提供专业级别的直播体验。这款应用特别适合内容创作者、游戏主播和需要进行远程视频会议的专业人士。它的优势在于能够显著提升视频内容的质量，同时简化直播流程，无需昂贵的硬件设备。

Freepik AI 视频生成器

Freepik AI 视频生成器是一款基于人工智能技术的在线工具，能够根据用户输入的初始图像或描述快速生成视频。该技术利用先进的 AI 算法，实现视频内容的自动化生成，极大地提高了视频创作的效率。产品定位为创意设计人员和视频制作者提供快速、高效的视频生成解决方案，帮助用户节省时间和精力。目前该工具处于 Beta 测试阶段，用户可以免费试用其功能。

ComfyUI-MochiWrapper

ComfyUI-MochiWrapper是一个用于Mochi视频生成器的包装节点，它允许用户通过ComfyUI界面与Mochi模型进行交互。这个项目主要优点是能够利用Mochi模型生成视频内容，并且通过ComfyUI简化了操作流程。它是基于Python开发的，并且完全开源，允许开发者自由地使用和修改。目前该项目还处于积极开发中，已经有一些基本功能，但还没有正式发布版本。

SV4D

Stable Video 4D (SV4D) 是基于 Stable Video Diffusion (SVD) 和 Stable Video 3D (SV3D) 的生成模型，它接受单一视角的视频并生成该对象的多个新视角视频（4D 图像矩阵）。该模型训练生成 40 帧（5 个视频帧 x 8 个摄像机视角）在 576x576 分辨率下，给定 5 个相同大小的参考帧。通过运行 SV3D 生成轨道视频，然后使用轨道视频作为 SV4D 的参考视图，并输入视频作为参考帧，进行 4D 采样。该模型还通过使用生成的第一帧作为锚点，然后密集采样（插值）剩余帧来生成更长的新视角视频。

SynCamMaster

SynCamMaster是一种先进的视频生成技术，它能够从多样化的视角同步生成多摄像机视频。这项技术通过预训练的文本到视频模型，增强了视频内容在不同视角下的动态一致性，对于虚拟拍摄等应用场景具有重要意义。该技术的主要优点包括能够处理开放世界视频的任意视角生成，整合6自由度摄像机姿态，并设计了一种渐进式训练方案，利用多摄像机图像和单目视频作为补充，显著提升了模型性能。

AnimateAnyone

AnimateAnyone是一个基于深度学习的视频生成模型，它能够将静态图片或视频转换为动画。该模型由Novita AI非官方实现，灵感来源于MooreThreads/Moore-AnimateAnyone的实现，并在训练过程和数据集上进行了调整。

RunwayML App

RunwayML是一款领先的下一代创意套件，提供了丰富的工具，让用户能够将任何想法转化为现实。该应用通过其独特的文本到视频生成技术，让用户仅通过文本描述即可在手机上生成视频。其主要优点包括：n1. 文本到视频生成：用户只需输入文本描述，即可生成视频。n2. 实时更新：定期推出新功能和更新，确保用户始终能够使用最新的AI视频和图片工具。n3. 无缝资产转移：用户可以在手机和电脑之间无缝转移资产。n4. 多种订阅选项：提供标准、专业和每月1000次生成信用的订阅选项。

Synexa AI

Synexa是一个简单、快速且稳定的AI服务平台，通过简单的一行代码就能部署和运行AI模型。支持图像生成、视频生成、语音合成等，帮助开发者轻松集成AI能力，提升工作效率。

AI Video Starting Kit

video-starter-kit 是一个强大的开源工具包，用于构建基于 AI 的视频应用。它基于 Next.js、Remotion 和 fal.ai 构建，简化了在浏览器中使用 AI 视频模型的复杂性。该工具包支持多种先进的视频处理功能，如多剪辑视频合成、音频轨道集成和语音支持等，同时提供了开发者友好的工具，如元数据编码和视频处理管道。它适用于需要高效视频生成和处理的开发者和创作者。

清影 AI 视频生成服务

清影 AI 视频生成服务是一个创新的人工智能平台，旨在通过智能算法生成高质量的视频内容。该服务适合各种行业用户，能够快速便捷地生成富有创意的视觉内容。无论是商业广告、教育课程还是娱乐视频，清影 AI 都能提供优质的解决方案。该产品依托于先进的 GLM 大模型，确保生成内容的准确性与丰富性，同时满足用户个性化需求。提供免费试用，鼓励用户探索 AI 视频创作的无限可能。

PixVerse-MCP

PixVerse-MCP 是一个工具，允许用户通过支持模型上下文协议（MCP）的应用程序访问 PixVerse 最新的视频生成模型。该产品提供了文本转视频等功能，适用于创作者和开发者，能够在任何地方生成高质量的视频。PixVerse 平台需要 API 积分，用户需自行购买。

CamCo

CamCo是一个创新的图像到视频生成框架，它能够生成具有3D一致性的高质量视频。该框架通过Plücker坐标引入相机信息，并提出了一种符合几何一致性的双线约束注意力模块。此外，CamCo在通过运动结构算法估计相机姿态的真实世界视频上进行了微调，以更好地合成物体运动。

Runway API

Runway API是一个强大的视频模型平台，提供先进的生成视频模型，允许用户在安全、可靠的环境中嵌入Gen-3 Alpha Turbo到他们的产品中。它支持广泛的应用场景，包括创意广告、音乐视频、电影制作等，是全球顶尖创意人士的首选。

Open-Sora-Plan

Open-Sora-Plan是一个开源项目，旨在复现OpenAI的Sora（T2V模型），并构建关于Video-VQVAE（VideoGPT）+ DiT的知识。项目由北京大学-兔展AIGC联合实验室发起，目前资源有限，希望开源社区能够贡献力量。项目提供了训练代码，并欢迎Pull Request。

Wookeys AI

Ultimate AI Assistant是一款综合AI助手，可帮助您简化任务，提高工作效率。它提供了生成文本、图像、代码、视频、音频等多种功能，具有高度定制化的AI解决方案。无论您是需要生成创意文案、设计图像、编写代码、制作视频还是创作音乐，Ultimate AI Assistant都能满足您的需求。该产品定价根据功能和使用量而定，详情请访问官方网站。

Mochi in ComfyUI

Mochi是Genmo最新推出的开源视频生成模型，它在ComfyUI中经过优化，即使使用消费级GPU也能实现。Mochi以其高保真度动作和卓越的提示遵循性而著称，为ComfyUI社区带来了最先进的视频生成能力。Mochi模型在Apache 2.0许可下发布，这意味着开发者和创作者可以自由使用、修改和集成Mochi，而不受限制性许可的阻碍。Mochi能够在消费级GPU上运行，如4090，且在ComfyUI中支持多种注意力后端，使其能够适应小于24GB的VRAM。

MEMO

MEMO是一个先进的开放权重模型，用于音频驱动的说话视频生成。该模型通过记忆引导的时间模块和情感感知的音频模块，增强了长期身份一致性和运动平滑性，同时通过检测音频中的情感来细化面部表情，生成身份一致且富有表情的说话视频。MEMO的主要优点包括更真实的视频生成、更好的音频-唇形同步、身份一致性和表情情感对齐。该技术背景信息显示，MEMO在多种图像和音频类型中生成更真实的说话视频，超越了现有的最先进方法。

Adobe Firefly生成视频

Adobe Firefly 是一款基于人工智能技术的视频生成工具。它能够根据用户提供的简单提示或图像快速生成高质量的视频片段。该技术利用先进的 AI 算法，通过对大量视频数据的学习和分析，实现自动化的视频创作。其主要优点包括操作简单、生成速度快、视频质量高。Adobe Firefly 面向创意工作者、视频制作者以及需要快速生成视频内容的用户，提供高效、便捷的视频创作解决方案。目前该产品处于 Beta 测试阶段，用户可以免费使用，未来可能会根据市场需求和产品发展进行定价和定位。

Pusa

Pusa 通过帧级噪声控制引入视频扩散建模的创新方法，能够实现高质量的视频生成，适用于多种视频生成任务（文本到视频、图像到视频等）。该模型以其卓越的运动保真度和高效的训练过程，提供了一个开源的解决方案，方便用户进行视频生成任务。

智趣AI甄选

智趣AI甄选是一个专注于人工智能领域的综合性平台，旨在洞察行业发展前景，精选并展示国内外的AI产品与应用。平台提供丰富的学习资源，行业融合案例分析，助力用户洞悉AI发展趋势，与AI技术同行，共创未来。

1…6 78