阿里巴巴升级视频生成AI模型　支持语音驱动

撰文：郑文玥

出版：2025-08-27 16:37更新：2025-08-27 16:37

撰文：郑文玥

出版：2025-08-27 16:37更新：2025-08-27 16:37

阿里巴巴（9988）发布并开源全新的Wan2.2-S2V语音驱动生视频(Speech-to-Video)模型。该创新工具专为数字人视频创作而开发，可以人像图片生成具备电影级品质的主体形象，并支持说话、唱歌与表演等动作。

公司将于本周五公布业绩，今日微升0.2%，报121.5元。

公司指，该新模型是阿里巴巴Wan2.2视频生成系列的一员，透过单张图片及一段音频，即可生成高质动画视频，支持肖像、半身以及全身等多种画幅形式的视频创作。

模型可依据文本指引动态生成人物动作与场景元素，还可透过语音音频驱动生动的动画形态，并支持多样化的主体形象，包括卡通、动物以及风格化的形象。

为满足专业内容创作者的多元需求，该技术灵活支持480P与720P的解像度输出，用户可在HuggingFace、GitHub以及阿里云开源社区ModelScope下载Wan2.2-S2V。

阿里巴巴已于2月开源Wan2.1系列模型，并于7月开源Wan2.2系列模型。至今Wan系列模型在HuggingFace与ModelScope平台的总下载量已突破690万次。