阿里巴巴升级视频生成AI模型 支持语音驱动

撰文: 郑文玥
出版:更新:

阿里巴巴(9988)发布并开源全新的Wan2.2-S2V语音驱动生视频(Speech-to-Video)模型。该创新工具专为数字人视频创作而开发,可以人像图片生成具备电影级品质的主体形象,并支持说话、唱歌与表演等动作。

公司将于本周五公布业绩,今日微升0.2%,报121.5元。

支持肖像、半身及全身等多种画幅

公司指,该新模型是阿里巴巴Wan2.2视频生成系列的一员,透过单张图片及一段音频,即可生成高质动画视频,支持肖像、半身以及全身等多种画幅形式的视频创作。

模型可依据文本指引动态生成人物动作与场景元素,还可透过语音音频驱动生动的动画形态,并支持多样化的主体形象,包括卡通、动物以及风格化的形象。

为满足专业内容创作者的多元需求,该技术灵活支持480P与720P的解像度输出,用户可在HuggingFace、GitHub以及阿里云开源社区ModelScope下载Wan2.2-S2V。

阿里巴巴已于2月开源Wan2.1系列模型,并于7月开源Wan2.2系列模型。至今Wan系列模型在HuggingFace与ModelScope平台的总下载量已突破690万次。