腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频,让图中的主角说话唱
作者
2025-05-28
6次阅读
人工智能

腾讯发布并开源HunyuanVideo-Avatar语音数字人模型,该模型能凭一张图片和一段音频,生成自然、真实的数字人说话或唱歌视频。其核心功能为智能理解,可分析音频情感与环境。应用场景广泛,涵盖短视频创作、电商广告等。技术上优势显著,支持多种场景表现,主体一致性和音画同步表现顶尖,还支持多种风格、物种和多人场景。目前单主体能力已在腾讯混元官网上线,用户可通过“模型广场”体验,未来将推出更多功能。