腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱

作者

2025-05-28

43次阅读

人工智能

腾讯发布并开源HunyuanVideo-Avatar语音数字人模型，该模型能凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频。其核心功能为智能理解，可分析音频情感与环境。应用场景广泛，涵盖短视频创作、电商广告等。技术上优势显著，支持多种场景表现，主体一致性和音画同步表现顶尖，还支持多种风格、物种和多人场景。目前单主体能力已在腾讯混元官网上线，用户可通过“模型广场”体验，未来将推出更多功能。