通义大模型发布OmniAudio 可从360°视频生成空间音频

作者
2025-05-29
12次阅读
人工智能
文章详情

近日,通义实验室语音团队推出OmniAudio技术,可从360°视频生成FOA音频。因现有空间音频技术对360°全景视频利用不足,通义实验室提出360V2SA任务。为解决数据稀缺问题,构建Sphere360数据集。OmniAudio训练分两阶段,实验显示其在测试集上优于基线,消融实验验证策略、设计及规模对性能的贡献。项目主页、代码数据仓库及论文地址均已公开。