Meta 发布 Multi-SpatialMLLM:引领多模态 AI 的空间理解革命
作者
2025-05-29
11次阅读
人工智能

科技巨头Meta与香港中文大学研究团队联合推出Multi-SpatialMLLM模型,在多模态大语言模型空间理解方面取得显著进展。该模型整合深度感知、视觉对应和动态感知组件,突破单帧图像分析限制。因现有MLLMs在空间推理任务表现不佳,研究团队推出MultiSPA数据集,并设计五个训练任务提升模型能力。经测试,该模型在多项基准测试中表现优异,准确率大幅提升,且在标准视觉问答测试中保持原有性能。