通义开源视觉感知多模态RAG推理框架VRAG - RL

作者
2025-05-31
14次阅读
人工智能
文章详情

近日,通义实验室自然语言智能团队发布并开源VRAG - RL,旨在解决AI从视觉语言中检索关键信息并精细化推理的难题。传统RAG方法处理视觉信息能力不足,VRAG - RL从强化学习赋能多模态智能体训练等三个维度创新。它引入多样视觉感知动作,采用多专家采样策略和细粒度奖励机制,引入GRPO算法。实验表明其在多视觉语言基准数据集性能优于现有方法,还支持多轮交互。此外,文中还推荐了元宝打通腾讯地图等相关AI新闻。