通义开源视觉感知多模态RAG推理框架VRAG - RL

作者

2025-05-31

64次阅读

人工智能

近日，通义实验室自然语言智能团队发布并开源VRAG - RL，旨在解决AI从视觉语言中检索关键信息并精细化推理的难题。传统RAG方法处理视觉信息能力不足，VRAG - RL从强化学习赋能多模态智能体训练等三个维度创新。它引入多样视觉感知动作，采用多专家采样策略和细粒度奖励机制，引入GRPO算法。实验表明其在多视觉语言基准数据集性能优于现有方法，还支持多轮交互。此外，文中还推荐了元宝打通腾讯地图等相关AI新闻。