多模态大模型视觉推理能力评估:o3仅得25.8%分数
作者
2025-05-28
12次阅读
人工智能

近日,清华大学、腾讯混元等研究团队联合发布评估基准RBench-V,针对多模态大模型视觉推理能力测试,含803道题,涉及多领域,要求模型生成或修改图像辅助推理。结果显示,最好的o3模型准确率仅25.8%,远低于人类专家的82.3%,许多开源模型准确率在8% - 10%。当前模型处理复杂几何问题倾向简化策略,深层理解图像信息不足。未来模型需主动生成图像辅助思考,多模态思维链等或为重要路径。项目主页:RBench-V项目主页 。