多模态大模型视觉推理能力评估:o3仅得25.8%分数

作者

2025-05-28

67次阅读

人工智能

近日，清华大学、腾讯混元等研究团队联合发布评估基准RBench-V，针对多模态大模型视觉推理能力测试，含803道题，涉及多领域，要求模型生成或修改图像辅助推理。结果显示，最好的o3模型准确率仅25.8%，远低于人类专家的82.3%，许多开源模型准确率在8% - 10%。当前模型处理复杂几何问题倾向简化策略，深层理解图像信息不足。未来模型需主动生成图像辅助思考，多模态思维链等或为重要路径。项目主页：RBench-V项目主页。