RoboChallenge测评：π0、π0.5领先，自变量WALL-OSS-Flow零成功率引关注

作者

2025-12-06

69次阅读

机器人

在具身智能领域，真实场景的评测愈发关键。近期，全球首个具身智能大规模真机评测平台RoboChallenge的测试结果显示，基于Physical Intelligence (Pi)的π0和π0.5模型在成功率上遥遥领先。然而，自变量机器人（X Square Robot）的大模型wall-oss-flow表现不佳，在31次测试中大部分任务成功率为零，引发了行业对其真实能力的关注。RoboChallenge平台由Dexmal原力灵机联合Hugging Face发布，特点是采用UR5、Franka等四类主流机器人进行真机实测，通过“任务成功率+进度评分”双指标体系，客观评估模型在叠抹布、插花等30项日常任务中的表现。评测结果中，π0和π0.5模型展现出领先且成熟的任务执行能力。相比之下，自变量机器人的wall-oss-flow模型表现明显偏弱，尽管其创始人王潜曾表示模型水平“基本上和PI、和google在同一个水平线上”，但测试显示其执行链条常常中途失败，与宣传存在显著差距。业内人士分析，RoboChallenge等第三方真机评测平台为行业提供了透明、可复现的评估环境，避免了主观宣传带来的偏差。此次评测结果提醒业界，真正的技术竞争在于真实世界的任务执行能力，而非宣传口号。认识到差距是追赶的开始。