RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注
作者
2025-12-06
6次阅读
机器人

在具身智能领域,真实场景的评测愈发关键。近期,全球首个具身智能大规模真机评测平台RoboChallenge的测试结果显示,基于Physical Intelligence (Pi)的π0和π0.5模型在成功率上遥遥领先。然而,自变量机器人(X Square Robot)的大模型wall-oss-flow表现不佳,在31次测试中大部分任务成功率为零,引发了行业对其真实能力的关注。RoboChallenge平台由Dexmal原力灵机联合Hugging Face发布,特点是采用UR5、Franka等四类主流机器人进行真机实测,通过“任务成功率+进度评分”双指标体系,客观评估模型在叠抹布、插花等30项日常任务中的表现。评测结果中,π0和π0.5模型展现出领先且成熟的任务执行能力。相比之下,自变量机器人的wall-oss-flow模型表现明显偏弱,尽管其创始人王潜曾表示模型水平“基本上和PI、和google在同一个水平线上”,但测试显示其执行链条常常中途失败,与宣传存在显著差距。业内人士分析,RoboChallenge等第三方真机评测平台为行业提供了透明、可复现的评估环境,避免了主观宣传带来的偏差。此次评测结果提醒业界,真正的技术竞争在于真实世界的任务执行能力,而非宣传口号。认识到差距是追赶的开始。
科技洞见