SimplerEnv 评测
SimplerEnv 是一个基于 ManiSkill 的仿真评测环境,使用 WidowX 机械臂执行桌面操作任务(如抓取、放置、开关抽屉等)。它被广泛用于评测在 Open X-Embodiment(OXE)数据集上训练的 VLA 模型。
本文档提供在 SimplerEnv 上复现我们实验结果的操作指南。评测流程主要包含两部分:
- 配置
simpler_env环境与依赖。 - 分别在
starVLA与simpler_env环境中启动服务并运行评测。
我们已在 NVIDIA A100 与 RTX 4090 上验证该流程可稳定运行。
Experimental Results
Section titled “Experimental Results”WidowX Robot (Visual Matching)
Section titled “WidowX Robot (Visual Matching)”| Method | Steps | Put Spoon on Towel | Put Carrot on Plate | Stack Green Block on Yellow Block | Put Eggplant in Yellow Basket | Average |
|---|---|---|---|---|---|---|
| RT-1-X | - | 0.0 | 4.2 | 0.0 | 0.0 | 1.1 |
| Octo-Base | - | 15.8 | 12.5 | 0.0 | 41.7 | 17.5 |
| Octo-Small | - | 41.7 | 8.2 | 0.0 | 56.7 | 26.7 |
| OpenVLA | - | 4.2 | 0.0 | 0.0 | 12.5 | 4.2 |
| CogACT | - | 71.7 | 50.8 | 15.0 | 67.5 | 51.3 |
| SpatialVLA | - | 16.7 | 25.0 | 29.2 | 100.0 | 42.7 |
| π₀ | - | 29.1 | 0.0 | 16.6 | 62.5 | 27.1 |
| π₀-FAST | - | 29.1 | 21.9 | 10.8 | 66.6 | 48.3 |
| GR00T N1.5 | - | 75.3 | 54.3 | 57.0 | 61.3 | 61.9 |
| Magma | - | 37.5 | 31.0 | 12.7 | 60.5 | 35.8 |
| StarVLA-FAST (Qwen3-VL) | 15K | 18.8 | 31.3 | 4.2 | 71.9 | 31.6 |
| StarVLA-OFT (Qwen3-VL) | 65K | 90.3 | 38.5 | 29.7 | 100.0 | 64.6 |
| StarVLA-π (Qwen3-VL) | 40K | 78.1 | 46.9 | 30.2 | 88.5 | 60.9 |
| StarVLA-GR00T (Qwen3-VL) | 20K | 83.0 | 59.4 | 18.8 | 100.0 | 65.3 |
| StarVLA-OFT (Cosmos-Predict2-2B) | 30K | 66.8 | 62.6 | 25.3 | 90.2 | 61.2 |
| StarVLA-π (Cosmos-Predict2-2B) | 30K | 81.4 | 55.2 | 25.1 | 73.0 | 58.7 |
| StarVLA-GR00T (Cosmos-Predict2-2B) | 30K | 80.4 | 65.4 | 20.0 | 80.6 | 61.6 |
Google Robot (Visual Matching)
Section titled “Google Robot (Visual Matching)”| Method | Pick Coke Can | Move Near | Open/Close Drawer | Open Top Drawer and Place Apple | Average |
|---|---|---|---|---|---|
| RT-1 | 85.7 | 44.2 | 73.0 | 6.5 | 52.4 |
| RT-1-X | 56.7 | 31.7 | 59.7 | 21.3 | 42.4 |
| RT-2-X | 78.7 | 77.9 | 25.0 | 3.7 | 46.3 |
| OpenVLA | 18.0 | 56.3 | 63.0 | 0.0 | 34.3 |
| CogACT | 91.3 | 85.0 | 71.8 | 50.9 | 74.8 |
| SpatialVLA | 86.0 | 77.9 | 57.4 | - | 75.1 |
| π₀ | 72.7 | 65.3 | 38.3 | - | 58.8 |
| π₀-FAST | 75.3 | 67.5 | 42.9 | - | 61.9 |
| GR00T N1.5* | 51.7 | 54.0 | 27.8 | 7.4 | 35.2 |
| Magma | 83.7 | 65.4 | 56.0 | 6.4 | 52.9 |
| StarVLA-OFT | 95.3 | 75.0 | 68.8 | 66.1 | 76.0 |
Google Robot (Variant Aggregation)
Section titled “Google Robot (Variant Aggregation)”| Method | Pick Coke Can | Move Near | Open/Close Drawer | Open Top Drawer and Place Apple | Average |
|---|---|---|---|---|---|
| RT-1 | 89.8 | 50.0 | 32.3 | 2.6 | 43.7 |
| RT-1-X | 49.0 | 32.3 | 29.4 | 10.1 | 30.2 |
| RT-2-X | 82.3 | 79.2 | 35.3 | 20.6 | 54.4 |
| OpenVLA | 60.8 | 67.7 | 28.8 | 0.0 | 39.3 |
| CogACT | 89.6 | 80.8 | 28.3 | 46.6 | 61.3 |
| SpatialVLA | 88.0 | 82.5 | 41.8 | - | 70.7 |
| π₀ | 75.2 | 63.7 | 25.6 | - | 54.8 |
| π₀-FAST | 77.6 | 68.2 | 31.3 | - | 59.0 |
| GR00T N1.5 | 69.3 | 68.7 | 35.8 | 4.0 | 44.5 |
| Magma | 68.8 | 65.7 | 53.4 | 18.5 | 51.6 |
| StarVLA-OFT | 91.3 | 75.1 | 55.0 | 59.4 | 70.2 |
Note: All StarVLA Google Robot results use Qwen3-VL-4B as backbone. Numbers marked with * denote our reimplementation.
SimplerEnv 评测
Section titled “SimplerEnv 评测”1. 环境配置
Section titled “1. 环境配置”请先参考官方 SimplerEnv 仓库 安装基础 simpler_env 环境。
随后,在 simpler_env 环境中安装以下依赖:
conda activate simpler_envpip install tyro matplotlib mediapy websockets msgpackpip install numpy==1.24.4 # 降级 numpy 是因为仿真环境对 numpy 版本有严格兼容性要求常见问题:
在 NVIDIA A100 上测试 SimplerEnv 时,可能会遇到以下错误:
libvulkan.so.1: cannot open shared object file: No such file or directory
可参考此链接修复:安装指南 – Vulkan 部分
我们提供了一个最小化的环境验证脚本:
python examples/SimplerEnv/test_your_simplerEnv.py如果看到 ”✅ Env built successfully” 消息,说明 SimplerEnv 已正确安装并可以使用。
2. 评测流程
Section titled “2. 评测流程”请在 starVLA 主仓库根目录使用两个独立终端运行评测(每个环境一个终端)。
- starVLA 环境:运行策略推理服务。
- simpler_env 环境:运行仿真评测代码。
Step 0. 下载检查点
Section titled “Step 0. 下载检查点”下载检查点:Qwen3VL-GR00T-Bridge-RT-1
Step 1. 启动服务端(starVLA 环境)
Section titled “Step 1. 启动服务端(starVLA 环境)”在第一个终端中,激活 starVLA conda 环境并运行:
bash examples/SimplerEnv/eval_files/run_policy_server.sh注意:请打开 examples/SimplerEnv/eval_files/run_policy_server.sh,找到 your_ckpt 变量,将其改为你实际的 checkpoint 路径,例如 results/Checkpoints/Qwen3VL-GR00T-Bridge-RT-1/checkpoints/steps_50000_pytorch_model.pt。
Step 2. 启动仿真(simpler_env 环境)
Section titled “Step 2. 启动仿真(simpler_env 环境)”在第二个终端中,激活 simpler_env conda 环境并运行:
export MODEL_PATH=.../checkpoints/steps_50000_pytorch_model.ptbash examples/SimplerEnv/start_simpler_env.sh ${MODEL_PATH}此脚本会自动启动 WidowX 机器人评测任务,复现上述基准测试结果。
注意:请打开 examples/SimplerEnv/start_simpler_env.sh,找到 SimplerEnv_PATH 变量,将其改为你的 SimplerEnv 仓库克隆路径(如 /path/to/SimplerEnv)。
常见问题:
运行策略服务器时如果遇到 NotImplementedError: Framework QwenGR00T is not implemented,这通常是因为 Framework 尚未被正确注册到 Python 的 import 路径中。请先运行冒烟测试来触发正确的注册:
python starVLA/model/framework/QwenGR00T.py如果冒烟测试通过,再重新启动策略服务器即可。
在 OXE 上训练
Section titled “在 OXE 上训练”步骤:
-
下载 LeRobot 格式的 OXE 数据集:
-
将
modality.json放入每个*lerobot/meta/modality.json:- bridge modality - 重命名为
modality.json并放入bridge_orig_lerobot/meta/modality.json - fractal modality - 重命名为
modality.json并放入fractal20220817_data_lerobot/meta/modality.json
- bridge modality - 重命名为
-
在
config.yaml中添加数据集路径:datasets:vla_data:dataset_py: lerobot_datasetsdata_root_dir: playground/Datasets/OXE_LEROBOT_DATASETdata_mix: bridge_rt_1
检查数据加载器
Section titled “检查数据加载器”我们提供了一个简单的方式来检查你的数据加载器。确保可以加载批次数据:
python starVLA/dataloader/lerobot_datasets.py --config_yaml examples/SimplerEnv/train_files/starvla_cotrain_oxe.yaml在运行之前,需要确保你的框架可以使用 fake data 进行 forward 和 predict_action。
尝试以下命令:
python starVLA/model/framework/QwenGR00T.py --config_yaml examples/SimplerEnv/train_files/starvla_cotrain_oxe.yaml准备就绪后,使用我们提供的脚本开始训练:
bash ./examples/SimplerEnv/train_files/run_oxe_train.sh注意:确保脚本明确使用经过验证的配置路径。如果尚未传递,请添加 --config_yaml 参数。