Aller au contenu

Evaluation RoboCasa

RoboCasa est un benchmark de simulation menagere a grande echelle. Nous utilisons ici le sous-ensemble GR1 Tabletop Tasks, comprenant 24 taches de Pick-and-Place sur table realisees par un robot humanoide Fourier GR1 (haut du corps, bras doubles).

Ce document fournit les instructions pour reproduire nos resultats experimentaux.

Le processus d’evaluation se compose de deux parties principales :

  1. Configuration de l’environnement robocasa et de ses dependances.
  2. Execution de l’evaluation en lancant les services dans les environnements starVLA et robocasa.

Nous avons verifie que ce workflow fonctionne correctement sur les GPU NVIDIA A100.


TacheGR00T-N1.6StarVLA-GR00T-Qwen3StarVLA-π-Qwen3StarVLA-OFT-Qwen3StarVLA-FAST-Qwen3
PnP Bottle To Cabinet Close51.546.026.030.038.0
PnP Can To Drawer Close13.080.062.076.044.0
PnP Cup To Drawer Close8.554.042.044.056.0
PnP Milk To Microwave Close14.048.050.044.044.0
PnP Potato To Microwave Close41.528.042.032.014.0
PnP Wine To Cabinet Close16.546.032.036.014.0
PnP Novel From Cuttingboard To Basket58.048.040.050.054.0
PnP Novel From Cuttingboard To Cardboardbox46.540.046.040.042.0
PnP Novel From Cuttingboard To Pan68.568.060.070.058.0
PnP Novel From Cuttingboard To Pot65.052.040.054.058.0
PnP Novel From Cuttingboard To Tieredbasket46.556.044.038.040.0
PnP Novel From Placemat To Basket58.542.044.032.036.0
PnP Novel From Placemat To Bowl57.544.052.058.038.0
PnP Novel From Placemat To Plate63.048.050.052.042.0
PnP Novel From Placemat To Tieredshelf28.518.028.024.018.0
PnP Novel From Plate To Bowl57.060.052.060.052.0
PnP Novel From Plate To Cardboardbox43.550.040.050.030.0
PnP Novel From Plate To Pan51.054.036.066.048.0
PnP Novel From Plate To Plate78.770.048.068.050.0
PnP Novel From Tray To Cardboardbox51.538.034.044.028.0
PnP Novel From Tray To Plate71.056.064.056.034.0
PnP Novel From Tray To Pot64.550.044.062.046.0
PnP Novel From Tray To Tieredbasket57.036.050.054.036.0
PnP Novel From Tray To Tieredshelf31.516.028.030.016.0
Moyenne47.647.843.948.839.0

Note : Toutes les valeurs sont des taux de reussite en pourcentage (%). Un seul modele a ete entraine pour les 24 taches. Les resultats sont rapportes sur 50 episodes par tache.


Tout d’abord, telechargez les checkpoints depuis :

Pour configurer l’environnement, veuillez d’abord suivre le guide d’installation officiel RoboCasa pour installer l’environnement de base robocasa-gr1-tabletop-tasks.

Puis installez le support socket :

Fenêtre de terminal
pip install tyro

Etape 1. Demarrer le serveur (environnement starVLA)

Section intitulée « Etape 1. Demarrer le serveur (environnement starVLA) »

Dans le premier terminal, activez l’environnement conda starVLA et executez :

Fenêtre de terminal
python deployment/model_server/server_policy.py \
--ckpt_path ${your_ckpt} \
--port 5678 \
--use_bf16

Etape 2. Demarrer la simulation (environnement robocasa)

Section intitulée « Etape 2. Demarrer la simulation (environnement robocasa) »

Dans le second terminal, activez l’environnement conda robocasa et executez :

Fenêtre de terminal
export PYTHONPATH=$(pwd):${PYTHONPATH}
your_ckpt=StarVLA/Qwen3-VL-OFT-Robocasa/checkpoints/steps_90000_pytorch_model.pt
python examples/Robocasa_tabletop/eval_files/simulation_env.py\
--args.env_name ${env_name} \
--args.port 5678 \
--args.n_episodes 50 \
--args.n_envs 1 \
--args.max_episode_steps 720 \
--args.n_action_steps 12 \
--args.video_out_path ${video_out_path} \
--args.pretrained_path ${your_ckpt}

Si vous disposez de plus de GPU, vous pouvez utiliser le script d’evaluation par lots :

Fenêtre de terminal
bash examples/Robocasa_tabletop/batch_eval_args.sh

Note : Veuillez vous assurer de specifier le bon chemin de checkpoint dans batch_eval_args.sh


Telechargez les datasets du repertoire PhysicalAI-Robotics-GR00T-X-Embodiment-Sim depuis HuggingFace vers le repertoire playground/Datasets/nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim.

Pour telecharger uniquement les dossiers de fine-tuning pertinents, vous pouvez consulter les instructions du depot GR00T-N1.5.

Ou utilisez le script pour telecharger les dossiers *_1000 :

Fenêtre de terminal
python examples/Robocasa_tabletop/download_gr00t_ft_data.py

Differents datasets peuvent etre selectionnes en modifiant le parametre data_mix, et le script suivant peut etre utilise pour fine-tuner les datasets *_1000 :

Fenêtre de terminal
bash examples/Robocasa_tabletop/train_files/run_robocasa.sh