Evaluation RoboCasa
RoboCasa est un benchmark de simulation menagere a grande echelle. Nous utilisons ici le sous-ensemble GR1 Tabletop Tasks, comprenant 24 taches de Pick-and-Place sur table realisees par un robot humanoide Fourier GR1 (haut du corps, bras doubles).
Ce document fournit les instructions pour reproduire nos resultats experimentaux.
Le processus d’evaluation se compose de deux parties principales :
- Configuration de l’environnement
robocasaet de ses dependances. - Execution de l’evaluation en lancant les services dans les environnements
starVLAetrobocasa.
Nous avons verifie que ce workflow fonctionne correctement sur les GPU NVIDIA A100.
Resultats experimentaux
Section intitulée « Resultats experimentaux »| Tache | GR00T-N1.6 | StarVLA-GR00T-Qwen3 | StarVLA-π-Qwen3 | StarVLA-OFT-Qwen3 | StarVLA-FAST-Qwen3 |
|---|---|---|---|---|---|
| PnP Bottle To Cabinet Close | 51.5 | 46.0 | 26.0 | 30.0 | 38.0 |
| PnP Can To Drawer Close | 13.0 | 80.0 | 62.0 | 76.0 | 44.0 |
| PnP Cup To Drawer Close | 8.5 | 54.0 | 42.0 | 44.0 | 56.0 |
| PnP Milk To Microwave Close | 14.0 | 48.0 | 50.0 | 44.0 | 44.0 |
| PnP Potato To Microwave Close | 41.5 | 28.0 | 42.0 | 32.0 | 14.0 |
| PnP Wine To Cabinet Close | 16.5 | 46.0 | 32.0 | 36.0 | 14.0 |
| PnP Novel From Cuttingboard To Basket | 58.0 | 48.0 | 40.0 | 50.0 | 54.0 |
| PnP Novel From Cuttingboard To Cardboardbox | 46.5 | 40.0 | 46.0 | 40.0 | 42.0 |
| PnP Novel From Cuttingboard To Pan | 68.5 | 68.0 | 60.0 | 70.0 | 58.0 |
| PnP Novel From Cuttingboard To Pot | 65.0 | 52.0 | 40.0 | 54.0 | 58.0 |
| PnP Novel From Cuttingboard To Tieredbasket | 46.5 | 56.0 | 44.0 | 38.0 | 40.0 |
| PnP Novel From Placemat To Basket | 58.5 | 42.0 | 44.0 | 32.0 | 36.0 |
| PnP Novel From Placemat To Bowl | 57.5 | 44.0 | 52.0 | 58.0 | 38.0 |
| PnP Novel From Placemat To Plate | 63.0 | 48.0 | 50.0 | 52.0 | 42.0 |
| PnP Novel From Placemat To Tieredshelf | 28.5 | 18.0 | 28.0 | 24.0 | 18.0 |
| PnP Novel From Plate To Bowl | 57.0 | 60.0 | 52.0 | 60.0 | 52.0 |
| PnP Novel From Plate To Cardboardbox | 43.5 | 50.0 | 40.0 | 50.0 | 30.0 |
| PnP Novel From Plate To Pan | 51.0 | 54.0 | 36.0 | 66.0 | 48.0 |
| PnP Novel From Plate To Plate | 78.7 | 70.0 | 48.0 | 68.0 | 50.0 |
| PnP Novel From Tray To Cardboardbox | 51.5 | 38.0 | 34.0 | 44.0 | 28.0 |
| PnP Novel From Tray To Plate | 71.0 | 56.0 | 64.0 | 56.0 | 34.0 |
| PnP Novel From Tray To Pot | 64.5 | 50.0 | 44.0 | 62.0 | 46.0 |
| PnP Novel From Tray To Tieredbasket | 57.0 | 36.0 | 50.0 | 54.0 | 36.0 |
| PnP Novel From Tray To Tieredshelf | 31.5 | 16.0 | 28.0 | 30.0 | 16.0 |
| Moyenne | 47.6 | 47.8 | 43.9 | 48.8 | 39.0 |
Note : Toutes les valeurs sont des taux de reussite en pourcentage (%). Un seul modele a ete entraine pour les 24 taches. Les resultats sont rapportes sur 50 episodes par tache.
Evaluation RoboCasa
Section intitulée « Evaluation RoboCasa »0. Telecharger les checkpoints
Section intitulée « 0. Telecharger les checkpoints »Tout d’abord, telechargez les checkpoints depuis :
1. Configuration de l’environnement
Section intitulée « 1. Configuration de l’environnement »Pour configurer l’environnement, veuillez d’abord suivre le guide d’installation officiel RoboCasa pour installer l’environnement de base robocasa-gr1-tabletop-tasks.
Puis installez le support socket :
pip install tyro2. Workflow d’evaluation
Section intitulée « 2. Workflow d’evaluation »Etape 1. Demarrer le serveur (environnement starVLA)
Section intitulée « Etape 1. Demarrer le serveur (environnement starVLA) »Dans le premier terminal, activez l’environnement conda starVLA et executez :
python deployment/model_server/server_policy.py \ --ckpt_path ${your_ckpt} \ --port 5678 \ --use_bf16Etape 2. Demarrer la simulation (environnement robocasa)
Section intitulée « Etape 2. Demarrer la simulation (environnement robocasa) »Dans le second terminal, activez l’environnement conda robocasa et executez :
export PYTHONPATH=$(pwd):${PYTHONPATH}your_ckpt=StarVLA/Qwen3-VL-OFT-Robocasa/checkpoints/steps_90000_pytorch_model.pt
python examples/Robocasa_tabletop/eval_files/simulation_env.py\ --args.env_name ${env_name} \ --args.port 5678 \ --args.n_episodes 50 \ --args.n_envs 1 \ --args.max_episode_steps 720 \ --args.n_action_steps 12 \ --args.video_out_path ${video_out_path} \ --args.pretrained_path ${your_ckpt}Evaluation par lots (optionnel)
Section intitulée « Evaluation par lots (optionnel) »Si vous disposez de plus de GPU, vous pouvez utiliser le script d’evaluation par lots :
bash examples/Robocasa_tabletop/batch_eval_args.shNote : Veuillez vous assurer de specifier le bon chemin de checkpoint dans batch_eval_args.sh
Reproduire les resultats d’entrainement
Section intitulée « Reproduire les resultats d’entrainement »Etape 0 : Telecharger le dataset d’entrainement
Section intitulée « Etape 0 : Telecharger le dataset d’entrainement »Telechargez les datasets du repertoire PhysicalAI-Robotics-GR00T-X-Embodiment-Sim depuis HuggingFace vers le repertoire playground/Datasets/nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim.
Pour telecharger uniquement les dossiers de fine-tuning pertinents, vous pouvez consulter les instructions du depot GR00T-N1.5.
Ou utilisez le script pour telecharger les dossiers *_1000 :
python examples/Robocasa_tabletop/download_gr00t_ft_data.pyEtape 1 : Lancer l’entrainement
Section intitulée « Etape 1 : Lancer l’entrainement »Differents datasets peuvent etre selectionnes en modifiant le parametre data_mix, et le script suivant peut etre utilise pour fine-tuner les datasets *_1000 :
bash examples/Robocasa_tabletop/train_files/run_robocasa.sh