Aller au contenu

Model Zoo

ModeleDescriptionLien
Qwen2.5-VL-3B-ActionExtension du vocabulaire de Qwen2.5-VL avec des fast tokens (extension speciale du vocabulaire pour discretiser les actions continues en tokens)Hugging Face
Qwen3-VL-4B-ActionExtension du vocabulaire de Qwen3-VL avec des fast tokens (idem)Hugging Face
pi-fastPoids du tokenizer d’actions pi-fastHugging Face

Bridge est un dataset de manipulation sur table WidowX ; Fractal est le dataset de manipulation robotique RT-1 de Google.

ModeleFrameworkVLM de baseDescriptionWidowXLien
Qwen2.5-FAST-Bridge-RT-1QwenFastQwen2.5-VL-3BBridge + Fractal58.6HF
Qwen2.5-OFT-Bridge-RT-1QwenOFTQwen2.5-VL-3BBridge + Fractal41.8HF
Qwen2.5-PI-Bridge-RT-1QwenPIQwen2.5-VL-3BBridge + Fractal62.5HF
Qwen2.5-GR00T-Bridge-RT-1QwenGR00TQwen2.5-VL-3BBridge + Fractal63.6HF
Qwen-GR00T-BridgeQwenGR00TQwen2.5-VL-3BBridge uniquement71.4HF
Qwen3VL-OFT-Bridge-RT-1QwenOFTQwen3-VL-4BBridge + Fractal42.7HF
Qwen3VL-GR00T-Bridge-RT-1QwenGR00TQwen3-VL-4BBridge + Fractal65.3HF
Florence-GR00T-Bridge-RT-1QwenGR00TFlorence-2Bridge + Fractal (petit modele)-HF

Colonne WidowX : Taux de reussite (%) sur les taches du robot WidowX dans SimplerEnv. Plus eleve = mieux.

LIBERO comporte 4 suites de taches (Spatial, Object, Goal, Long Horizon) avec 40 taches au total. Tous les checkpoints sont entraines conjointement sur les 4 suites. Voir la documentation d’evaluation LIBERO.

ModeleFrameworkVLM de baseLien
Qwen2.5-VL-FAST-LIBERO-4in1QwenFastQwen2.5-VL-3BHF
Qwen2.5-VL-OFT-LIBERO-4in1QwenOFTQwen2.5-VL-3BHF
Qwen2.5-VL-GR00T-LIBERO-4in1QwenGR00TQwen2.5-VL-3BHF
Qwen3-VL-OFT-LIBERO-4in1QwenOFTQwen3-VL-4BHF
Qwen3-VL-PI-LIBERO-4in1QwenPIQwen3-VL-4BHF

Taches RoboCasa GR1 Tabletop avec 24 taches de Pick-and-Place. Voir la documentation d’evaluation RoboCasa.

ModeleFrameworkVLM de baseLien
Qwen3-VL-GR00T-Robocasa-gr1QwenGR00TQwen3-VL-4BHF
Qwen3-VL-OFT-RobocasaQwenOFTQwen3-VL-4BHF

Benchmark de manipulation bi-bras RoboTwin 2.0 avec 50 taches. Voir la documentation d’evaluation RoboTwin.

ModeleFrameworkVLM de baseLien
Qwen3-VL-OFT-Robotwin2-AllQwenOFTQwen3-VL-4BHF
Qwen3-VL-OFT-Robotwin2QwenOFTQwen3-VL-4BHF

Benchmark de taches menageres BEHAVIOR-1K utilisant le robot humanoide R1Pro. Voir la documentation d’evaluation BEHAVIOR.

ModeleDescriptionLien
BEHAVIOR-QwenDual-taskallEntraine conjointement sur les 50 tachesHF
BEHAVIOR-QwenDual-task1Entrainement sur une seule tacheHF
BEHAVIOR-QwenDual-task6-40kEntrainement conjoint sur 6 tachesHF
BEHAVIOR-rgp-segExperience avec observation par segmentationHF

DatasetDescriptionLien
LLaVA-OneVision-COCODataset image-texte pour le co-entrainement VLM (sous-ensemble ShareGPT4V-COCO)HF
RoboTwin-CleanDemonstrations propres RoboTwin 2.0 (50 par tache)HF
RoboTwin-RandomizedDemonstrations randomisees RoboTwin 2.0 (500 par tache)HF
RoboTwin-Randomized-targzIdem, format tar.gz compresse (pour telechargement en masse)HF
DatasetDescriptionLien
BEHAVIOR-1KConfigurations de simulation du benchmark BEHAVIOR-1KHF
BEHAVIOR-1K-datasetsDatasets d’entrainement BEHAVIOR-1KHF
BEHAVIOR-1K-datasets-assetsAssets de scenes et objets BEHAVIOR-1KHF
BEHAVIOR-1K-VISUALIZATION-DEMODemos de visualisation BEHAVIOR-1KHF
behavior-1k-task0Echantillon de donnees d’entrainement pour une seule tacheHF

Telechargez un checkpoint et lancez le serveur de politique :

Fenêtre de terminal
# Telechargement (necessite huggingface_hub)
huggingface-cli download StarVLA/Qwen3VL-GR00T-Bridge-RT-1 --local-dir ./results/Checkpoints/Qwen3VL-GR00T-Bridge-RT-1
# Demarrer le serveur de politique
python deployment/model_server/server_policy.py \
# steps_XXXXX est le nombre d'etapes d'entrainement -- remplacez par le nom de fichier reel de votre telechargement
# par ex. steps_50000_pytorch_model.pt ; executez `ls` pour voir le nom exact du fichier
--ckpt_path ./results/Checkpoints/Qwen3VL-GR00T-Bridge-RT-1/checkpoints/steps_XXXXX_pytorch_model.pt \
--port 5694 \
--use_bf16

Suivez ensuite le guide d’evaluation pour le benchmark que vous souhaitez tester (par exemple SimplerEnv, LIBERO, RoboCasa, RoboTwin, BEHAVIOR).