Zum Inhalt springen

Model Zoo

ModellBeschreibungLink
Qwen2.5-VL-3B-ActionErweiterung des Qwen2.5-VL-Vokabulars um Fast-Tokens (spezielle Vokabularerweiterung zur Diskretisierung kontinuierlicher Aktionen in Tokens)Hugging Face
Qwen3-VL-4B-ActionErweiterung des Qwen3-VL-Vokabulars um Fast-Tokens (wie oben)Hugging Face
pi-fastpi-fast Action-Tokenizer-GewichteHugging Face

Bridge ist ein WidowX-Tischmanipulationsdatensatz; Fractal ist Googles RT-1-Robotermanipulationsdatensatz.

ModellFrameworkBasis-VLMBeschreibungWidowXLink
Qwen2.5-FAST-Bridge-RT-1QwenFastQwen2.5-VL-3BBridge + Fractal58.6HF
Qwen2.5-OFT-Bridge-RT-1QwenOFTQwen2.5-VL-3BBridge + Fractal41.8HF
Qwen2.5-PI-Bridge-RT-1QwenPIQwen2.5-VL-3BBridge + Fractal62.5HF
Qwen2.5-GR00T-Bridge-RT-1QwenGR00TQwen2.5-VL-3BBridge + Fractal63.6HF
Qwen-GR00T-BridgeQwenGR00TQwen2.5-VL-3BNur Bridge71.4HF
Qwen3VL-OFT-Bridge-RT-1QwenOFTQwen3-VL-4BBridge + Fractal42.7HF
Qwen3VL-GR00T-Bridge-RT-1QwenGR00TQwen3-VL-4BBridge + Fractal65.3HF
Florence-GR00T-Bridge-RT-1QwenGR00TFlorence-2Bridge + Fractal (kleines Modell)-HF

WidowX-Spalte: Erfolgsrate (%) bei WidowX-Roboteraufgaben in SimplerEnv. Hoeher ist besser.

LIBERO umfasst 4 Aufgabensuiten (Spatial, Object, Goal, Long Horizon) mit insgesamt 40 Aufgaben. Alle Checkpoints werden gemeinsam auf allen 4 Suiten trainiert. Siehe LIBERO-Evaluationsdokumentation.

ModellFrameworkBasis-VLMLink
Qwen2.5-VL-FAST-LIBERO-4in1QwenFastQwen2.5-VL-3BHF
Qwen2.5-VL-OFT-LIBERO-4in1QwenOFTQwen2.5-VL-3BHF
Qwen2.5-VL-GR00T-LIBERO-4in1QwenGR00TQwen2.5-VL-3BHF
Qwen3-VL-OFT-LIBERO-4in1QwenOFTQwen3-VL-4BHF
Qwen3-VL-PI-LIBERO-4in1QwenPIQwen3-VL-4BHF

RoboCasa GR1 Tischaufgaben mit 24 Pick-and-Place-Aufgaben. Siehe RoboCasa-Evaluationsdokumentation.

ModellFrameworkBasis-VLMLink
Qwen3-VL-GR00T-Robocasa-gr1QwenGR00TQwen3-VL-4BHF
Qwen3-VL-OFT-RobocasaQwenOFTQwen3-VL-4BHF

RoboTwin 2.0 Zweiarm-Manipulations-Benchmark mit 50 Aufgaben. Siehe RoboTwin-Evaluationsdokumentation.

ModellFrameworkBasis-VLMLink
Qwen3-VL-OFT-Robotwin2-AllQwenOFTQwen3-VL-4BHF
Qwen3-VL-OFT-Robotwin2QwenOFTQwen3-VL-4BHF

BEHAVIOR-1K Haushaltsaufgaben-Benchmark mit R1Pro-Humanoiden. Siehe BEHAVIOR-Evaluationsdokumentation.

ModellBeschreibungLink
BEHAVIOR-QwenDual-taskallGemeinsam auf allen 50 Aufgaben trainiertHF
BEHAVIOR-QwenDual-task1Einzelaufgaben-TrainingHF
BEHAVIOR-QwenDual-task6-40k6-Aufgaben gemeinsames TrainingHF
BEHAVIOR-rgp-segSegmentierungs-BeobachtungsexperimentHF

DatensatzBeschreibungLink
LLaVA-OneVision-COCOBild-Text-Datensatz fuer VLM-Co-Training (ShareGPT4V-COCO-Teilmenge)HF
RoboTwin-CleanRoboTwin 2.0 bereinigte Demonstrationen (50 pro Aufgabe)HF
RoboTwin-RandomizedRoboTwin 2.0 randomisierte Demonstrationen (500 pro Aufgabe)HF
RoboTwin-Randomized-targzWie oben, im tar.gz-Paketformat (fuer Massen-Download)HF
DatensatzBeschreibungLink
BEHAVIOR-1KBEHAVIOR-1K-Benchmark-SimulationskonfigurationenHF
BEHAVIOR-1K-datasetsBEHAVIOR-1K-TrainingsdatensaetzeHF
BEHAVIOR-1K-datasets-assetsBEHAVIOR-1K-Szenen- und Objekt-AssetsHF
BEHAVIOR-1K-VISUALIZATION-DEMOBEHAVIOR-1K-VisualisierungsdemosHF
behavior-1k-task0Einzelaufgaben-TrainingsdatenbeispielHF

Laden Sie einen Checkpoint herunter und starten Sie den Policy-Server:

Terminal-Fenster
# Herunterladen (erfordert huggingface_hub)
huggingface-cli download StarVLA/Qwen3VL-GR00T-Bridge-RT-1 --local-dir ./results/Checkpoints/Qwen3VL-GR00T-Bridge-RT-1
# Policy-Server starten
python deployment/model_server/server_policy.py \
# steps_XXXXX ist die Trainingsschrittzahl — ersetzen Sie dies durch den tatsaechlichen Dateinamen aus Ihrem Download
# z. B. steps_50000_pytorch_model.pt; fuehren Sie `ls` aus, um den genauen Dateinamen zu sehen
--ckpt_path ./results/Checkpoints/Qwen3VL-GR00T-Bridge-RT-1/checkpoints/steps_XXXXX_pytorch_model.pt \
--port 5694 \
--use_bf16

Folgen Sie dann dem Evaluationsleitfaden fuer den Benchmark, den Sie testen moechten (z. B. SimplerEnv, LIBERO, RoboCasa, RoboTwin, BEHAVIOR).