Ir al contenido

Catálogo de Modelos

ModeloDescripciónEnlace
Qwen2.5-VL-3B-ActionExtiende el vocabulario de Qwen2.5-VL con tokens fast (extensión especial de vocabulario para discretizar acciones continuas en tokens)Hugging Face
Qwen3-VL-4B-ActionExtiende el vocabulario de Qwen3-VL con tokens fast (igual que arriba)Hugging Face
pi-fastPesos del tokenizador de acciones pi-fastHugging Face

Bridge es un dataset de manipulación sobre mesa con WidowX; Fractal es el dataset de manipulación robótica RT-1 de Google.

ModeloFrameworkVLM BaseDescripciónWidowXEnlace
Qwen2.5-FAST-Bridge-RT-1QwenFastQwen2.5-VL-3BBridge + Fractal58.6HF
Qwen2.5-OFT-Bridge-RT-1QwenOFTQwen2.5-VL-3BBridge + Fractal41.8HF
Qwen2.5-PI-Bridge-RT-1QwenPIQwen2.5-VL-3BBridge + Fractal62.5HF
Qwen2.5-GR00T-Bridge-RT-1QwenGR00TQwen2.5-VL-3BBridge + Fractal63.6HF
Qwen-GR00T-BridgeQwenGR00TQwen2.5-VL-3BSolo Bridge71.4HF
Qwen3VL-OFT-Bridge-RT-1QwenOFTQwen3-VL-4BBridge + Fractal42.7HF
Qwen3VL-GR00T-Bridge-RT-1QwenGR00TQwen3-VL-4BBridge + Fractal65.3HF
Florence-GR00T-Bridge-RT-1QwenGR00TFlorence-2Bridge + Fractal (modelo pequeño)-HF

Columna WidowX: Tasa de éxito (%) en tareas del robot WidowX en SimplerEnv. Mayor es mejor.

LIBERO tiene 4 suites de tareas (Spatial, Object, Goal, Long Horizon) con 40 tareas en total. Todos los checkpoints se entrenan conjuntamente en las 4 suites. Consulta la documentación de evaluación de LIBERO.

ModeloFrameworkVLM BaseEnlace
Qwen2.5-VL-FAST-LIBERO-4in1QwenFastQwen2.5-VL-3BHF
Qwen2.5-VL-OFT-LIBERO-4in1QwenOFTQwen2.5-VL-3BHF
Qwen2.5-VL-GR00T-LIBERO-4in1QwenGR00TQwen2.5-VL-3BHF
Qwen3-VL-OFT-LIBERO-4in1QwenOFTQwen3-VL-4BHF
Qwen3-VL-PI-LIBERO-4in1QwenPIQwen3-VL-4BHF

Tareas de Mesa GR1 de RoboCasa con 24 tareas de Pick-and-Place. Consulta la documentación de evaluación de RoboCasa.

ModeloFrameworkVLM BaseEnlace
Qwen3-VL-GR00T-Robocasa-gr1QwenGR00TQwen3-VL-4BHF
Qwen3-VL-OFT-RobocasaQwenOFTQwen3-VL-4BHF

Benchmark de manipulación de doble brazo RoboTwin 2.0 con 50 tareas. Consulta la documentación de evaluación de RoboTwin.

ModeloFrameworkVLM BaseEnlace
Qwen3-VL-OFT-Robotwin2-AllQwenOFTQwen3-VL-4BHF
Qwen3-VL-OFT-Robotwin2QwenOFTQwen3-VL-4BHF

Benchmark de tareas domésticas BEHAVIOR-1K usando el robot humanoide R1Pro. Consulta la documentación de evaluación de BEHAVIOR.

ModeloDescripciónEnlace
BEHAVIOR-QwenDual-taskallEntrenado conjuntamente en las 50 tareasHF
BEHAVIOR-QwenDual-task1Entrenamiento de tarea únicaHF
BEHAVIOR-QwenDual-task6-40kEntrenamiento conjunto de 6 tareasHF
BEHAVIOR-rgp-segExperimento de observación con segmentaciónHF

DatasetDescripciónEnlace
LLaVA-OneVision-COCODataset de imagen-texto para co-entrenamiento VLM (subconjunto ShareGPT4V-COCO)HF
RoboTwin-CleanDemostraciones limpias de RoboTwin 2.0 (50 por tarea)HF
RoboTwin-RandomizedDemostraciones aleatorizadas de RoboTwin 2.0 (500 por tarea)HF
RoboTwin-Randomized-targzIgual que arriba, formato empaquetado tar.gz (para descarga masiva)HF
DatasetDescripciónEnlace
BEHAVIOR-1KConfiguraciones de simulación del benchmark BEHAVIOR-1KHF
BEHAVIOR-1K-datasetsDatasets de entrenamiento de BEHAVIOR-1KHF
BEHAVIOR-1K-datasets-assetsAssets de escenas y objetos de BEHAVIOR-1KHF
BEHAVIOR-1K-VISUALIZATION-DEMODemos de visualización de BEHAVIOR-1KHF
behavior-1k-task0Muestra de datos de entrenamiento de tarea únicaHF

Descarga un checkpoint y ejecuta el servidor de políticas:

Ventana de terminal
# Descargar (requiere huggingface_hub)
huggingface-cli download StarVLA/Qwen3VL-GR00T-Bridge-RT-1 --local-dir ./results/Checkpoints/Qwen3VL-GR00T-Bridge-RT-1
# Iniciar el servidor de políticas
python deployment/model_server/server_policy.py \
# steps_XXXXX es el conteo de pasos de entrenamiento — reemplaza con el nombre de archivo real de tu descarga
# por ejemplo steps_50000_pytorch_model.pt; ejecuta `ls` para ver el nombre de archivo exacto
--ckpt_path ./results/Checkpoints/Qwen3VL-GR00T-Bridge-RT-1/checkpoints/steps_XXXXX_pytorch_model.pt \
--port 5694 \
--use_bf16

Luego sigue la guía de evaluación para el benchmark que desees probar (por ejemplo, SimplerEnv, LIBERO, RoboCasa, RoboTwin, BEHAVIOR).