Zum Inhalt springen

Projektuebersicht

StarVLA ist eine modulare Codebasis nach dem Baukastenprinzip zur Entwicklung von Vision-Language-Modellen (VLMs) zu Vision-Language-Action-Modellen (VLA).

Kurz gesagt: VLMs verstehen Bilder und Text; VLAs geben zusaetzlich Roboter-Aktionen aus. StarVLA uebernimmt diese Transformation durchgaengig — von der Datenvorbereitung ueber das Modelltraining bis zur Simulationsevaluation — mit Komponenten, die unabhaengig debuggbar und per Plug-and-Play einsetzbar sind.

StarVLA stellt offiziell die auf Qwen-VL basierende StarVLA-Modellfamilie mit 4 verschiedenen Aktionsausgabestrategien bereit:

FrameworkAktionsausgabeReferenz
Qwen-FASTKodiert Aktionen als diskrete Tokens, die vom Sprachmodell vorhergesagt werdenpi0-FAST
Qwen-OFTMLP-Kopf nach der VLM-Ausgabe, direkte Regression kontinuierlicher AktionswerteOpenVLA-OFT
Qwen-PIFlow-Matching (diffusionsbasierte) Methode zur Erzeugung kontinuierlicher Aktionenpi0
Qwen-GR00TDuales System: VLM fuer High-Level-Reasoning + DiT fuer schnelle AktionsgenerierungGR00T-N1

Modularitaet bedeutet: Sie muessen lediglich Ihre Modellstruktur in einem Framework definieren und koennen den gemeinsamen Trainer, Dataloader und die Evaluations-/Deployment-Pipeline wiederverwenden — ohne Trainingsschleifen oder Evaluationscode neu schreiben zu muessen.

  • Einzelaufgaben-Imitationslernen (Lernen aus menschlichen Demonstrationen — keine Belohnungsfunktion erforderlich).
  • Multimodales Multi-Task-Co-Training (gleichzeitiges Training auf mehreren Datenquellen, um zu verhindern, dass das Modell zuvor erlernte Faehigkeiten vergisst).
  • [Geplant] Anpassung durch Reinforcement Learning.

Unterstuetzte oder geplante Benchmarks:

  • Unterstuetzt: SimplerEnv, LIBERO, RoboCasa, RoboTwin, CALVIN, BEHAVIOR.
  • Geplant: SO101, RLBench.

StarVLA-Ergebnisse auf SimplerEnv.

StarVLA-Ergebnisse auf LIBERO.

StarVLA-Ergebnisse auf RoboCasa.

  • Richten Sie Ihre Umgebung ein und ueberpruefen Sie die Installation unter Schnellstart.
  • Erkunden Sie die Designprinzipien unter Baukastenprinzip.
  • Durchsuchen Sie Checkpoints im Model Zoo.

Auf StarVLA basierende Projekte:


Neueste Aktualisierungen

  • 2025/12/25: Pipelines fuer Behavior-1K, RoboTwin 2.0 und CALVIN erstellt; Baselines sollen mit der Community geteilt werden.
  • 2025/12/25: RoboCasa-Evaluationsunterstuetzung veroeffentlicht, SOTA ohne Vortraining erreicht. Siehe die RoboCasa-Dokumentation.
  • 2025/12/15: Release-Regressionspruefung abgeschlossen; laufende Aktualisierungen im Taeglichen Entwicklungsprotokoll.
  • 2025/12/09: Open-Source-Training fuer VLM, VLA und VLA+VLM-Co-Training. Siehe die VLM-Co-Training-Dokumentation.
  • 2025/11/12: Florence-2-Unterstuetzung fuer ressourcenbeschraenktes VLM-Training (einzelne A100) hinzugefuegt. Siehe Baukastenprinzip fuer Workflow-Hinweise.
  • 2025/10/30: LIBERO-Trainings- und Evaluationsleitfaeden veroeffentlicht.
  • 2025/10/25: Skript-Links und Pakete basierend auf Community-Feedback verbessert.