Schnellstart
Hintergrund
Abschnitt betitelt „Hintergrund“Falls Sie mit diesen Konzepten noch nicht vertraut sind, hier eine kurze Einfuehrung:
- VLM (Vision-Language Model): Ein KI-Modell, das sowohl Bilder als auch Text versteht, wie z. B. Qwen-VL oder GPT-4V.
- VLA (Vision-Language-Action Model): Erweitert ein VLM um Aktionsausgabe, sodass das Modell nicht nur “sehen” und “sprechen”, sondern auch “handeln” kann — es nimmt Bilder und natuerlichsprachliche Anweisungen als Eingabe und gibt Roboter-Aktionen aus (z. B. Gelenkwinkel — die Zielwinkelwerte fuer jedes Gelenk eines Roboterarms). Neben der Entwicklung aus VLMs koennen VLAs auch auf WMs (World Models) basieren — Videogenerierungsmodelle, die zukuenftige Zustaende vorhersagen.
- Was StarVLA macht: Stellen Sie sich StarVLA als “PyTorch fuer die VLA-Entwicklung” vor — es stellt die gesamte Infrastruktur fuer die Transformation von VLMs zu VLAs bereit: Datenladen, Trainingsschleifen, Evaluation und Deployment-Pipelines sind alle wiederverwendbar, sodass Sie sich auf das Modell selbst konzentrieren koennen. Ob Sie von einem VLM oder einem WM starten, Sie verwenden dasselbe Toolkit fuer Training und Evaluation.
Anforderungen
Abschnitt betitelt „Anforderungen“| Komponente | Minimum | Empfohlen |
|---|---|---|
| GPU | 1x NVIDIA GPU (>=16GB VRAM) | 8×A800 oder mehr (A100 / H200 usw.) |
| CUDA | 12.0+ | 12.4 |
| Python | 3.10 | 3.10 |
| Festplatte | ~20GB (Code + Basismodell) | 100GB+ (mit Datensaetzen) |
| Betriebssystem | Linux (Ubuntu 20.04+) | Ubuntu 22.04 |
Schritt 1: Installation
Abschnitt betitelt „Schritt 1: Installation“-
Repository klonen
Terminal-Fenster git clone https://github.com/starVLA/starVLAcd starVLA -
Conda-Umgebung erstellen
Terminal-Fenster conda create -n starVLA python=3.10 -yconda activate starVLA -
Abhaengigkeiten installieren
Terminal-Fenster # Basisabhaengigkeiten installierenpip install -r requirements.txt# FlashAttention2 installieren (erforderlich fuer schnelle Transformer-Inferenz)# Hinweis: flash-attn wird aus dem Quellcode kompiliert; die Erstinstallation kann 10-20 Minuten dauern -- das ist normalpip install flash-attn --no-build-isolation# starVLA im Entwicklungsmodus installieren (-e = editierbarer Modus:# Codeaenderungen werden sofort wirksam, ohne Neuinstallation)pip install -e .
Fehlerbehebung: flash-attn-Installation
Abschnitt betitelt „Fehlerbehebung: flash-attn-Installation“flash-attn ist empfindlich gegenueber CUDA- und PyTorch-Versionen. Falls die Installation fehlschlaegt, ueberpruefen Sie die Versionskompatibilitaet:
# CUDA-Version pruefennvcc -V
# Installierte Paketversionen pruefenpip list | grep -E 'torch|transformers|flash-attn'Verifizierte Kombinationen:
flash-attn==2.7.4.post1+ CUDA 12.0 / 12.4 + PyTorch 2.6.0
Falls Ihre nvcc-Version nicht mit Ihrer PyTorch-CUDA-Version uebereinstimmt (z. B. nvcc 11.8 aber PyTorch cu121), muessen Sie diese angleichen. Der einfachste Weg ist die Neuinstallation von PyTorch fuer Ihre nvcc-Version:
# Beispiel: fuer nvcc 12.4pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124Schritt 2: Installation ueberpruefen
Abschnitt betitelt „Schritt 2: Installation ueberpruefen“Zwei schnelle Schritte, um zu bestaetigen, dass alles funktioniert:
-
Basismodell herunterladen
StarVLA basiert auf der Qwen-VL-Modellfamilie. Sie muessen zuerst ein Basismodell herunterladen.
Terminal-Fenster # Hugging Face CLI installieren (falls noch nicht installiert)pip install huggingface_hub[cli]# Qwen3-VL-4B herunterladen (~8GB)huggingface-cli download Qwen/Qwen3-VL-4B-Instruct --local-dir ./playground/Pretrained_models/Qwen3-VL-4B-Instruct -
Framework-Schnelltest durchfuehren
Fuehren Sie einen Vorwaertsdurchlauf mit Testdaten durch, um zu ueberpruefen, ob das Modell laedt und korrekt vorhersagt:
Terminal-Fenster python starVLA/model/framework/QwenGR00T.pySie sollten Folgendes sehen:
- Die vollstaendige Modellstruktur wird ausgegeben
model.predict_action(fake_data)gibt ein Aktionsarray zurueck (Form:[batch, action_horizon, action_dim])- Keine Fehler
Falls ein CUDA-Speicherfehler auftritt, versuchen Sie ein kleineres Modell (z. B. Qwen2.5-VL-3B).
Verzeichnisstruktur
Abschnitt betitelt „Verzeichnisstruktur“Nach der Installation ist dies das Projektlayout, mit dem Sie arbeiten werden:
starVLA/ # Projektstammverzeichnis (Git-Repository)├── starVLA/ # Kernpaket (Python-Konvention: aeusseres Verzeichnis ist das Projekt, inneres gleichnamiges Verzeichnis ist der eigentliche Paketcode)│ ├── model/framework/ # Modelldefinitionen (QwenOFT.py, QwenGR00T.py usw.)│ ├── dataloader/ # Datenlade-Pipelines│ ├── training/ # Trainingsskripte│ └── config/ # DeepSpeed- und Trainingskonfigurationsvorlagen├── deployment/ # Deployment (Policy-Server)├── examples/ # Benchmark-spezifische Evaluations- und Trainingsbeispiele│ ├── LIBERO/│ ├── SimplerEnv/│ ├── Robocasa_tabletop/│ ├── Robotwin/│ └── Behavior/├── playground/ # Konventionsverzeichnis fuer Modelle und Daten│ ├── Pretrained_models/ # Basismodelle (z. B. Qwen3-VL-4B-Instruct)│ └── Datasets/ # Trainingsdatensaetze└── results/ # Trainingsausgaben (Checkpoints, Protokolle) └── Checkpoints/Wie geht es weiter?
Abschnitt betitelt „Wie geht es weiter?“Sobald Ihre Installation verifiziert ist, waehlen Sie Ihren Weg:
| Ihr Ziel | Empfohlene Lektuere |
|---|---|
| StarVLAs Design verstehen | Baukastenprinzip |
| Evaluation mit vorhandenen Checkpoints durchfuehren | Checkpoints im Model Zoo finden, dann einem Benchmark-Leitfaden folgen (LIBERO, SimplerEnv) |
| Mit eigenen Daten trainieren | Eigenen LeRobot-Datensatz verwenden |
| Co-Training mit VLM-Daten | Co-Training mit VLM-Daten |
| Haeufige Fragen | FAQ |