Documentation StarVLA

Construisez, entrainez et evaluez des modeles Vision-Langage-Action avec un codebase modulaire et extensible.

Demarrage rapide Rapport technique Model Zoo GitHub

Qu’est-ce que StarVLA ?

StarVLA est un codebase modulaire et flexible pour transformer des modeles de Vision-Langage (VLM) en modeles de Vision-Langage-Action (VLA). Chaque composant (modele, donnees, entraineur, configuration, evaluation) est concu pour une forte cohesion et un faible couplage, permettant une recherche plug-and-play et une iteration rapide.

Apercu de la documentation

🚀 Demarrage rapide

Configuration de l’environnement, verifications rapides, evaluation et workflows d’entrainement.

Commencer →

📖 Vue d'ensemble du projet

Ce qu’est StarVLA, ses capacites actuelles et les liens essentiels.

Lire la vue d’ensemble →

🧩 Conception modulaire

Les principes de conception modulaire derriere StarVLA.

Voir la conception →

🤖 Model Zoo

Modeles publies et checkpoints de fine-tuning.

Voir le Model Zoo →

📚 FAQ

Questions frequentes sur les configurations, les backbones et l’entrainement.

Lire la FAQ →