Ir al contenido

Documentación de StarVLA

Construye, entrena y evalúa modelos Vision-Language-Action con una base de código modular y extensible.

StarVLA es una base de código modular y flexible para desarrollar modelos de Visión-Lenguaje (VLMs) en modelos de Visión-Lenguaje-Acción (VLA). Cada componente (modelo, datos, entrenador, configuración, evaluación) está diseñado con alta cohesión y bajo acoplamiento, permitiendo investigación plug-and-play e iteración rápida.

🚀 Inicio Rápido

Configuración del entorno, verificaciones rápidas, evaluación y flujos de trabajo de entrenamiento.

Comenzar →

📖 Descripción del Proyecto

Qué es StarVLA, capacidades actuales y enlaces clave.

Leer Descripción →

🧩 Diseño Tipo Lego

Los principios de diseño modular detrás de StarVLA.

Ver Diseño →

🤖 Catálogo de Modelos

Modelos publicados y checkpoints de ajuste fino.

Ver Catálogo →

📚 Preguntas Frecuentes

Preguntas comunes sobre configuraciones, backbones y entrenamiento.

Leer FAQ →