跳转到内容

项目概览

StarVLA 是一个”乐高式”的模块化代码库,用于把视觉-语言模型(VLM) 发展为视觉-语言-动作模型(VLA)

简单来说:VLM 能理解图像和文字,VLA 在此基础上还能输出机器人动作。StarVLA 帮你完成这个转化过程——从数据准备、模型训练到仿真评测,各组件独立可调试、即插即用

StarVLA 官方提供了基于 Qwen-VL 的 StarVLA Model Family,包含 4 种不同的动作输出方式:

框架动作输出方式参考论文
Qwen-FAST将动作编码为离散 token,由语言模型直接预测pi0-FAST
Qwen-OFT在 VLM 输出后接一个 MLP 头,直接回归连续动作值OpenVLA-OFT
Qwen-PI使用 Flow-Matching(扩散式)方法生成连续动作pi0
Qwen-GR00T双系统架构:VLM 做高层推理 + DiT 做快速动作生成GR00T-N1

模块化意味着:你只需在 Framework 中定义自己的模型结构,就可以复用通用的 Trainer、Dataloader 和评测部署管线——无需重写训练循环或评测代码。

  • 单任务模仿学习(从人类演示数据中学习,不需要设计奖励函数)。
  • 多模态多任务协同训练(同时使用多种数据训练,防止模型在学习新任务时遗忘已掌握的能力)。
  • [计划中] 强化学习适配。

已支持或计划支持的基准:

  • 已支持:SimplerEnv、LIBERO、RoboCasa、RoboTwin、CALVIN、BEHAVIOR。
  • 规划中:SO101、RLBench。

StarVLA 在 SimplerEnv 上的测试结果。

StarVLA 在 LIBERO 上的测试结果。

StarVLA 在 RoboCasa 上的测试结果。


基于 StarVLA 的项目:


最新动态

  • 2025/12/25:建立 Behavior-1K、RoboTwin 2.0 与 CALVIN 的流水线,期待与社区共享基线。
  • 2025/12/25:发布 RoboCasa 评测支持,无预训练即可达到 SOTA,详见 RoboCasa 文档
  • 2025/12/15:完成回归测试,持续更新见 Daily Development Log
  • 2025/12/09:支持训练 VLM、VLA 与 VLA+VLM 协同训练,见 VLM 联合训练文档
  • 2025/11/12:新增 Florence-2 支持,可在单张 A100 上训练,详见 乐高式设计
  • 2025/10/30:发布 LIBERO 训练与评测指南。
  • 2025/10/25:修复脚本链接与打包流程,感谢社区反馈。