コンテンツにスキップ

プロジェクト概要

StarVLAは、Vision-Language Model(VLM)Vision-Language-Action(VLA)モデルに変換するための、レゴのようなモジュラーコードベースです。

簡単に言うと、VLMは画像とテキストを理解するモデルであり、VLAはさらにロボットのアクションを出力できるモデルです。StarVLAは、データ準備からモデルトレーニング、シミュレーション評価まで、この変換をエンドツーエンドで処理します。各コンポーネントは個別にデバッグ可能で、プラグアンドプレイです。

StarVLAは、Qwen-VLベースのStarVLAモデルファミリーを4つの異なるアクション出力戦略で公式に提供しています:

フレームワークアクション出力参考
Qwen-FASTアクションを離散トークンにエンコードし、言語モデルで予測pi0-FAST
Qwen-OFTVLM出力後のMLPヘッドで、連続的なアクション値を直接回帰OpenVLA-OFT
Qwen-PIFlow-Matching(拡散ベース)手法で連続アクションを生成pi0
Qwen-GR00Tデュアルシステム:高レベル推論用VLM + 高速アクション生成用DiTGR00T-N1

モジュラーの意味: Frameworkでモデル構造を定義するだけで、共通のTrainer、Dataloader、評価・デプロイパイプラインを再利用できます。トレーニングループや評価コードを書き直す必要はありません。

  • シングルタスク模倣学習(人間のデモンストレーションから学習 — 報酬関数は不要)。
  • マルチモーダル・マルチタスク共同トレーニング(複数のデータソースで同時にトレーニングし、モデルが以前学習した能力を忘れることを防止)。
  • [計画中] 強化学習への適応。

シミュレーションベンチマーク

Section titled “シミュレーションベンチマーク”

サポート済みまたは計画中のベンチマーク:

  • サポート済み: SimplerEnv, LIBERO, RoboCasa, RoboTwin, CALVIN, BEHAVIOR。
  • 計画中: SO101, RLBench。

SimplerEnvでのStarVLAの結果

LIBEROでのStarVLAの結果

RoboCasaでのStarVLAの結果


StarVLAベースのプロジェクト:


最新情報

  • 2025/12/25: Behavior-1K、RoboTwin 2.0、CALVINのパイプラインが確立。コミュニティとベースラインの共有を予定。
  • 2025/12/25: RoboCasa評価サポートをリリース。事前学習なしでSOTAを達成。RoboCasaドキュメントを参照してください。
  • 2025/12/15: リリース回帰チェック完了。継続的な更新はデイリー開発ログを参照。
  • 2025/12/09: VLM、VLA、VLA+VLM共同トレーニングのオープンソーストレーニング。VLM共同トレーニングドキュメントを参照。
  • 2025/11/12: リソース制約のあるVLMトレーニング(単一A100)向けにFlorence-2サポートを追加。ワークフローについてはレゴ式設計を参照。
  • 2025/10/30: LIBEROのトレーニングおよび評価ガイドをリリース。
  • 2025/10/25: コミュニティのフィードバックに基づき、スクリプトリンクとパッケージングを整備。