RoboCasa 평가
RoboCasa는 대규모 가정용 시뮬레이션 벤치마크입니다. 여기서는 Fourier GR1 휴머노이드 로봇(상체, 양팔)이 수행하는 24개의 테이블탑 Pick-and-Place 태스크로 구성된 GR1 Tabletop Tasks 서브셋을 사용합니다.
이 문서는 실험 결과 재현 방법을 안내합니다.
평가 과정은 크게 두 부분으로 구성됩니다:
robocasa환경 및 의존성 설정.starVLA와robocasa환경 모두에서 서비스를 시작하여 평가 실행.
이 워크플로우는 NVIDIA A100 GPU에서 정상 작동이 확인되었습니다.
실험 결과
섹션 제목: “실험 결과”| 태스크 | GR00T-N1.6 | StarVLA-GR00T-Qwen3 | StarVLA-π-Qwen3 | StarVLA-OFT-Qwen3 | StarVLA-FAST-Qwen3 |
|---|---|---|---|---|---|
| PnP Bottle To Cabinet Close | 51.5 | 46.0 | 26.0 | 30.0 | 38.0 |
| PnP Can To Drawer Close | 13.0 | 80.0 | 62.0 | 76.0 | 44.0 |
| PnP Cup To Drawer Close | 8.5 | 54.0 | 42.0 | 44.0 | 56.0 |
| PnP Milk To Microwave Close | 14.0 | 48.0 | 50.0 | 44.0 | 44.0 |
| PnP Potato To Microwave Close | 41.5 | 28.0 | 42.0 | 32.0 | 14.0 |
| PnP Wine To Cabinet Close | 16.5 | 46.0 | 32.0 | 36.0 | 14.0 |
| PnP Novel From Cuttingboard To Basket | 58.0 | 48.0 | 40.0 | 50.0 | 54.0 |
| PnP Novel From Cuttingboard To Cardboardbox | 46.5 | 40.0 | 46.0 | 40.0 | 42.0 |
| PnP Novel From Cuttingboard To Pan | 68.5 | 68.0 | 60.0 | 70.0 | 58.0 |
| PnP Novel From Cuttingboard To Pot | 65.0 | 52.0 | 40.0 | 54.0 | 58.0 |
| PnP Novel From Cuttingboard To Tieredbasket | 46.5 | 56.0 | 44.0 | 38.0 | 40.0 |
| PnP Novel From Placemat To Basket | 58.5 | 42.0 | 44.0 | 32.0 | 36.0 |
| PnP Novel From Placemat To Bowl | 57.5 | 44.0 | 52.0 | 58.0 | 38.0 |
| PnP Novel From Placemat To Plate | 63.0 | 48.0 | 50.0 | 52.0 | 42.0 |
| PnP Novel From Placemat To Tieredshelf | 28.5 | 18.0 | 28.0 | 24.0 | 18.0 |
| PnP Novel From Plate To Bowl | 57.0 | 60.0 | 52.0 | 60.0 | 52.0 |
| PnP Novel From Plate To Cardboardbox | 43.5 | 50.0 | 40.0 | 50.0 | 30.0 |
| PnP Novel From Plate To Pan | 51.0 | 54.0 | 36.0 | 66.0 | 48.0 |
| PnP Novel From Plate To Plate | 78.7 | 70.0 | 48.0 | 68.0 | 50.0 |
| PnP Novel From Tray To Cardboardbox | 51.5 | 38.0 | 34.0 | 44.0 | 28.0 |
| PnP Novel From Tray To Plate | 71.0 | 56.0 | 64.0 | 56.0 | 34.0 |
| PnP Novel From Tray To Pot | 64.5 | 50.0 | 44.0 | 62.0 | 46.0 |
| PnP Novel From Tray To Tieredbasket | 57.0 | 36.0 | 50.0 | 54.0 | 36.0 |
| PnP Novel From Tray To Tieredshelf | 31.5 | 16.0 | 28.0 | 30.0 | 16.0 |
| 평균 | 47.6 | 47.8 | 43.9 | 48.8 | 39.0 |
참고: 모든 값은 성공률(%)입니다. 단일 모델로 24개 전체 태스크를 학습했습니다. 결과는 태스크당 50회 롤아웃 기준입니다.
RoboCasa 평가
섹션 제목: “RoboCasa 평가”0. 체크포인트 다운로드
섹션 제목: “0. 체크포인트 다운로드”먼저 다음에서 체크포인트를 다운로드합니다:
1. 환경 설정
섹션 제목: “1. 환경 설정”환경 설정을 위해 먼저 공식 RoboCasa 설치 가이드를 참고하여 기본 robocasa-gr1-tabletop-tasks 환경을 설치하세요.
그런 다음 소켓 지원을 설치합니다:
pip install tyro2. 평가 워크플로우
섹션 제목: “2. 평가 워크플로우”1단계. 서버 시작 (starVLA 환경)
섹션 제목: “1단계. 서버 시작 (starVLA 환경)”첫 번째 터미널에서 starVLA conda 환경을 활성화하고 실행합니다:
python deployment/model_server/server_policy.py \ --ckpt_path ${your_ckpt} \ --port 5678 \ --use_bf162단계. 시뮬레이션 시작 (robocasa 환경)
섹션 제목: “2단계. 시뮬레이션 시작 (robocasa 환경)”두 번째 터미널에서 robocasa conda 환경을 활성화하고 실행합니다:
export PYTHONPATH=$(pwd):${PYTHONPATH}your_ckpt=StarVLA/Qwen3-VL-OFT-Robocasa/checkpoints/steps_90000_pytorch_model.pt
python examples/Robocasa_tabletop/eval_files/simulation_env.py\ --args.env_name ${env_name} \ --args.port 5678 \ --args.n_episodes 50 \ --args.n_envs 1 \ --args.max_episode_steps 720 \ --args.n_action_steps 12 \ --args.video_out_path ${video_out_path} \ --args.pretrained_path ${your_ckpt}일괄 평가 (선택 사항)
섹션 제목: “일괄 평가 (선택 사항)”GPU가 더 있다면 일괄 평가 스크립트를 사용할 수 있습니다:
bash examples/Robocasa_tabletop/batch_eval_args.sh참고: batch_eval_args.sh에서 올바른 체크포인트 경로를 지정했는지 확인하세요.
학습 결과 재현
섹션 제목: “학습 결과 재현”0단계: 학습 데이터셋 다운로드
섹션 제목: “0단계: 학습 데이터셋 다운로드”HuggingFace에서 PhysicalAI-Robotics-GR00T-X-Embodiment-Sim 디렉토리 데이터셋을 playground/Datasets/nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim 디렉토리에 다운로드합니다.
관련 파인튜닝 폴더만 다운로드하려면 GR00T-N1.5 저장소의 안내를 참고하세요.
또는 스크립트를 사용하여 *_1000 폴더를 다운로드합니다:
python examples/Robocasa_tabletop/download_gr00t_ft_data.py1단계: 학습 시작
섹션 제목: “1단계: 학습 시작”data_mix 파라미터를 수정하여 다양한 데이터셋을 선택할 수 있으며, 다음 스크립트로 *_1000 데이터셋을 파인튜닝할 수 있습니다:
bash examples/Robocasa_tabletop/train_files/run_robocasa.sh