BEHAVIOR-1K-Evaluation
BEHAVIOR-1K ist ein Haushaltsaufgaben-Simulations-Benchmark von Stanford mit 1000 Alltagsaktivitaeten (Kochen, Putzen, Aufraumen usw.). Wir folgen der Struktur der 2025 BEHAVIOR Challenge, um auf 50 vollstaendigen Haushaltsaufgaben zu trainieren und zu evaluieren. Es verwendet den R1Pro-Humanoiden (zwei Arme + Basis + Torso, 23-dimensionaler Aktionsraum).
Der Evaluationsprozess besteht aus zwei Hauptteilen:
- Einrichten der
behavior-Umgebung und Abhaengigkeiten. - Ausfuehren der Evaluation durch Starten von Diensten in sowohl der
starVLA- als auch derbehavior-Umgebung.
BEHAVIOR-Evaluation
Abschnitt betitelt „BEHAVIOR-Evaluation“1. Umgebungseinrichtung
Abschnitt betitelt „1. Umgebungseinrichtung“Um die Conda-Umgebung fuer behavior einzurichten:
git clone https://github.com/StanfordVL/BEHAVIOR-1K.gitconda create -n behavior python=3.10 -yconda activate behaviorcd BEHAVIOR-1Kpip install "setuptools<=79"# --omnigibson: OmniGibson-Simulator installieren (BEHAVIORs Physik-Engine)# --bddl: BDDL installieren (Behavior Domain Definition Language fuer Aufgabendefinitionen)# --joylo: JoyLo installieren (Teleoperations-Steuerungsinterface)# --dataset: BEHAVIOR-Datensatz-Assets herunterladen (Szenen, Objektmodelle usw.)./setup.sh --omnigibson --bddl --joylo --datasetconda install -c conda-forge libglupip install rich omegaconf hydra-core msgpack websockets av pandas google-authEbenfalls in der starVLA-Umgebung:
pip install websockets2. Evaluations-Workflow
Abschnitt betitelt „2. Evaluations-Workflow“Schritte:
- Checkpoint herunterladen
- Waehlen Sie das passende Skript gemaess Ihrem Bedarf
(A) Paralleles Evaluationsskript
Abschnitt betitelt „(A) Paralleles Evaluationsskript“CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash examples/Behavior/start_parallel_eval.shBevor Sie start_parallel_eval.sh ausfuehren, setzen Sie die folgenden Pfade:
star_vla_python: Python-Interpreter fuer die StarVLA-Umgebungsim_python: Python-Interpreter fuer die Behavior-UmgebungTASKS_JSONL_PATH: Aufgabenbeschreibungsdatei, heruntergeladen vom Trainingsdatensatz (enthalten unterexamples/Behavior/tasks.jsonl)BEHAVIOR_ASSET_PATH: Lokaler Pfad zum Behavior-Asset-Verzeichnis (Standard istBEHAVIOR-1K/datasetsnach der Installation mit./setup.sh)
(B) Debugging mit separaten Terminals
Abschnitt betitelt „(B) Debugging mit separaten Terminals“Zum einfacheren Debugging koennen Sie Client (Evaluationsumgebung) und Server (Policy) auch in zwei separaten Terminals starten:
bash examples/Behavior/start_server.shbash examples/Behavior/start_client.shDie obigen Debugging-Dateien fuehren die Evaluation auf dem Trainingsset durch.
(C) Aufgabenweise Evaluation (speichersicher)
Abschnitt betitelt „(C) Aufgabenweise Evaluation (speichersicher)“Um Speicherueberlauf zu verhindern, haben wir eine weitere Datei start_parallel_eval_per_task.sh implementiert:
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash examples/Behavior/start_parallel_eval_per_task.sh- Das Skript fuehrt die Evaluation fuer jede Aufgabe in
INSTANCE_NAMESiterativ durch - Fuer jede Aufgabe werden alle Instanzen aus
TEST_EVAL_INSTANCE_IDSauf die GPUs verteilt - Es wird gewartet, bis die vorherige Aufgabe abgeschlossen ist, bevor zur naechsten uebergegangen wird
Hinweise
Abschnitt betitelt „Hinweise“Wrapper-Typen
Abschnitt betitelt „Wrapper-Typen“-
RGBLowResWrapper: Verwendet nur RGB als visuelle Beobachtung und Kameraaufloesungen von 224x224. Die alleinige Verwendung von niedrigaufloesenden RGB-Bildern kann den Simulator beschleunigen und die Evaluationszeit verkuerzen. Dieser Wrapper ist im Standard-Track zulaessig.
-
DefaultWrapper: Wrapper mit der Standard-Beobachtungskonfiguration, die waehrend der Datenerfassung verwendet wird (RGB + Tiefe + Segmentierung, 720p fuer Kopfkamera und 480p fuer Handgelenkkamera). Dieser Wrapper ist im Standard-Track zulaessig, aber die Evaluation wird im Vergleich zum RGBLowResWrapper erheblich langsamer sein.
-
RichObservationWrapper: Laedt zusaetzliche Beobachtungsmodalitaeten wie Normal- und Flussbilder sowie privilegierte Aufgabeninformationen. Dieser Wrapper kann nur im privilegierten Informations-Track verwendet werden.
Aktionsdimensionen
Abschnitt betitelt „Aktionsdimensionen“BEHAVIOR hat action dim = 23:
"R1Pro": { "base": np.s_[0:3], # Indices 0-2 "torso": np.s_[3:7], # Indices 3-6 "left_arm": np.s_[7:14], # Indices 7-13 "left_gripper": np.s_[14:15], # Index 14 "right_arm": np.s_[15:22], # Indices 15-21 "right_gripper": np.s_[22:23] # Index 22}Videospeicherung
Abschnitt betitelt „Videospeicherung“Das Video wird im Format {task_name}_{idx}_{epi}.mp4 gespeichert, wobei idx die Instanznummer und epi die Episodennummer ist.
Haeufige Probleme
Abschnitt betitelt „Haeufige Probleme“Segmentation fault (core dumped): Ein wahrscheinlicher Grund ist, dass Vulkan nicht erfolgreich installiert wurde. Ueberpruefen Sie diesen Link.
ImportError: libGL.so.1: cannot open shared object file:
apt-get install ffmpeg libsm6 libxext6 -y