VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks
๐ ๋ ผ๋ฌธ ์ ๋ณด
1. ๊ฐ์
VLABench๋ Vision-Language-Action(VLA) ๋ชจ๋ธ๊ณผ VLM ๊ธฐ๋ฐ ๋ก๋ด ์กฐ์ workflow๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ค๊ณ๋, ํ์ฌ๊น์ง ๊ฐ์ฅ ํฐ ๊ท๋ชจ์ ์ธ์ด ์กฐ๊ฑด ๋ก๋ด ์กฐ์(Language-Conditioned Manipulation, LCM) ๋ฒค์น๋งํฌ๋ก, ๊ธฐ์กด์ RLBench, CALVIN, LIBERO ๊ฐ์ task suite๋ ์ ์ฉํ์ง๋ง, ํ์ค์ ์ธ ์ธ๊ฐโ๋ก๋ด ์ํธ์์ฉ์์ ์๊ตฌ๋๋ ๋ค๋จ๊ณ ์ถ๋ก , ์์ ๊ธฐ๋ฐ ํ๋จ, ๋ณต์กํ ์์ฐ์ด ์ฒ๋ฆฌ, scene ๋ค์์ฑ, ์๋ก์ด ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ๋ก์ ์ผ๋ฐํ ๋ฑ์ ์ถฉ๋ถํ ์ธก์ ํ์ง ๋ชปํ๋ค.
์ด ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด VLABench๋ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค.
- 100๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ์กฐ์ ์์
- 60๊ฐ์ Primitive Task + 40๊ฐ์ Composite Task
- 2000๊ฐ ์ด์์ 3D ๊ฐ์ฒด + ๋ค์ํ ์ค๋ด ํ๊ฒฝ(scene)
2. ์ ์๋ก์ด ๋ฒค์น๋งํฌ๊ฐ ํ์ํ๊ฐ?
์ฐ์ ์ ์๋ก์ด ๋ฒค์น๋งํฌ๊ฐ ํ์ํ์ง ์ด์ผ๊ธฐ๋ฅผ ํด๋ณด๋๋ก ํ๊ฒ ๋ค.
โ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ํ ํ๋ฆฟ ๊ธฐ๋ฐ ๋ช ๋ น์ ์์กด โ ์์ฐ์ด์ ๋ณต์ก์ฑ์ ๋ฐ์ํ์ง ๋ชปํจ
๊ธฐ์กด task๋ ๋๋ถ๋ถ ๋ค์๊ณผ ๊ฐ์ด ๋จ์ํ๋ค
- โPick up the red blockโ
- โOpen the drawerโ
- โPut the apple on the plateโ
์ด๋ฐ ์ธ์ด๋
- ์ธ๊ฐ์ ์ค์ ๋ฐํ์ฒ๋ผ ์ํฉ์ ๋งฅ๋ฝ์ด๋ ๊ฐ์ , ์์์ ์๊ตฌ๋ฅผ ๋ฐ์ํ์ง ๋ชปํ๊ณ
- ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ธต์ ์๋ฏธ ์ดํด ๋ฅ๋ ฅ์ ์ ํ ํ ์คํธํ์ง ๋ชปํ๋ค.
๋ฐ๋ฉด VLABench ๋ช ๋ น์ ๋ค์์ฒ๋ผ ์๋ฌต์ /๋น์ง์ ์ ํํ์ด ๋ง๋ค.
- โํฌ์ค์ฅ์์ ํ ์๊ฐ ์ด๋ํ๊ณ ์๋๋ ๋๋ฌด ๋ชฉ์ด ๋ง๋ฅด๋ค. ์์ํ ์๋ฃ ์ขโฆโ
- โ์ ์ ํ ํ์ด์ฌ ๊ณผ์ ๋ฅผ ํ ๊ฑฐ๋๊น ์ฑ ์ ์ข ์ค๋นํด์ค.โ
- โ๋ค๋๋๋์ ๊ตญํ๋ฅผ ๊ฝ๋ณ์ ๊ฝ์์ค.โ
์์ ๋ช ๋ น์ ์ํํ๋ ค๋ฉด ์๋์ ๊ฐ์ ์ ๋ณด, ์ดํด ๋ฅ๋ ฅ์ด ํ์ํ๋ ๊ธฐ์กด์ ๋ฒค์น๋งํฌ๋ ์ด๋ฌํ ์๊ตฌ๋ฅผ ์ ํ ๋ค๋ฃจ์ง ๋ชปํ๋ค.
- ์ธ๊ณ ์ง์(๋ค๋๋๋ ๊ตญํ = ํค๋ฆฝ),
- ๊ฐ์ /์ํฉ ์ดํด(โ๋ชฉ์ด ๋ง๋ฅด๋คโโ ์๋ฃ),
- ์์ ๋ถํด ๋ฅ๋ ฅ(โ์ฑ ์ ์ค๋นโ โ ์ ๋ฆฌ + ๋ ธํธ๋ถ ์ด๊ธฐ),
- ๋ฌผ์ฒด-ํ๋ ๋งคํ
โก ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ๋จ์ผ ์คํฌ ์ค์ฌ โ ๋ณตํฉ ์คํฌ ์กฐํฉ & ๋ฉํฐ์คํ reasoning ํ๊ฐ ๋ถ์กฑ
๋๋ถ๋ถ์ ๊ธฐ์กด task๋ ๋ค์ ํ ๊ฐ์ง ์คํฌ๋ก ๊ตฌ์ฑ๋๋ค.
- ์ก๊ธฐ(Grasp)
- ์ด๋(Place)
- ๋ฒํผ ๋๋ฅด๊ธฐ(Press)
๊ทธ๋ฌ๋ ์ค์ ์ธ๊ฐ ์ง์์ ์๋น์๋ ๋ณตํฉ ์คํฌ์ ์ฌ๋ฌ ๋จ๊ณ์ ๊ฑธ์ณ ์ํํด์ผ ํ๋ค.
์์: โ๋ผ๋ผ ๋ง๋ค์ด์คโ
- ์ปต ์ก๊ธฐ
- ์ปคํผ๋จธ์ ์์น ํ์
- ๋ฒํผ ๋๋ฌ ์ถ์ถ
- ์ฐ์ ํต์์ ์ฐ์ ๋ฐ๋ฅด๊ธฐ
- ์ปต์ ์ ์ ํ ์์น์ ๋๊ธฐ
์ฆ, long-horizon planning + ํ์์์ ๋ถํด(subtask decomposition) + ์ผ์ ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์กฐ์์ ๋ชจ๋ ์๊ตฌํ๋ค. ๊ธฐ์กด์ RLBench๋ LIBERO๋ ์ด๋ฐ ๋ณตํฉ์ ์ถ๋ก ์ ์ธก์ ํ ๋งํ ๊ตฌ์กฐ๊ฐ ๋ถ์กฑํ๋ค. VLABench๋ ์ด๋ฌํ ๋ฉํฐ์คํ reasoning์ ํ์์ ์ผ๋ก ์๊ตฌํ๋ Composite Task๋ฅผ ํฌํจํ์ฌ ๊ธฐ์กด์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ค.
โข ์์(common sense)๊ณผ ์ธ๊ณ ์ง์(world knowledge)์ ์๊ตฌํ๋ task ๋ถ์ฌ
์์: โ๊ฐ์ฆ ๋ฌ์ผ๋ ์ฐจ๊ฐ์ด ์๋ฃ๋ฅผ ๊ฐ์ ธ์์ค.โ
์ด ๋ช ๋ น์ ์ํํ๊ธฐ ์ํด์๋ ์๋์ ๋ด์ฉ์ด ํ์ํ๋ค.
- โ์ด๋ ํ โ ๊ฐ์ฆ โ ์์ํ ์๋ฃโ๋ผ๋ ์์
- ์๋ฃ๊ฐ ๋์ฅ๊ณ ์์ ์์ ํ๋ฅ ์ด ๋๋ค๋ ๋งฅ๋ฝ
- ์๋ฃ๋ณ์ ์ง๋ ์คํฌ
- ์ปต๊ณผ ์๋ฃ๋ฅผ ๊ตฌ๋ถํ ์ ์๋ ์๊ฐ ๋ฅ๋ ฅ
๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ์์์ ์๊ตฌํ์ง ์๋๋ค. VLABench๋ ์ด๋ฅผ task ์๊ตฌ์ฌํญ์ ํต์ฌ ์์๋ก ๋ช ์์ ์ผ๋ก ๋ฐ์ํ ์ต์ด์ ๋ฒค์น๋งํฌ์ด๋ค.
โฃ ๊ธฐ์กด ์ผ๋ฐํ ํ๊ฐ์ ํ๊ณ โ VLABench๋ Category-Level Unseen Generalization ์ ์
๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ๋์ผ ์นดํ ๊ณ ๋ฆฌ ๋ด์์์ ๋ณํ๋ง์ ํ๊ฐํ๋ instance-level generalization ์ค์ฌ์ด๋ค.
- Train: ๋นจ๊ฐ ์ฌ๊ณผ
- Test: ์ด๋ก ์ฌ๊ณผ
๊ทธ๋ฌ๋ ์ค์ ํ๊ฒฝ์์ ๋ก๋ด์ ์์ ํ ์๋ก์ด ์นดํ ๊ณ ๋ฆฌ์ ๊ฐ์ฒด๋ฅผ ๋ง์ฃผํ๊ฒ ๋๋ค.
- Train: ์ฌ๊ณผ, ๋ฐ๋๋
- Test: ๋ ๋ชฌ, ํค์, ๋ธ๊ธฐ
์ด์ ๋ฐ๋ผ VLABench๋ ๋ณด๋ค ํ์ค์ ์ธ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ ๊ธฐ๋ฐ ๊ตฌ์ฑ ๋ฐฉ์์ ๋์ ํ๋ค.
- Seen categories: ์ฌ๊ณผ, ๋ฐ๋๋, ๋ฐฐ
- Unseen categories: ๋ ๋ชฌ, ํค์, ๋ง๊ณ
์ด๋ ๋จ์ํ ์๊ฐ ์ ๋ณด ์ผ๋ฐํ๊ฐ ์๋๋ผ ๋ค์๊ณผ ๊ฐ์ ๋ฅ๋ ฅ์ ์๊ตฌํ๊ฒ ๋๋ค.
- ์ธ์ด์ ์๋ฏธ ์ดํด (semantic grounding)
- ์์ ๊ธฐ๋ฐ ์ถ๋ก (commonsense reasoning)
- ์นดํ ๊ณ ๋ฆฌ๋ณ ๋ฌผ๋ฆฌ์ ์์ฑ ๋ฐ affordance ์ดํด
โค ๊ธฐ์กด ํ๊ฒฝ์ ์๊ฐ์ ๋ค์์ฑ ๋ถ์กฑ โ VLABench๋ ๋๊ท๋ชจยท๊ณ ๋ค์์ฑ ๊ฐ์ฒด ๋ฐ Scene ์ ๊ณต
๊ธฐ์กด task suite ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ค.
- ์ ํ๋ ๊ฐ์ฒด ์์ ๋จ์กฐ๋ก์ด ํํ
- Mesh ๋ฐ ํ ์ค์ฒ ๋ค์์ฑ ๋ถ์กฑ
- Scene randomization ๋ถ์กฑ
- Distractor object์ ๋ถ์ฌ๋ก ์ธํ ๋ฎ์ ๋์ด๋
์ด๋ ๋ชจ๋ธ์ด ํน์ ๊ฐ์ฒดยท์ฅ๋ฉด์ ๊ณผ์ ํฉ(overfitting) ๋๊ธฐ ์ฌ์ด ๊ตฌ์กฐ์ด๋ค.
VLABench๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ํ๊ฒฝ ์ค๊ณ๋ฅผ ์ ๊ณตํ๋ค.
- 2,000๊ฐ ์ด์ ๊ณ ํ์ง 3D object library
- ๋ค์ํ texture, geometry, background, lighting ์ค์
- Multiple camera ๊ธฐ๋ฐ ์์ ๋ค์ํ
- Distractor objects์ ๋น์ ํ ๋ฐฐ์น
์ด๋ฅผ ํตํด ๋ณด๋ค ์ฌ์ค์ ์ด๊ณ ๋ณต์กํ ํ๊ฒฝ์ ๊ตฌ์ฑํ์ฌ ์ผ๋ฐํ ๊ฐ๋ฅํ ์๊ฐยท์ธ์ดยทํ๋ ์ง๋ฅ ํ๊ฐ๊ฐ ๊ฐ๋ฅํด์ง๋ค.

Table 1: Comparison of Popular Benchmarks in Robot Learning
3. VLABench์ ๊ตฌ์ฑ
VLABench๋ ์ธ๊ฐ ์์ค์ ์ธ์ดยท์ง์ยทํ๋ ๊ธฐ๋ฐ ์ธ๊ณต ์ผ๋ฐ์ง๋ฅ(Embodied AGI)์ ๋ชฉํ๋ก ํ๋ฉฐ, ์ด 100๊ฐ์ ์กฐ์ ์์ (Task Suite) ๋ก ๊ตฌ์ฑ๋๋ค. ๋ชจ๋ task๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์์ฐ์ด๋ก ๋ช ๋ น์ด ์ฃผ์ด์ง๋ฉฐ, ๋ชจ๋ธ์ ์ธ์ด ์ดํด, ์๊ฐ ์ธ์, ํ๋ ๊ณํ์ ํตํฉ์ ์ผ๋ก ์ํํด์ผ ํ๋ค.
โ 3.1 Primitive Tasks (์ด 60๊ฐ)
Primitive task๋ ๋จ์ผ ํต์ฌ ๋ฅ๋ ฅ ์์(capability primitive) ๋ฅผ ์ง์ ์ ์ผ๋ก ํ๊ฐํ๋๋ก ์ค๊ณ๋ ๊ธฐ๋ณธ ์์ ์งํฉ์ด๋ค. ๊ฐ task๋ ๋์ ํด์ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ํน์ ํ์ ๋ฅ๋ ฅ์ ์คํจ ์์ธ์ ๋ช ํํ ํ์ ํ ์ ์๋๋ก ๊ตฌ์ฑ๋์๋ค.
Primitive task๊ฐ ํ๊ฐํ๋ ์ฃผ์ ๋ฅ๋ ฅ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
| ๋ฅ๋ ฅ ์์ | ์ค๋ช |
|---|---|
| Mesh Recognition | ๋์ผํ texture๋ผ๋ geometry ์ฐจ์ด๋ฅผ ๊ตฌ๋ถ |
| Texture Recognition | geometry๊ฐ ๋์ผํด๋ ์๊ฐ์ texture ๊ธฐ๋ฐ ์๋ณ |
| Spatial Understanding | ์์น ๊ด๊ณ, ๋ฐฉํฅ์ฑ, ์๋์ ๋ฐฐ์น ์ดํด |
| Semantic Understanding | ์ธ์ด์ ์๋ฏธ์ ๊ฐ์ฒด mapping |
| Physical Reasoning | ๋ฌด๊ฒ, ๋ถ๋ ฅ, ์ ์ฌ ๊ฐ๋ฅ์ฑ, ์์ ์ฑ ๋ฑ ๋ฌผ๋ฆฌ์ ํน์ฑ ์ดํด |
| Common Sense | ์ธ๊ฐ ์ํ ๊ธฐ๋ฐ์ ๊ธฐ๋ณธ ์์์ ํ๋จ ํฌํจ |
์์:
- โPick up the metallic cup, not the paper one.โ
- โPlace the banana above the plate, not under the desk.โ
๋ชฉ์ : ๋ถ๋ฆฌ๋ ๋ฅ๋ ฅ(component-wise skill) ์ ์ ๋์ ํ๊ฐ ๋ฐ diagnostic ๋ชฉ์ .
โ 3.2 Composite Tasks (์ด 40๊ฐ)
Composite task๋ ์ธ๊ฐ ์๋, ์ํฉ ์ถ๋ก , ์ฅ๊ธฐ ๊ณํ(long-horizon) ๊ณผ ๊ฐ์ ๊ณ ์ฐจ์ ์ง๋ฅ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ค. ๋ณต์์ primitive skill์ ์์ฐ์ค๋ฝ๊ฒ ๊ฒฐํฉํด์ผ ํ๋ฉฐ, ์ถ๋ก (reasoning) ๊น์ด๊ฐ ๋์ ์๋๋ฆฌ์ค ์ค์ฌ ์ค๊ณ๋ฅผ ๊ฐ์ง๋ค.
Composite task ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ธ์ด์ ๋งฅ๋ฝ(context) ๋ฐ ์จ์ ์๋(implicit intent) ๋ฅผ ์ดํดํด์ผ ํจ
- ๋จ์ผ ํ๋์ด ์๋ ๋ค๋จ๊ณ ์ํ์ค(action sequence) ์ํ ํ์
- ์ํฉ/ํ๊ฒฝ ๊ธฐ๋ฐ ์กฐ๊ฑด๋ถ ๊ณํ(conditional execution) ์๊ตฌ
- ๋ช ์๋์ง ์์ ๋์/๋๊ตฌ๋ฅผ ์ถ๋ก ์ ์ผ๋ก ์ ํํด์ผ ํจ
์์:
- โ์น๊ตฌ๊ฐ ๊ณง ์ฌ ์์ ์ด๋ ํ ์ด๋ธ์ ์ ๋ฆฌํ๊ณ , ๊ฝ๋ณ์ ์ค์์ ๋๊ณ , ๊นจ๋ํ ์ปต์ ๋ฌผ์ ์ฑ์ ์ค๋นํด์ค.โ
- โ์ด๋ํ๊ณ ์์ ๋๋ฌด ๋์ฐ๋, ์์ํ ์๋ฃ๋ฅผ ํ๋ ๊ฐ์ ธ๋ค์ค.โ
์ฆ, Composite task๋ ๋ค์ ๋ฅ๋ ฅ์ ๋ณตํฉ์ ์ผ๋ก ํ๊ฐํ๋ค.
- ๊ณ ์์ค ์์ฐ์ด ์ถ๋ก
- ๊ณผ์ ๋ถํด(Task decomposition)
- ์คํ ์์ ๊ฒฐ์ (Planning)
- ์ค๊ฐ ๋ชฉํ ์ค์ (Subgoal inference)
- ์ ํ์ ํ๋ ์ ๋ต(Adaptive reasoning)
๋ชฉ์ : Human-level embodied reasoning & planning ์ ์ค์ง์ ์ธ ํ๊ฐ.
4. ํ๊ฐ ๋ฐฉ์ (Benchmark Protocol)
4.1 ํ๊ฐ ๋์ ์์คํ ๊ทธ๋ฃน
VLABench๋ ๋จ์ผ ๋ชจ๋ธ ํํ์ ๊ตญํ๋์ง ์์ผ๋ฉฐ, ๋ค์ํ ํํ์ embodied AI architecture ๋ฅผ ๋น๊ต ํ๊ฐํ๊ธฐ ์ํด ๋ค์ 3๊ฐ์ง ๊ทธ๋ฃน์ ์ ์ํ๋ค.
| ๊ทธ๋ฃน | ํฌํจ ๋ชจ๋ธ | ํ๊ฐ ๋ชฉ์ |
|---|---|---|
| VLA | OpenVLA, RDT ๋ฑ | End-to-end ๋ฅ๋ ฅ ํ๊ฐ |
| VLM-based Workflow | VoxPoser, CoPa ๋ฑ | Modular pipeline ๊ธฐ๋ฐ planning quality |
| Pure VLM | GPT-4o, Qwen2-VL ๋ฑ | ํ๊ฒฝ์ ์ง์ ์๋ ๋ถ๊ฐ ์ reasoning capability ํ๊ฐ |
์ฆ, ์คํ ๊ฐ๋ฅํ ๋ก๋ด ๋ชจ๋ธ๋ฟ ์๋๋ผ, ์ธ์ด๊ธฐ๋ฐ ๊ณํ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ์์ฒด๋ ๋ ๋ฆฝ ํ๊ฐํ๋ค.
4.2 Generalization ํ๊ฐ ์ค๊ณ
VLABench๋ ๊ธฐ์กด Instance-level generalization์ ๋์ด์, Semantic Category-level Generalization ์ ํต์ฌ ํ๊ฐ ๋ชฉํ๋ก ํ๋ค.
| ๊ธฐ์กด ๋ฒค์น๋งํฌ | VLABench |
|---|---|
| ์์/ํฌ๊ธฐ ์ฐจ์ด ์์ค generalization | ์์ ํ ์๋ก์ด ๋ฒ์ฃผ(category) ๋ฑ์ฅ |
| Apple (Train) โ Green Apple (Test) | Apple, Banana (Train) โ Lemon, Kiwi (Test) |
| Vision-based domain generalization | Vision + Language + World Knowledge |
์ด ๋ฐฉ์์ Semantic Transfer ๋ฅผ ํ๊ฐํ๋ฉฐ ๋ค์ ์์๋ฅผ ํ์๋ก ํ๋ค.
- ๋ฏธํ์ /์ฌ๋ฃ์ ํน์ง ์ ์ถ
- ์ธ์ด์ ๋ฒ์ฃผ ๊ณ์ธต(structural taxonomy) ์ดํด
- ์ ์ฌ affordance ๊ธฐ๋ฐ ํ๋ ๊ณํ
์ฆ,
โ๋ณธ ์ ์ ์์ง๋ง, ํด๋น ๊ทธ๋ฃน์ ์ํ๋ค๋ ์๋ฏธ๋ก ์ ์ถ๋ก ์ ํตํ ํ๋ ๊ณํ ๊ฐ๋ฅ์ฑโ ์ ํ๊ฐํ๋ค.
4.3 ์๋ก์ด Metric โ Progress Score (PS)
์ฑ๊ณต/์คํจ(binary) ๊ธฐ๋ฐ ๊ธฐ์กด metric์ ์ฅ๊ธฐ ๊ณํ(long-horizon) ๊ณผ ๋ณตํฉ reasoning task ๋ฅผ ํ๊ฐํ๊ธฐ์ ๋ถ์ถฉ๋ถํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด VLABench๋ Progress Score (PS) ๋ผ๋ ์ฐ์ํ partial-credit metric ์ ๋์ ํ์๋ค.
PS๊ฐ ๊ณ ๋ คํ๋ ๊ตฌ์ฑ ์์
| ์์ | ์ค๋ช |
|---|---|
| Completion Accuracy | ๋ชฉํ ๊ฐ์ฒด ๋ฐ ๋ฆฌ์ ํฐํด์ ์ ํ๋ |
| Action Progress | ์ ์ฒด plan ์ค ์ด๋ ๋จ๊ณ๊น์ง ๋๋ฌํ๋์ง |
| Subgoal Achievement | ์ค๊ฐ ๋จ๊ณ ์ฑ๊ณต ์ฌ๋ถ ๊ฒ์ฆ |
| Error Severity | ์คํจ ์์น ๋ฐ ์คํจ ํจํด์ ์ฐจ๋ฑ ๋ฐ์ |
๊ณต์์ ํํ ๊ฐ๋
PS๋ ๋ค์์ ๊ฐ์ค ์กฐํฉ์ผ๋ก ๊ณ์ฐ๋๋ค.
PS = (Object Accuracy) ร ฮฑ + (Action Progress) ร (1 โ ฮฑ)
๋จ,
- ฮฑ๋ task ์ฑ๊ฒฉ๋ณ weight parameter (e.g., 0.5 ~ 0.7 ์ฌ์ด tunable)
- Object Accuracy๋ target-object grounding ์ ํ๋
- Action Progress๋ sub-step coverage ๋น์จ
์์
| ๋จ๊ณ | ํ๋ | PS ์ฆ๊ฐ |
|---|---|---|
| Step 1 | ์ฌ๋ฐ๋ฅธ ๋ฌผ์ฒด ์ธ์ | +0.2 |
| Step 2 | ์ฌ๋ฐ๋ฅธ grasp | +0.2 |
| Step 3 | ์ด๋ฐ ๋ฐ ์์น ์ด๋ | +0.2 |
| Step 4 | ๋ฆฌ์ ํฐํด์ ์ ํํ ๋ฐฐ์น | +0.4 |
์ ํํ ์๋ฃํ์ง ๋ชปํด๋, ์ผ๋ง๋ ์ ๋ต์ ๊ทผ์ ํ๋์ง๊ฐ ์ ๋์ ์ผ๋ก ๋ฐ์๋๋ค.
์ด metric์ long-horizon learning curve ๋น๊ต, partial reinforcement feedback ์ฐ๊ตฌ, skill transfer ๋ถ์์ ์ง์ ํ์ฉ ๊ฐ๋ฅํ๋ค.