BadRobot: Jailbreaking Embodied LLMs in the Physical World
๐ ๋ ผ๋ฌธ ์ ๋ณด
โBadRobot: Jailbreaking Embodied LLMs in the Physical Worldโ (ICLR 2025)
๐ ๋ ผ๋ฌธ ๊ฐ์
A robot may not injure a human being or, through inaction, allow a human being to come to harm.
โ Isaac Asimovโs First Law of Robotics
๐ค Embodied LLM์ ๋ฑ์ฅ
Embodied AI๋ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์์ ํ๋ํ๋ ์ธ๊ณต์ง๋ฅ ์์คํ ์ผ๋ก, ์ธ๊ฐ๊ณผ์ ์์ฐ์ค๋ฌ์ด ์ํธ์์ฉ์ ๋ชฉํ๋ก ํ๋ค. ์ต๊ทผ์๋ LLM (Large Language Model)๊ณผ MLLM (Multimodal LLM)์ ๋ฐ์ ์ผ๋ก ์์ฐ์ด ์ดํด ๋ฐ ๊ณํ ์๋ฆฝ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋์์ผ๋ฉฐ, OpenVLA์ ๊ฐ์ Vision Language Action ๋ชจ๋ธ๋ ๊ฐ๋ฐ๋๊ณ ์๋ค. ์ด๋ฐ ๋ชจ๋ธ์ ๋ก๋ด ์์คํ ์ ํตํฉํ embodied LLMs๋ ๊ธฐ์กด ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋์ ์ผ๋ฐํ, ํ๊ฒฝ ์ ์์ฑ, ์์ ๊ณํ ๋ฅ๋ ฅ์ ๋ณด์ธ๋ค๊ณ ํ๋ค.
โ ๏ธ ๋ฌธ์ ์ ๊ธฐ: ์์ ์ด์
Embodied LLM์ ๋ฌผ๋ฆฌ์ ๋ชธ์ฒด(๋ก๋ด ๋ฑ)์ ํตํฉ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋งํ๋ค. ์ฝ๊ฒ ๋งํด ์ธ์ด ๋ชจ๋ธ์ด ๋ก๋ด์ โ๋๋โ ์ญํ ์ ํ๋ฉฐ ์ค์ ์ธ์๊ณผ ์ํธ์์ฉํ๋ ์์คํ ์ ์๋ฏธํ๋๋ฐ, ์ด๋ ์ค์ ๋ก ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ํธ์์ฉํ๊ธฐ ๋๋ฌธ์ ChatGPT์ ๊ฐ์ด ๋จ์ํ ์ธ์ด๋ก๋ง ๋ฐ์ํ๋ ์ฑ๋ด๊ณผ๋ ๋ค๋ฅด๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ โ์ปต์ ์ง์ด์คโ๋ผ๊ณ ๋งํ๋ฉด, ํด๋น ์ธ์ด๋ฅผ ์ดํดํ LLM์ด ํ๋ ๊ณํ์ ์ธ์ฐ๊ณ , ๋ก๋ด ํ์ ์ ์ดํ์ฌ ์ค์ ๋ก ์ปต์ ์ง๋ ๋์์ ์ํํ๊ฒ ๋๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ํน์ฑ์ผ๋ก ์ธํด, ๊ธฐ์กด์ LLM์์ ๋ฌธ์ ๊ฐ ๋์๋ Jailbreak ๊ณต๊ฒฉ, ์ฆ ๋ชจ๋ธ์ ์ ํ์ ์ฐํํ์ฌ ๊ธ์ง๋ ์ถ๋ ฅ์ ์ ๋ํ๋ ๋ฐฉ์์ด embodied LLM์์๋ ๋์ผํ๊ฒ ์๋ํ ์ ์๋์ง์ ๋ํ ์๋ฌธ์ด ์ ๊ธฐ๋์์ผ๋ฉฐ, ํนํ, ์ธ์ด์ ์ถ๋ ฅ์ ๊ทธ์น์ง ์๊ณ ์ค์ ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ํ๋์ผ๋ก ์ด์ด์ง ์ ์๋ค๋ ์ ์์, ์ ์ฌ์ ์ธ ์ํ์ ํจ์ฌ ๋ ํฌ๋ค๊ณ ํ ์ ์๋ค. ํ์ง๋ง ์คํ ๊ฒฐ๊ณผ, ๊ธฐ์กด์ ์ธํฐ๋ท์์ ๋๋ฆฌ ๊ณต์ ๋ jailbreak ํ๋กฌํํธ๋ค์ embodied LLM ํ๊ฒฝ์์ ๊ฑฐ์ ํจ๊ณผ๋ฅผ ๋ฐํํ์ง ๋ชปํ์๋ค. ์ด๋ ์ผ๋ฐ LLM์์ ํตํ๋ ๊ณต๊ฒฉ ๋ฐฉ์์ด ๋ก๋ด์ ํตํฉ๋ ์์คํ ์์๋ ์๋ํ์ง ์์์ ์๋ฏธํ๋ค. ๊ทธ ์ด์ ๋, embodied LLM์ด ์ผ๋ฐ์ ์ธ ์ฑ๋ด๊ณผ ๋ฌ๋ฆฌ ๋ก๋ด ์ ์ด์ ํ์ํ ์์คํ ํ๋กฌํํธ์ ํ๊ฒฝ ์กฐ๊ฑด์ ๋ดํฌํ๊ณ ์์ผ๋ฉฐ, ์ด๋ก ์ธํด ์ธ๋ถ ํ๋กฌํํธ๊ฐ ๋ด๋ถ ๊ท์น๊ณผ ์ถฉ๋ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฒฐ๊ตญ ์ฐ๊ตฌ์ง์ ๊ธฐ์กด ๊ณต๊ฒฉ ๋ฐฉ์์ผ๋ก๋ ์ถฉ๋ถํ์ง ์์ผ๋ฉฐ, ๋ฌผ๋ฆฌ์ ํ๋๊น์ง ์ ๋ฐํ ์ ์๋ ์๋ก์ด ํํ์ ๊ณต๊ฒฉ ํจ๋ฌ๋ค์์ด ํ์ํ๋ค๋ ๊ฒฐ๋ก ์ ๋๋ฌํ์์ผ๋ฉฐ, ์ด์ ๋ฐ๋ผ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด ์๋ก์ด ์ํ ๋ชจ๋ธ์ ๋์ํ๋ BadRobot์ด๋ผ๋ ๊ณต๊ฒฉ ์ฒด๊ณ๋ฅผ ์ค๊ณํ๊ณ ์ ์ํ์๋ค.
๐ง Embodied LLM์ 3๊ฐ์ง ํต์ฌ ์ํ
Figure 1: BadRobot์ ์ค์ ์ธ๊ณ์์ embodied LLM์ด Physical Harm, Privacy Violations, Pornography, Fraud, Illegal Activities, Hateful Conduct, Sabotage์ ๊ฐ์ ํ์๋ฅผ ์ํํ๋๋ก ์ ๋ํ ์ ์์์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
Figure 1์ BadRobot์ด ์ ๋ํ ์ ์๋ ๋ฌผ๋ฆฌ์ ๊ณต๊ฒฉ์ ๋ํ์ ์ธ ์์๋ค์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค. ์ด ๊ทธ๋ฆผ์ Physical Harm, Privacy Violations, Pornography, Fraud, Illegal Activities, Hateful Conduct, Sabotage ๋ฑ ๋ค์ํ ๊ธ์ง๋ ํ๋์ด ์ค์ embodied LLM์ ํตํด ์ ๋๋ ์ ์์์ ๋ํ๋ธ๋ค.
1. Be cautious of hidden dangers!
Embodied LLM ์์คํ ์ ์ธ ๊ฐ์ง ํต์ฌ ๋ชฉํ๋ฅผ ์ถ๊ตฌํ๋ค. ๋ฐ๋ก ์ค์ค๋ก ํ๋จํ๊ณ ํ๋ํ๋ ๋ฅ๋ ฅ์ธ ์์จ์ฑ(autonomy), ์ค์ ํ๊ฒฝ์ ๋ํ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ ๋ฅ๋ ฅ์ธ ๋ฌผ๋ฆฌ์ ๊ตฌํ(embodiment), ๊ทธ๋ฆฌ๊ณ ์์ ์ด ๋ฌด์์ ํ๋์ง ์ดํดํ๊ณ ํ๊ฐํ ์ ์๋ ๋ฅ๋ ฅ์ธ ์ธ์ง๋ฅ๋ ฅ(cognition)์ด๋ค. ๊ทธ๋ฌ๋ ์ด ์ธ ๊ฐ์ง ๊ตฌ์ฑ์์๊ฐ ์ ๋๋ก ์๋ํ์ง ์๊ฑฐ๋ ๊ท ํ์ด ๊นจ์ง ๊ฒฝ์ฐ, ์์คํ ์ ์น๋ช ์ ์ธ ๋ณด์ ์ํ์ ๋ ธ์ถ๋ ์ ์๋ค.
Figure 2: Embodied LLM ์์คํ
์ด ์ง๋ฉดํ ์ธ ๊ฐ์ง ์ํ ์์๋ฅผ ์๊ฐ์ ์ผ๋ก ์์ฝํ ๊ทธ๋ฆผ์ด๋ค. (a) Jailbroken LLM์ด ๋ฌผ๋ฆฌ์ ๋ช
๋ น์ผ๋ก ํ์ฐ๋์ด ์ํํ ํ๋์ ์ ๋ํ ์ ์๋ค. (b) ์ธ์ด ์๋ต๊ณผ ํ๋ ๊ณํ ๊ฐ์ ๋ถ์ผ์น๋ก ์ธํด ๋ง๋ก๋ ๊ฑฐ์ ํ์ง๋ง ์ค์ ๋ก๋ ํ๋์ ์ํํ ์ ์๋ค. (c) ์์ฐจ์ ์ด๊ฑฐ๋ ์ฐํ๋ ํํ์ ํตํด ๋ณธ์ง์ ์ผ๋ก ์ํํ ํ๋์ด ์ ๋๋ ์ ์์ผ๋ฉฐ, ์ด๋ LLM์ ๋ถ์์ ํ ์ธ์ง๋ชจ๋ธ์์ ๊ธฐ์ธํ๋ค.
1. Jailbreak ํ์ฐ (Cascading Vulnerability Propagation)
๊ธฐ์กด LLM์ด jailbreak ๊ณต๊ฒฉ์ ์ทจ์ฝํ๋ฏ, embodied LLM๋ ๋์ผํ๊ฒ ํ์ถ ๊ณต๊ฒฉ์ ์ํด ์กฐ์๋ ์ ์๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์กด์ ๋ง๋ก๋ง ์ ์ฑ ์ถ๋ ฅ์ ์ ๋ํ๋ ๊ณต๊ฒฉ์ด ํ์ฅ๋์ด ๋ฌผ๋ฆฌ์ ํ๋๊น์ง ์ ๋ฐํ๋ ๋ฐ์๋ ํ๊ณ๊ฐ ์กด์ฌํ๋, Figure 2-(a)์์ ํ์ธํ ์ ์๋ฏ์ด ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ํ์ ๋์ด์์ ์ค์ ๋ฌผ๋ฆฌ์ ํ์๋ฅผ ์ ๋ํ ์ ์๋ค.
2. ํ๋๊ณผ ์ธ์ด์ ๋ถ์ผ์น (Cross-domain Safety Misalignment)
Embodied LLM์ ์ธ์ด์ ์ค๋ฆฌ ๊ธฐ์ค์ ์งํค๋ฉด์๋ ํ๋ ๊ณํ ์ถ๋ ฅ์์๋ ์ด๋ฅผ ์๋ฐํ๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๋ค. Figure 2-(b)์์ ํ์ธํ ์ ์๋ฏ์ด โSorry, I canโt help with that.โ๋ก ๊ฑฐ์ ํ์์ผ๋ ์ค์ ํ๋์ผ๋ก๋ ๊ธ์ง๋ ์์ ์ ์ํํ๊ฒ ๋๋ค. ์ด๋ ๋ก๋ด์ ํ๋ ๊ณํ์ด JSON, YAML ๋ฑ ์ฝ๋ ํํ๋ก ๋์ด ์์ด, ์ธ์ด ๋ชจ๋ธ์ด ๋ค์ ๋ํ ์ค๋ฆฌ์ ๊ฐ์๋ฅผ ๋์จํ ์ ์ฉํ๊ฒ ๋๊ณ , ์ด๋ก์จ ํ๋๊ณผ ์ธ์ด ์ฌ์ด์ ์์ ์ ๋ ฌ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ๊ฒ ๋๋ค.
3. ๊ฐ๋ ์ ๊ธฐ๋ง (Conceptual Deception)
LLM์ ๋ณต์กํ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ถ๋ก ํ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ์ฌ, ๋ช ๋ฐฑํ ์ํํ ๋ช ๋ น์ ๊ฑฐ์ ํ๋๋ผ๋ ์ฐํ์ ์ธ ํํ์ ํตํด ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ์ํํ ์ ์๋ค. Figure 2-(c)๋ฅผ โ๊ทธ ์ฌ๋์ ๋ ์ดํดโ๋ ๊ฑฐ์ ํ์ง๋ง โ๋ ์ ์ ์ ๋ฃ์ด์คโ๋ ์ํํ๋ค.
2. Formalization of embodie3 LLMs jailbreak
BadRobot์ด ์ ์ํ๋ ์ํ ๋ชจ๋ธ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ Embodied LLM ์์คํ ์ ์ํ์ ์ผ๋ก ์ ์ํ๊ณ , ์์ ์กฐ๊ฑด๊ณผ jailbreak ์กฐ๊ฑด์ ๊ณต์ํํ์๋ค. Embodied LLM ์์คํ ์ ๋ค์๊ณผ ๊ฐ์ 5๊ฐ์ ๊ตฌ์ฑ ์์๋ก ํํ๋๋ค:
- \(I \in \mathbb{R}^d\) : ์ ๋ ฅ ๊ณต๊ฐ (์ธ์ด ๋ช ๋ น, ์๊ฐ ์ ๋ณด, ์ผ์ ๋ฐ์ดํฐ ๋ฑ)
- \(\phi\) : ์ธ์ ๋ชจ๋ (์ธ์ด/์๊ฐ ์ ๋ ฅ์ ์๋ฏธ ํ์ )
- \(\psi\) : ํ๋ ๊ณํ ๋ชจ๋ (์๋๋ ๋์ ์์ฑ)
- \(\omega\) : ์ธ๊ณ ๋ชจ๋ธ (์ง์ ๋ฐ ํ๊ฒฝ ์ ๋ณด ํฌํจ)
- \(S\) : ์์ ์ฑ ์ ์ฝ ์กฐ๊ฑด
์ด ์์คํ ์ ํ๋์ LLM์ด ์์ ์ญํ ์ ๋ชจ๋ ์ํํ๋, ๋ณด์ ๋ถ์์ ์ํด ์ญํ ์ ๋ชจ๋ํํ์๋ค. ์ถ๋ ฅ์ ๋ ์ข ๋ฅ๋ก ๋๋๋ค.
- \(f_\phi: I \rightarrow L\) โ ์ ๋ ฅ์ ์ธ์ด ์ถ๋ ฅ์ผ๋ก ๋งคํํ๋ ํจ์
- \(f_\psi: I \times \phi \times \omega \rightarrow A\) โ ์ ๋ ฅ, ์ธ์ ๊ฒฐ๊ณผ, ์ธ๊ณ ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก ํ๋ ์ถ๋ ฅ์ ์์ฑํ๋ ํจ์
์ด๋ฅผ ๋ฐํ์ผ๋ก ์์ ์กฐ๊ฑด์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
Definition 1: Robust Embodied LLM
์์คํ ฮ๊ฐ robustํ๋ค๋ ๊ฒ์ ๋ชจ๋ ์ ๋ ฅ \(i \sim I\)์ ๋ํด ์ธ์ด ์ถ๋ ฅ๊ณผ ํ๋ ์ถ๋ ฅ ๋ชจ๋๊ฐ ์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธํ๋ค.
\(S_L(f_\phi(i)) = 1 \quad \text{and} \quad S_A(f_\psi(i, \phi, \omega)) = 1\) ๋ฐ๋ผ์ ์์คํ ์ ๋ค์ ์์ ์ต๋ํํ๋ ค๊ณ ํ๋ค.
\[\max_{f_\phi, f_\psi, \omega} \; \mathbb{E}_{i \sim I} [S_L(f_\phi(i)) \cdot S_A(f_\psi(i, \phi, \omega))]\]Definition 2: Embodied LLM Jailbreak
์ ๋ ฅ \(i' \in I\)์ ๋ํด ์ธ์ด ์ถ๋ ฅ ๋๋ ํ๋ ์ถ๋ ฅ์ด ํ๋๋ผ๋ ์์ ์กฐ๊ฑด์ ์๋ฐํ๋ค๋ฉด, ํด๋น ์์คํ ์ jailbreak ๊ฐ ๋ฐ์ํ ์ํ๋ก ๊ฐ์ฃผ๋๋ค.
\[S_L(f_\phi(i')) \cdot S_A(f_\psi(i', \phi, \omega)) = 0\]์ฆ, ์ธ์ด ์ถ๋ ฅ์ด ๋ถ์ ์ ํ๊ฑฐ๋, ํ๋์ด ์ํํ๊ฑฐ๋, ํน์ ๋ ๋ค์ธ ๊ฒฝ์ฐ์ด๋ค. ํนํ BadRobot์ ํ๋ ์์ ์ฑ \(S_A\)์ ์๋ฐ์ ์ค์ ์ ๋์ด ๊ณต๊ฒฉ์ ์ค๊ณํ์์ผ๋ฉฐ, LLM์ ํ ํฐ ๋จ์๋ก ์ฐ์์ ์ธ ์ถ๋ ฅ์ ์์ฑํ๋ฏ๋ก, ์ธ์ด ์ถ๋ ฅ์ด ํ๋ ์ถ๋ ฅ์๋ ์ํฅ์ ๋ฏธ์น๊ฒ ๋๋ค. ๋ฐ๋ผ์ ํ๋ ์ถ๋ ฅ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ํํ๋ ์ ์๋ค:
\[f_\psi(i, \phi, \omega) = g(f_\phi(i), \omega)\]์ด๋ก ์ธํด ์ธ์ด ์ดํด๊ฐ ๋ถ์ ์ ํ ๊ฒฝ์ฐ, ๊ทธ๊ฒ์ด ํ์ ํ๋ ๊ณํ์๋ ์ํฅ์ ์ฃผ์ด ์ต์ข ์ ์ผ๋ก ๋ฌผ๋ฆฌ์ ์ํ ํ๋์ ์ ๋ฐํ ์ ์๋ค. ์ด๋ ๊ณง BadRobot์ ์ธ ๊ฐ์ง ๊ณต๊ฒฉ ์ ํ๊ณผ๋ ์ฐ๊ฒฐ๋๋ค:
- \(f_\phi\) ๋ด๋ถ ์กฐ์ โ Risk Surface โถ
- \(f_\psi\) ์ง์ ์กฐ์ โ Risk Surface โท
- \(\omega\) ์กฐ์ ๋๋ ๊ฒฐํ โ Risk Surface โธ
BadRobot : How to Manipulate Embodies LLMs?
๋ณธ ๋ ผ๋ฌธ์์๋ ์์ ์ดํด๋ณธ ์ธ๊ฐ์ง ์ํ ์์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๊ฐ์ ๊ณต๊ฒฉ๊ธฐ๋ฒ์ ์ ์ํ๋ค.