AI가 세상이 어떻게 돌아가는지를 내부에 시뮬레이션으로 담아, 어떤 행동을 하면 환경이 어떻게 바뀔지 예측하는 모델. 로봇·자율주행처럼 현실에서 일일이 시도해볼 수 없는 일을 머릿속으로 미리 굴려보게 해준다.
월드 모델은 AI가 세상이 어떻게 작동하는지를 내부에 시뮬레이션으로 들고 있는 시스템이다. 텍스트의 다음 단어를 맞히도록 학습하는 언어 모델과 달리, 월드 모델은 "지금 이 상태에서 이런 행동을 하면 환경이 어떻게 변할까"를 예측한다. 사람이 컵을 밀면 떨어져 깨질 거라고 머릿속으로 미리 그려보는 것과 같은 능력을, 기계가 갖게 하려는 시도다.
이게 중요한 이유는 에이전트가 현실에서 일일이 부딪혀보지 않고도 계획하고 추론할 수 있게 해주기 때문이다. 로봇이 모든 동작을 실제로 해보며 배우려면 비용도 위험도 크지만, 머릿속 모델 안에서 시뮬레이션하면 안전하고 빠르게 시행착오를 거칠 수 있다.
가장 활발한 분야는 자율주행과 로봇이다. Waymo는 2026년 구글 딥마인드의 범용 월드 모델 Genie 3 위에 자사 주행 데이터를 입혀 Waymo World Model을 만들었는데, 토네이도나 역주행 차량처럼 현실에서 데이터로 모으기 거의 불가능한 희귀 상황을 생성해 그 안에서 자율주행 시스템을 훈련한다.
로봇 쪽에서는 월드 모델로 합성 학습 데이터를 대량 생성한다. 다양한 지형과 조명, 돌발 상황을 모델이 그려내면, 공장·창고 로봇이 실제 현장에 투입되기 전에 그 가상 환경에서 미리 배운다.
이 아이디어의 원조 실험에서는 에이전트를 자기 월드 모델이 만들어낸 "꿈(dream)" 환경 안에서만 학습시킨 뒤, 그 정책을 실제 게임 환경으로 옮겨도 잘 동작한다는 것을 보였다. 강화학습 에이전트가 실제 환경 대신 모델이 상상한 환경에서 연습하는 방식이다.
얀 르쿤은 픽셀을 하나하나 그려내는 대신 추상적인 표현 공간에서 다음 상태를 예측하는 JEPA(joint embedding predictive architecture)를 제안했고, 이를 영상으로 확장한 V-JEPA가 물리 추론에서 좋은 성능을 냈다. 한편 Genie 3나 World Labs처럼 비디오·3D 생성 모델을 곧바로 "세계 시뮬레이터"로 보는 흐름도 있다. 같은 월드 모델이라도 무엇을 예측하느냐(추상 표현이냐 픽셀이냐)에 따라 갈래가 나뉜다.
월드 모델의 물리 예측이 늘 정확하지는 않다. 자동차가 절벽 끝을 넘어가면 어떻게 되는지처럼 학습 데이터에 드문 상황은 틀리게 예측할 수 있다. 르쿤은 월드 모델을 현재 LLM의 한계를 넘는 길로 보지만, 아직은 연구가 한창 진행 중인 방향이라는 점도 염두에 둬야 한다.