월드 모델
오늘날의 AI는 여전히 신뢰할 수 없다. 일부 연구자들은 이 문제를 해결하려면 AI 시스템이 주변 세상을 이해하도록 가르쳐야 한다고 생각한다.
AI 시스템은 이미 디지털 세계를 놀라울 정도로 능숙하게 다루고 있지만, 물리적 세계는 여전히 인간의 영역으로 남아 있다. 실제로 소설을 쓰거나 앱을 개발하는 AI를 만드는 일은, 빨래를 개거나 도시의 거리를 스스로 이동할 수 있는 AI를 개발하는 것보다 훨씬 쉽다. 많은 연구자들은 이러한 격차를 넘어서기 위해서는 ‘월드 모델(world model)’이 필요하다고 본다.
텍스트나 이미지를 넘어 현실 세계의 물리적 법칙, 공간, 시간, 상호작용 등을 이해하고 시뮬레이션할 수 있도록 구축된 파운데이션 모델의 일종인 월드 모델은 새로운 개념은 아니다. 하지만 최근 구글 딥마인드와 스탠퍼드대학교의 페이페이 리( Fei-Fei Li) 교수가 설립한 월드 랩스, 그리고 얀 르쿤(Yann LeCun)이 메타를 떠나 월드 모델 중심의 스타트업을 설립한 사건 등을 계기로 다시 주목받고 있다. 오픈AI 역시 중단된 소라 비디오 앱에 투입됐던 자원을 ‘장기적인 세계 시뮬레이션 연구’로 재배치하며 이 흐름에 합류했다. 리와 르쿤 같은 지지자들은 월드 모델이 대형언어모델(LLM)의 잘 알려진 한계를 극복하고, 로봇 분야에서 AI의 잠재력을 실현하는 데 핵심 역할을 할 것이라고 주장한다.
‘월드 모델’의 정의는 다양하지만, 지능형 시스템이 외부 세계를 어떻게 표현하고 이해하는지에 초점을 맞춘다는 점은 동일하다. 일부 과학자들은 인간 역시 일종의 정신적 월드 모델을 활용해 주변 환경을 이해하고 행동을 결정한다고 본다. 우리의 뇌는 환경을 충분히 정교하게 시뮬레이션해, 예를 들어 컵을 테이블 가장자리에서 밀어 떨어뜨렸을 때 어떤 일이 일어날지, 혹은 친구에게 솔직한 의견을 말했을 때 어떤 반응이 돌아올지를 예측하게 해준다. 그리고 이러한 예측이 우리의 행동을 결정하는 데 중요한 역할을 한다.
겉보기에는 LLM도 이와 비슷한 능력을 갖춘 것처럼 보인다. 실제로 컵을 떨어뜨리면 어떤 일이 벌어질지 설명할 수 있다. 그러나 연구에 따르면 이러한 ‘이해’는 매우 취약하다. 한 연구에서는 뉴욕시 택시 이동 데이터를 기반으로 학습한 언어 모델이 맨해튼 내 경로 안내를 비교적 정확히 수행했지만, 중간에 우회 경로를 강제로 포함시키자 완전히 엉터리 안내를 해줬다.
이러한 결과는 월드 모델(이 경우 뉴욕시에 대한 정확한 내부 지도)을 갖춘 AI가, 우리가 익숙해진 불안정한 LLM보다 훨씬 더 견고하고 신뢰할 수 있음을 시사한다. 많은 연구자들은 월드 모델이 향후 로봇 기술의 핵심 요소가 될 것으로 본다. 월드 랩스의 창립자인 리 교수는 월드 모델이 심해 탐사나 의료 지원 로봇 개발을 촉진할 수 있다고 설명했지만, 현재 단계에서의 활용은 비교적 제한적이다. 예를 들어 포켓몬 고 개발사는 이용자들이 수집한 수십억 장의 이미지를 활용해 월드 모델의 기초를 구축하고 있으며, 이를 통해 향후 배달 로봇의 이동을 지원하는 것을 목표로 하고 있다.
한편 구글 딥마인드와 월드 랩스는 텍스트와 이미지, 그리고 월드 랩스의 경우 비디오 프롬프트까지 결합해 상호작용 가능한 3D 가상 환경을 생성하는 모델 개발에 집중하고 있다. 이러한 기술은 게임이나 몰입형 VR 콘텐츠 제작을 간소화하는 데 활용될 수 있지만, LLM에 비해 활용 범위는 아직 제한적인 편이다. 궁극적인 돌파구는 이러한 시스템을 환경을 이해하고, 행동의 결과를 예측하며, 그에 따라 스스로 의사결정을 내릴 수 있는 유연한 지능형 에이전트에 통합하는 과정에서 나올 가능성이 크다.
The post 월드 모델 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.