월드 모델

오늘날의 AI는 여전히 신뢰할 수 없다. 일부 연구자들은 이 문제를 해결하려면 AI 시스템이 주변 세상을 이해하도록 가르쳐야 한다고 생각한다.

📋한눈에 보는 AI 요약AI 자동 요약▶ 펼쳐보기

AI는 글을 쓰거나 코딩하는 것처럼 디지털 작업은 잘하지만, 빨래를 개거나 길을 걷는 것처럼 현실 세계의 일은 아직 잘 못합니다. 이 문제를 해결하기 위해 ‘월드 모델’이라는 기술이 주목받고 있는데, 이는 AI가 현실 세계의 물리 법칙이나 공간을 이해하고 머릿속으로 시뮬레이션할 수 있게 만드는 것입니다. 구글 딥마인드, 메타의 얀 르쿤, 스탠퍼드의 페이페이 리 교수 등 유명 연구자들과 기업들이 이 분야에 뛰어들고 있습니다. 기존 AI인 대형언어모델(LLM)은 세상을 진짜로 이해하는 게 아니라 패턴을 흉내 내는 수준이라 조금만 상황이 바뀌면 엉뚱한 답을 내놓는 한계가 있습니다. 월드 모델은 이런 한계를 넘어서 로봇이나 자율주행 등 현실 세계에서 작동하는 똑똑한 AI를 만드는 핵심 열쇠가 될 수 있습니다.

왜 중요한가요?

이 기술이 발전하면 로봇이 집안일을 돕거나, 배달 로봇이 복잡한 거리를 스스로 이동하고, 위험한 심해 탐사도 AI가 대신할 수 있게 되어 우리 일상과 안전에 큰 변화를 가져올 수 있습니다.

주요 용어 설명

월드 모델 (World Model)

AI가 현실 세계를 머릿속에 그려보는 능력이라고 생각하면 됩니다. 마치 우리가 컵을 밀면 떨어진다는 것을 머릿속으로 예상할 수 있는 것처럼, AI에게도 물리 법칙과 공간 관계를 이해시켜서 미래에 일어날 일을 예측하게 만드는 기술입니다.

파운데이션 모델 (Foundation Model)

다양한 작업에 두루 쓸 수 있도록 방대한 데이터로 훈련시킨 대규모 AI 모델입니다. 마치 만능 기초 체력을 먼저 키운 뒤 여러 운동에 적용하는 것처럼, 하나의 큰 모델을 여러 분야에 활용할 수 있게 만든 것입니다.

지능형 에이전트 (Intelligent Agent)

스스로 주변 상황을 파악하고, 어떤 행동을 하면 어떤 결과가 생길지 예측한 뒤, 스스로 판단해서 행동하는 AI 시스템입니다. 단순히 질문에 답하는 AI를 넘어서, 현실 세계에서 자율적으로 임무를 수행할 수 있는 똑똑한 로봇 두뇌와 같은 개념입니다.

⚡ Claude AI가 독자를 위해 자동 생성한 요약입니다. 원문을 함께 읽어보세요.

AI 시스템은 이미 디지털 세계를 놀라울 정도로 능숙하게 다루고 있지만, 물리적 세계는 여전히 인간의 영역으로 남아 있다. 실제로 소설을 쓰거나 앱을 개발하는 AI를 만드는 일은, 빨래를 개거나 도시의 거리를 스스로 이동할 수 있는 AI를 개발하는 것보다 훨씬 쉽다. 많은 연구자들은 이러한 격차를 넘어서기 위해서는 ‘월드 모델(world model)’이 필요하다고 본다.

텍스트나 이미지를 넘어 현실 세계의 물리적 법칙, 공간, 시간, 상호작용 등을 이해하고 시뮬레이션할 수 있도록 구축된 파운데이션 모델의 일종인 월드 모델은 새로운 개념은 아니다. 하지만 최근 구글 딥마인드와 스탠퍼드대학교의 페이페이 리( Fei-Fei Li) 교수가 설립한 월드 랩스, 그리고 얀 르쿤(Yann LeCun)이 메타를 떠나 월드 모델 중심의 스타트업을 설립한 사건 등을 계기로 다시 주목받고 있다. 오픈AI 역시 중단된 소라 비디오 앱에 투입됐던 자원을 ‘장기적인 세계 시뮬레이션 연구’로 재배치하며 이 흐름에 합류했다. 리와 르쿤 같은 지지자들은 월드 모델이 대형언어모델(LLM)의 잘 알려진 한계를 극복하고, 로봇 분야에서 AI의 잠재력을 실현하는 데 핵심 역할을 할 것이라고 주장한다.

‘월드 모델’의 정의는 다양하지만, 지능형 시스템이 외부 세계를 어떻게 표현하고 이해하는지에 초점을 맞춘다는 점은 동일하다. 일부 과학자들은 인간 역시 일종의 정신적 월드 모델을 활용해 주변 환경을 이해하고 행동을 결정한다고 본다. 우리의 뇌는 환경을 충분히 정교하게 시뮬레이션해, 예를 들어 컵을 테이블 가장자리에서 밀어 떨어뜨렸을 때 어떤 일이 일어날지, 혹은 친구에게 솔직한 의견을 말했을 때 어떤 반응이 돌아올지를 예측하게 해준다. 그리고 이러한 예측이 우리의 행동을 결정하는 데 중요한 역할을 한다.

겉보기에는 LLM도 이와 비슷한 능력을 갖춘 것처럼 보인다. 실제로 컵을 떨어뜨리면 어떤 일이 벌어질지 설명할 수 있다. 그러나 연구에 따르면 이러한 ‘이해’는 매우 취약하다. 한 연구에서는 뉴욕시 택시 이동 데이터를 기반으로 학습한 언어 모델이 맨해튼 내 경로 안내를 비교적 정확히 수행했지만, 중간에 우회 경로를 강제로 포함시키자 완전히 엉터리 안내를 해줬다.

이러한 결과는 월드 모델(이 경우 뉴욕시에 대한 정확한 내부 지도)을 갖춘 AI가, 우리가 익숙해진 불안정한 LLM보다 훨씬 더 견고하고 신뢰할 수 있음을 시사한다. 많은 연구자들은 월드 모델이 향후 로봇 기술의 핵심 요소가 될 것으로 본다. 월드 랩스의 창립자인 리 교수는 월드 모델이 심해 탐사나 의료 지원 로봇 개발을 촉진할 수 있다고 설명했지만, 현재 단계에서의 활용은 비교적 제한적이다. 예를 들어 포켓몬 고 개발사는 이용자들이 수집한 수십억 장의 이미지를 활용해 월드 모델의 기초를 구축하고 있으며, 이를 통해 향후 배달 로봇의 이동을 지원하는 것을 목표로 하고 있다.

한편 구글 딥마인드와 월드 랩스는 텍스트와 이미지, 그리고 월드 랩스의 경우 비디오 프롬프트까지 결합해 상호작용 가능한 3D 가상 환경을 생성하는 모델 개발에 집중하고 있다. 이러한 기술은 게임이나 몰입형 VR 콘텐츠 제작을 간소화하는 데 활용될 수 있지만, LLM에 비해 활용 범위는 아직 제한적인 편이다. 궁극적인 돌파구는 이러한 시스템을 환경을 이해하고, 행동의 결과를 예측하며, 그에 따라 스스로 의사결정을 내릴 수 있는 유연한 지능형 에이전트에 통합하는 과정에서 나올 가능성이 크다.

The post 월드 모델 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.