“모든 걸 걸었다”…오픈AI, 완전 자율형 AI 연구자 개발에 올인

야쿠브 파초키 오픈AI 최고과학자가 자사의 새로운 도전 과제와 AI의 미래에 대해 밝혔다.

오픈AI가 연구 전략을 재정비하고 새로운 장기 목표에 집중하고 있다. 회사가 내세운 다음 과제는 이른바 ‘AI 연구자’ 구축으로, 사람의 개입 없이도 스스로 복잡한 문제를 탐색하고 해결하는 완전 자율형 에이전트 시스템을 만드는 것이 핵심이다.

오픈AI는 이 새로운 연구 목표를 향후 몇 년간 자사 연구를 이끄는 핵심 기준으로 삼고, 추론 모델과 에이전트, 해석 가능성 등 다양한 연구 분야를 하나로 결집하는 방향으로 추진하겠다고 밝혔다.

구체적인 일정도 함께 제시됐다. 오픈AI는 오는 9월까지 제한된 범위의 연구 과제를 스스로 수행할 수 있는 ‘자율형 AI 연구 인턴’을 선보일 계획이다. 이는 향후 다수의 에이전트가 협력해 연구를 수행하는 완전히 자동화된 시스템으로 발전하기 위한 초기 단계에 해당한다. 회사는 2028년 이러한 다중 에이전트 기반 연구 체계를 공개하는 것을 목표로 하고 있다. 오픈AI는 이른바 ‘AI 연구자’가 인간이 감당하기 어려운 규모와 복잡성을 지닌 문제까지 다룰 수 있을 것으로 보고 있다.

적용 범위도 넓다. 수학과 물리 분야에서는 새로운 정리나 가설을 도출하는 데 활용될 수 있고, 생물학과 화학 같은 생명과학 연구는 물론 비즈니스와 정책 문제 해결에도 쓰일 수 있다. 텍스트와 코드, 혹은 화이트보드에 정리된 아이디어 형태로 표현할 수 있는 문제라면 대부분 다룰 수 있다.

오픈AI는 지난 몇 년간 AI 산업의 흐름을 사실상 주도해 온 기업이다. 대형언어모델(LLM)을 앞세운 초기 성공은 오늘날 수억 명이 사용하는 기술의 기반을 만들었다. 다만 최근에는 앤트로픽과 구글 딥마인드 등 경쟁사들의 추격이 거세지면서 오픈AI의 다음 선택이 회사는 물론 AI 산업 전반의 향방을 가를 변수로 떠오르고 있다.

이 방향을 이끄는 핵심 인물은 야쿠브 파초키(Jakub Pachocki) 최고과학자(CSO)다. 그는 오픈AI의 장기 연구 전략을 총괄하는 동시에, 2023년 공개된 GPT-4와 2024년 등장해 현재 주요 챗봇과 에이전트 시스템의 기반이 된 ‘추론 모델’ 개발을 주도해 온 인물이다.

파초키는 MIT 테크놀로지 리뷰와의 단독 인터뷰에서 오픈AI의 향후 구상에 대해 설명했다. 그는 “사람처럼 일관성을 유지하면서 장기간 작업을 이어갈 수 있는 모델이 곧 등장할 것”이라며 “목표를 설정하고 방향을 잡는 역할은 여전히 인간의 몫이겠지만, 결국 데이터센터 안에 하나의 연구소가 들어선 것과 같은 환경이 만들어질 수 있다”고 말했다.

난제 해결을 향한 도전

이 같은 ‘거대한 목표’는 새로운 이야기는 아니다. 세상의 난제를 해결하겠다는 비전은 주요 AI 기업들이 공통적으로 내세워 온 목표다. 데미스 하사비스(Demis Hassabis) 구글 딥마인드 최고경영자(CEO)는 2022년 인터뷰에서 “그것이 회사를 만든 이유”라고 밝혔고, 다리오 아모데이(Dario Amodei) 앤트로픽 CEO 역시 데이터센터 안에 ‘천재들의 국가’를 구축하겠다는 구상을 제시한 바 있다. 샘 올트먼 오픈AI CEO는 암 정복을 목표로 내세우고 있다.

파초키는 이제 오픈AI가 그 목표에 한층 가까워졌다고 본다. 그 근거 가운데 하나로 그는 지난 1월 공개된 ‘코덱스(Codex)’를 꼽는다. 이 에이전트 기반 애플리케이션은 사용자의 컴퓨터에서 필요한 코드를 즉석에서 생성해 다양한 작업을 수행할 수 있다. 문서 분석과 차트 생성은 물론 이메일과 소셜미디어 요약까지 가능하다. 앤트로픽의 ‘클로드 코드(Claude Code)’와 ‘클로드 코워커(Claude Cowork)’처럼 유사한 도구들도 잇따라 등장하고 있다.

오픈AI에 따르면 현재 기술 인력의 상당수가 업무에 코덱스를 활용하고 있다. 파초키는 “코덱스는 ‘AI 연구자’의 초기 형태로 볼 수 있으며, 앞으로 근본적인 수준의 성능 향상이 이뤄질 것”이라고 말했다. 핵심은 시스템이 더 오랜 시간, 더 적은 개입으로 작동하도록 만드는 데 있다. 그는 “자동화된 연구 인턴이란 사람이 며칠은 걸릴 일을 맡겨 처리할 수 있는 수준의 시스템을 의미한다”고 설명했다.

외부에서도 유사한 흐름이 감지된다. 앨런 AI 연구소(Allen Institute for AI)의 더그 다우니(Doug Downey) 연구과학자는 “장기적인 과학 연구를 수행할 수 있는 시스템을 만들려는 시도가 활발하다”며 “이는 코딩 에이전트의 성공이 큰 영향을 미쳤다”고 말했다. 이어 “코덱스 같은 도구에 상당한 규모의 코딩 작업을 맡길 수 있다는 사실 자체가 매우 인상적”이라며 “코딩을 넘어 보다 넓은 과학 영역으로 확장할 수 있는지에 대한 질문으로 이어지고 있다”고 덧붙였다.

파초키의 답은 분명하다. 그는 이러한 변화가 이미 시작된 흐름의 연장선에 있다고 본다. 모델의 전반적인 성능이 향상될수록 별도의 개입 없이 더 오랜 시간 작업을 수행하는 능력도 자연스럽게 함께 개선된다는 것이다. 그는 2020년 GPT-3에서 2023년 GPT-4로 이어진 발전을 예로 들며 “GPT-4는 별도의 특화 훈련 없이도 이전 모델보다 훨씬 긴 시간 동안 문제를 다룰 수 있었다”고 설명했다.

여기에 ‘추론 모델’의 등장은 또 한 번의 도약을 만들어냈다. 문제를 단계적으로 해결하고 오류가 발생하면 되짚어 수정하는 방식으로 학습된 모델은 장시간 작업 수행 능력에서도 뚜렷한 향상을 보였다는 것이다. 파초키는 이러한 추론 모델이 앞으로도 계속 발전할 것으로 보고 있다.

오픈AI는 모델이 스스로 더 오래 작업할 수 있도록 학습 방식도 바꾸고 있다. 수학이나 코딩 대회에서 가져온 난이도 높은 문제를 학습 데이터로 활용해, 긴 맥락을 기억하고 복잡한 문제를 여러 하위 과제로 나누어 관리하는 능력을 키우는 방식이다.

다만 목표는 단순히 수학 경진대회에서 우승하는 모델을 만드는 데 있지 않다. 파초키는 “이런 접근은 기술이 실제로 작동한다는 것을 입증하는 과정”이라며 “원한다면 뛰어난 인공 수학자를 만드는 것도 가능하지만 지금은 그보다 더 시급한 문제들이 있다”고 말했다. 이어 “지금은 현실에서 직접적으로 의미 있는 연구에 더 집중하고 있다”고 강조했다.

지금 단계에서 그 방향은 비교적 명확하다. 코덱스가 코딩 영역에서 보여준 가능성을 보다 일반적인 문제 해결로 확장하는 것이다. 파초키는 “특히 프로그래밍 분야에서 큰 변화가 일어나고 있다”며 “불과 1년 전과 비교해도 일하는 방식이 완전히 달라졌고, 이제는 직접 코드를 수정하기보다 여러 개의 코덱스 에이전트를 관리하는 형태로 바뀌고 있다”고 설명했다. 이어 “코덱스가 코딩 문제를 해결할 수 있다면 같은 원리를 바탕으로 더 다양한 분야의 문제에도 적용할 수 있을 것”이라고 내다봤다.

성능은 끊임없이 진화한다

최근 몇 달 사이 오픈AI가 눈에 띄는 성과를 거둔 것도 사실이다. 연구자들은 코덱스를 구동하는 LLM GPT-5를 활용해 아직 풀리지 않은 수학 문제에서 새로운 해법을 찾아냈고, 생물학과 화학, 물리 분야에서도 막혀 있던 문제의 실마리를 제시하는 데 성공했다. 파초키는 “이 모델들이 박사급 연구자도 몇 주는 걸릴 아이디어를 내놓는 모습을 보면 가까운 미래에 이 기술이 훨씬 더 빠른 속도로 발전할 것이라는 기대가 생긴다”고 말했다.

다만 그는 이것이 이미 결론 난 이야기는 아니라고 선을 그었다. 파초키는 “기술이 가져올 변화의 규모를 두고 여전히 회의적인 시각이 존재하는 이유도 충분히 이해할 수 있다”며 “실제 활용도는 사람의 작업 방식이나 필요에 따라 크게 달라질 수밖에 없기 때문에 아직은 그다지 유용하지 않다고 느끼는 사람들이 있는 것이 당연하다”고 말했다.

파초키는 “나도 불과 1년 전까지만 해도 자동완성과 같은 가장 기본적인 생성형 코딩 기능조차 사용하지 않았다”고 설명했다. 그는 “나는 코드에 꽤 까다로운 편이라 가능하면 직접 타이핑하는 것을 선호한다”며 ‘빔(Vim)’을 예로 들었다. 빔은 마우스 대신 수십 개의 키보드 단축키로 조작하는 텍스트 편집기로, 숙련된 개발자들 사이에서 널리 쓰이는 도구다.

하지만 최신 모델의 성능을 확인한 뒤 생각이 바뀌었다. 여전히 복잡한 설계까지 맡기지는 않지만 간단한 아이디어를 시험하는 단계에서는 시간을 크게 줄일 수 있었다는 것이다. 그는 “예전 같으면 일주일은 걸렸을 실험을 이제는 주말 사이에 돌려볼 수 있다”고 말했다. 이어 “아직 전체 설계를 통째로 맡길 수준은 아니지만 일주일 걸리던 일을 대신 해내는 걸 보면 그 가치를 부정하기는 어렵다”고 덧붙였다.

파초키의 구상은 코덱스가 보여준 문제 해결 능력을 한층 끌어올리고 이를 다양한 과학 분야로 확장하는 데 있다. 외부 연구자들도 이러한 방향성 자체에는 공감한다. 다우니는 “아침에 출근했을 때 에이전트가 이미 상당한 연구를 진행해 새로운 결과를 내놓는다면 매우 흥미로울 것”이라고 말했다.

다만 그는 실제 구현은 훨씬 까다로울 수 있다고 지적한다. 지난해 여름 다우니 연구팀이 여러 주요 LLM을 대상으로 다양한 과학 과제를 테스트한 결과, GPT-5가 가장 좋은 성능을 보였지만 여전히 오류가 적지 않았기 때문이다.

그는 “여러 작업을 연속으로 이어 처리해야 할 경우 각 단계가 모두 정확하게 맞아떨어질 가능성은 그만큼 낮아진다”고 설명했다. 다만 기술 발전 속도가 워낙 빠른 만큼 자신이 확인한 결과가 이미 뒤처졌을 가능성도 있다고 덧붙였다. 그는 “최신 버전은 아직 테스트해보지 못했다”며 “지금쯤이면 그 결과도 이미 낡은 정보일 수 있다”고 말했다.

풀리지 않은 핵심 질문

인간의 개입 없이 복잡한 문제를 스스로 해결하는 시스템이 가져올 위험에 대해 묻자, 파초키는 “이 같은 문제는 오픈AI 내부에서도 지속적으로 논의되고 있다”고 말했다. 그는 “AI가 연구, 특히 AI 연구 자체를 크게 가속한다면 세상을 바꿀 만큼 큰 변화가 될 것”이라며 “그만큼 아직 답이 없는 중요한 질문들도 함께 따라온다”고 밝혔다. 이어 “이 시스템이 충분히 강력해져 하나의 연구 프로그램을 통째로 수행할 수 있게 된다면 잘못된 방향으로 작동할 가능성도 배제할 수 없다”고 덧붙였다.

파초키가 보기에 이러한 위험은 여러 형태로 나타날 수 있다. 시스템이 예기치 않게 엇나가거나, 외부 공격에 노출될 수 있고, 단순히 지시를 잘못 이해하는 상황도 충분히 발생할 수 있다는 것이다.

현재 오픈AI가 이러한 문제에 대응하기 위해 활용하는 핵심 방법은 모델이 작업 과정을 스스로 드러내도록 하는 방식이다. 이른바 ‘사고 과정 추적(chain-of-thought monitoring)’이다. 모델이 문제를 해결하는 과정에서 일종의 메모를 남기듯 자신의 판단 과정을 기록하도록 하고, 연구자들은 이를 통해 모델이 의도대로 작동하는지를 점검한다. 오픈AI는 최근 코덱스를 대상으로 이 방식을 어떻게 적용하고 있는지에 대한 내부 연구 내용도 공개했다.

파초키는 “데이터센터에서 장시간 자율적으로 작동하는 시스템이 등장하게 되면 이러한 방식에 더욱 의존하게 될 것”이라고 말했다. 궁극적으로는 다른 LLM을 활용해 이 같은 ‘메모’를 상시 모니터링하고, 문제가 발생하기 전에 이상 행동을 포착하는 구조가 될 것이라는 설명이다. 현재로서는 모델을 완전히 통제하기 어려운 만큼 사전에 차단하기보다 조기에 감지하는 접근이 현실적이라는 판단이다.

그는 “이 문제를 완전히 해결했다고 말하기까지는 상당한 시간이 걸릴 것”이라며 “시스템을 충분히 신뢰할 수 있기 전까지는 반드시 제약을 두고 운영해야 한다”고 강조했다. 특히 고성능 모델은 외부 시스템과 격리된 ‘샌드박스’ 환경에서 운용해야 한다는 입장이다.

우려는 이미 현실로 나타나고 있다. AI를 활용한 새로운 사이버 공격 기법이 등장했고, 합성 병원체 설계 같은 생물학적 위협에 악용될 수 있다는 가능성도 제기된다. 파초키는 “충분히 우려할 만한 시나리오가 존재한다”고 말했다.

그는 이 기술이 가져올 변화의 성격 자체가 전례 없는 수준이라고 본다. “데이터센터 하나가 오픈AI나 구글이 수행하는 일을 모두 해낼 수 있는 상황을 상상해 보라”며 “과거에는 대규모 조직이 필요했던 일이 이제는 소수 인력으로도 가능해질 수 있다”고 말했다. 이어 “이 문제는 정부가 반드시 풀어야 할 과제”라고 덧붙였다.

다만 일각에서는 정부 역시 문제의 일부라는 지적도 나온다. 미국 정부가 AI를 전장에서 활용하려는 움직임이 대표적이다. 최근 앤트로픽과 미 국방부 간 갈등은 이 기술을 어디까지, 어떤 방식으로 활용해야 하는지를 두고 사회적 합의가 부족하다는 사실을 여실히 드러냈다. 더 나아가 그 기준을 누가 정해야 하는지조차 명확하지 않은 상황이다. 이런 논란이 이어지는 가운데 오픈AI는 경쟁사 대신 국방부와 계약을 체결했고 상황은 여전히 불투명하다.

필자는 이 문제를 두고 파초키에게 다시 물었다. 과연 다른 이들이 해법을 찾아낼 것이라 믿는지, 아니면 미래를 설계하는 입장에서 개인적으로 책임감을 느끼고 있는지에 대한 질문이었다. 그는 “개인적으로 책임을 느끼고 있지만 이 문제는 오픈AI 혼자 기술을 어떻게 개발하느냐, 제품을 어떻게 설계하느냐만으로 해결될 수 있는 사안이 아니다”라며 “정책 결정자들의 적극적인 개입이 반드시 필요하다”고 덧붙였다.

그렇다면 우리는 과연 파초키가 그리는 방향으로 나아가고 있는 것일까. 이에 대해 다우니는 “이 분야에 수십 년 몸담아 왔지만 특정 기술이 언제 가능해질지에 대해서는 더 이상 단언하지 않는다”고 말했다.

오픈AI가 내세운 공식 목표는 범용인공지능(AGI), 즉 인간의 대부분 인지 능력을 따라잡을 수 있을 것으로 기대되는 미래 기술이 인류 전체에 이익이 되도록 하는 것이다. 이를 위해 오픈AI는 해당 기술을 가장 먼저 구현하는 것을 목표로 하고 있다. 다만 이번 인터뷰에서 파초키가 AGI를 직접 언급한 것은 한 차례뿐이었고, 그마저도 ‘경제적으로 큰 변화를 가져올 기술’이라는 표현으로 의미를 구체화하는 데 그쳤다.

그는 “LLM은 인간의 뇌와는 근본적으로 다르다”며 “겉으로는 사람과 비슷해 보일 수 있지만 인간의 대화를 기반으로 학습됐기 때문일 뿐이며, 진화 과정을 거쳐 효율적으로 형성된 구조는 아니다”라고 설명했다. 또 “2028년이 되더라도 모든 면에서 인간과 같은 수준의 지능을 갖춘 시스템이 등장할 것으로 보지는 않는다”고 말했다. 다만 “모든 면에서 인간과 동일할 필요는 없다”며 “그보다 낮은 수준의 능력으로도 충분히 큰 변화를 만들어낼 수 있다”고 덧붙였다.

The post “모든 걸 걸었다”…오픈AI, 완전 자율형 AI 연구자 개발에 올인 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.