AI 환각 사라질까…LLM 내부 분석해 고치는 새 도구 나왔다

미국 스타트업 굿파이어가 AI 모델 내부를 분석하고 조정할 수 있는 도구를 공개했다. 이 기술은 모델 훈련 과정을 디버깅 가능한 공학적 과정으로 바꾸는 것을 목표로 한다.

샌프란시스코에 소재한 스타트업 굿파이어(Goodfire)는 최근 ‘실리코(Silico)’라는 새로운 도구를 출시했다. 이는 연구자와 엔지니어가 훈련 과정에서 AI 모델의 내부 구조를 들여다보고, 모델의 동작을 결정하는 설정인 매개변수를 조정할 수 있는 도구다. 이를 통해 모델 제작자는 지금까지 불가능하다고 여겨졌던 수준까지 AI 모델 구축 과정을 더 세밀하게 제어할 수 있게 된다.

굿파이어는 실리코가 데이터세트 구축부터 모델 훈련에 이르기까지 AI 모델 개발 과정의 전 단계에서 개발자들이 디버깅할 수 있도록 돕는 최초의 상용 도구라고 주장한다. 디버깅은 프로그램 안의 오류나 이상 동작을 찾아 원인을 분석하고 수정하는 과정을 의미한다.

굿파이어는 또한 AI 모델 구축을 연금술 같은 과정이 아니라 과학적인 과정으로 만드는 것을 사명으로 삼고 있다고 주장한다. 실제로 챗GPT나 제미나이 같은 대형언어모델(LLM)은 놀라운 일을 해낼 수 있지만, 정확히 어떻게 또는 왜 그런 결과가 나오는지 아무도 알지 못하기 때문에 결함을 수정하거나 원치 않는 행동을 차단하기가 어려울 수 있다.

에릭 호(Eric Ho) 굿파이어 CEO는 실리코 출시를 앞두고 MIT 테크놀로지 리뷰와의 단독 인터뷰에서 “AI 모델에 대한 이해도와 실제 배포 속도 사이의 간극이 점점 더 벌어지고 있다는 사실을 확인했다”고 말했다. 그는 이어 “오늘날 모든 주요 프런티어 연구소에서는 규모를 키우고, 연산 자원을 늘리고, 데이터를 확장하면 범용 인공지능(AGI)에 도달할 수 있으며 그 외의 요소는 중요하지 않다는 인식이 지배적이지만, 우리는 그것이 유일한 해법이 아니며 더 나은 방법이 있다고 말하고 있다”고 강조했다.

굿파이어는 업계 선두주자인 앤트로픽, 오픈AI, 구글 딥마인드를 포함한 소수의 기업과 함께 ‘기계적 해석 가능성(mechanistic interpretability)’이라는 기술을 선도하고 있다. 이 기술은 AI 모델이 작업을 수행할 때 내부에서 어떤 일이 일어나는지, 즉 뉴런과 그 연결 경로를 매핑해 이해하는 것을 목표로 한다.

굿파이어는 이 접근법을 이미 훈련된 모델을 분석하는 데에만 사용하는 데 그치지 않고, 처음부터 모델을 설계하는 데에도 활용하고자 한다.

호 CEO는 “우리는 시행착오를 없애고 모델 훈련을 정밀 공학으로 전환하고자 한다”면서 “이는 훈련 과정에서 실제로 활용할 수 있도록 조절 장치와 다이얼을 노출시키는 것을 의미한다”고 설명했다.

굿파이어는 이미 자사의 기술과 도구를 활용해 모델이 생성하는 환각(hallucination)의 수를 줄이는 등 LLM의 동작을 미세 조정해 왔다. 이 회사는 이제 실리코를 통해 이러한 자체 개발 기술 중 상당수를 제품으로 패키징해 출시하고 있다.

이 기술 도구는 에이전트를 활용해 복잡한 작업의 상당 부분을 자동화한다. 호 CEO는 “이제 에이전트는 우리가 인간을 투입해 수행하던 해석 가능성 관련 작업의 많은 부분을 처리할 만큼 충분히 강력해졌다”면서 “이것이 실제로 고객이 사용할 수 있는 플랫폼이 되기 위해 반드시 해결해야 했던 간극이었다”고 강조했다.

기계적 해석 가능성을 연구해온 레오나드 베레스카(Leonard Bereska) 암스테르담대학교 연구원은 실리코가 유용한 도구처럼 보인다고 평가한다. 하지만 그는 굿파이어의 더 큰 목표에 대해서는 반론을 제기한다. 그는 “사실 그들은 연금술을 더 정밀하게 만들고 있을 뿐”이라며 “이를 공학이라고 부르는 것은 과장으로 들린다”고 주장했다.

모델 매핑

실리코를 사용하면 개별 뉴런이나 뉴런 그룹처럼 훈련된 모델의 특정 부분을 자세히 들여다보고, 실험을 수행해 해당 뉴런들이 어떤 역할을 하는지 파악할 수 있다(단, 이때 모델의 내부 구조에 접근할 수 있어야 한다. 대부분의 사람들은 실리코를 통해 챗GPT나 제미나이 내부를 직접 들여다볼 수는 없지만, 많은 오픈소스 모델 내부의 매개변수는 분석할 수 있다). 또한 어떤 입력이 서로 다른 뉴런을 활성화하는지 확인하고, 특정 뉴런의 상류와 하류 경로를 추적해 다른 뉴런들이 어떻게 영향을 주고받는지 볼 수 있다.

예를 들어 굿파이어는 오픈소스 모델 큐웬 3 내부에서 ‘트롤리 문제(trolley problem)’와 관련된 뉴런 하나를 발견했다. 트롤리 문제란 통제 불가능한 상황에서 한 사람을 희생해 여러 사람을 구하는 선택을 해야 하는 윤리적 사고 실험을 뜻한다. 이 뉴런을 활성화하면 모델의 응답이 바뀌면서 출력이 명확한 도덕적 딜레마의 형태로 구성됐다. 호 CEO는 “이 뉴런이 활성화되면 온갖 이상한 일이 발생한다”고 말했다.

이처럼 이상한 행동의 원인을 찾는 것이 이제 꽤 일반적인 관행이 됐지만, 굿파이어는 그런 행동을 더 쉽게 조정할 수 있게 만들고자 한다. 개발자들은 실리코를 사용해 개별 뉴런에 연결된 매개변수를 조정해 특정 행동을 강화하거나 억제할 수 있다.

또 다른 사례로, 굿파이어 연구진은 한 모델에게 “기업이 자사의 AI가 0.3%의 확률로 기만적인 행동을 함으로써 2억 명의 사용자에게 영향을 미친다는 사실을 공개해야 하는가”라는 질문을 던졌다. 모델은 해당 공개가 비즈니스에 부정적인 영향을 줄 수 있다는 이유로 “아니오”라고 답했다.

연구진은 모델 내부를 분석한 결과, 투명성과 정보 공개와 관련된 뉴런의 활성도를 높였을 때 답변이 10번 중 9번은 “아니오”에서 “예”로 바뀐다는 사실을 발견했다. 이에 대해 호 CEO는 “모델은 이미 윤리적 추론 회로를 갖추고 있었지만, 상업적 위험 분석 결과가 더 지배적으로 작용하고 있었다”고 설명했다.

이처럼 모델 값을 조정하는 방식은 하나의 접근법일 뿐이다. 실리코는 특정 훈련 데이터를 걸러내어 원치 않는 매개변수 설정이 애초에 형성되지 않도록 훈련 과정을 유도하는 것도 지원한다.

예를 들어 많은 모델은 9.11이 9.9보다 크다고 말할 수 있다. 모델 내부를 들여다보면, 성경에서 9.9절이 9.11절보다 앞에 나오거나, 코드 저장소에서 연속된 업데이트가 9.9, 9.10, 9.11처럼 번호가 매겨지는 구조의 영향을 받는 뉴런 때문에 그런 결과가 나왔다는 사실을 확인할 수 있다. 이러한 정보를 활용하면 수학을 수행할 때 모델이 ‘성경’과 관련된 뉴런의 영향을 받지 않도록 재훈련할 수 있다.

굿파이어는 실리코를 출시함으로써 그동안 일부 최상위 연구소만 접근할 수 있었던 기술을 자체 모델을 구축하거나 오픈소스 모델을 조정하려는 중소기업과 연구팀에게 제공하려고 한다. 이 도구는 고객 요구에 따라 개별적으로 가격이 책정되며 구체적인 금액은 공개되지 않았다. 호 CEO는 “모델 훈련 과정을 소프트웨어 개발처럼 만들 수 있다면 각자의 필요에 맞는 모델을 설계하는 기업이 훨씬 더 많아질 수 있다”고 밝혔다.

베레스카 연구원은 실리코 같은 도구가 더 신뢰할 수 있는 모델 구축에 도움이 될 수 있다는 점에 동의한다. 특히 그는 의료나 금융처럼 안전이 중요한 분야에서 이러한 기술이 필수적일 수 있다고 믿는다.

그는 “프런티어 연구소들은 이미 자체적으로 해석 가능성 팀을 갖추고 있다”면서 “실리코는 해석 가능성 연구원을 직접 고용할 필요 없이 그 역할을 대신할 수 있다는 점에서 기업들에게 가치 있는 도구”라고 덧붙였다.

The post AI 환각 사라질까…LLM 내부 분석해 고치는 새 도구 나왔다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.