[OPINION] 속을 알 수 없는 AI…전장서 드러난 ‘인간 통제’의 한계

AI가 전장에서 실시간 의사결정을 수행하는 ‘행위자’로 부상하면서, 인간이 이를 통제할 수 있다는 전제가 흔들리고 있다. 전문가들은 AI의 성능보다 ‘의도’를 이해하는 기술이 확보되지 않는 한 인간의 감독은 착시에 불과할 수 있다고 경고한다.

인공지능(AI)의 전쟁 활용을 둘러싼 논쟁이 앤트로픽과 미 국방부 간 법적 분쟁으로까지 확산되고 있다. 최근 이란과의 충돌을 계기로 AI의 역할이 급격히 커지면서 상황은 더욱 긴박해졌다. 이제 AI는 단순한 정보 분석 ‘보조 도구’를 넘어 실시간으로 타격 목표를 생성하고, 미사일 요격을 조정하며, 자율 드론 공격을 지휘하는 ‘행위자’로 빠르게 자리 잡고 있다.

그동안 AI 기반 자율 살상 무기를 둘러싼 논의는 인간이 어느 수준까지 ‘개입해야 하는가’에 집중돼 왔다. 미 국방부 지침 역시 인간의 감독이 책임성과 맥락 판단을 보완하고 해킹 위험을 줄일 수 있다는 전제 위에 설계돼 있다.

속을 알 수 없는 ‘블랙박스’’

그러나 ‘인간이 개입한다’고 해서 안심해서는 안 된다. 위험은 기계가 인간의 통제를 벗어나는 데 있는 것이 아니라, 인간이 기계가 실제로 무엇을 ‘생각하고 있는지’ 알지 못한다는 데 있다. 국방부 지침은 인간이 AI의 작동 원리를 이해하고 있다는 위험한 가정 위에 서 있으며, 바로 이 지점에서 근본적인 한계를 드러낸다.

수십 년간 인간의 의도를 연구해 온 필자의 관점에서 보면 최신 AI 시스템은 사실상 ‘블랙박스’나 마찬가지다. 입력과 출력은 확인할 수 있지만 그 사이에서 어떤 판단과 연산이 이뤄지는지는 여전히 불투명하다. 심지어 이를 설계한 개발자들조차 내부 작동을 완전히 해석하지 못한다. AI가 스스로 이유를 제시하더라도 그 설명이 언제나 신뢰할 수 있는 것은 아니다.

‘인간 개입’이라는 안전장치의 한계

인간의 개입을 둘러싼 논쟁에서 정작 중요한 질문은 빠져 있다. 우리는 AI가 행동하기 전에 AI의 의도를 제대로 이해할 수 있느냐는 문제에 대한 질문 말이다.

적의 탄약 공장을 타격하는 임무를 부여받은 자율 드론을 예로 들어보자. 자동화된 지휘통제 시스템은 해당 공장을 최적의 목표로 선정한다. 내부 탄약의 2차 폭발로 시설 전체를 파괴할 수 있다는 계산에 따라 임무 성공 확률을 92%로 제시한다. 인간 조종사는 목표의 군사적 정당성과 높은 성공 가능성을 확인한 뒤 공격을 승인한다.

하지만 드론 조종사가 알지 못하는 요소가 있다. AI 시스템의 계산에는 또 다른 변수가 숨어 있다. 탄약 공장을 파괴하는 데 그치지 않고, 2차 폭발이 인근의 어린이 병원에도 심각한 피해를 줄 것이라는 점이다. 그렇게 되면 긴급 대응 인력은 병원으로 몰리게 되고, 그 사이 공장은 완전히 전소된다. AI 입장에서는 이러한 방식으로 혼란을 극대화하는 것이 주어진 목표를 충족하는 것이다. 그러나 인간의 관점에서 보면 이는 민간인 보호 규정을 위반하는, 잠재적인 전쟁 범죄에 해당할 수 있다.

문제는 인간을 ‘감독자로 두는 것’만으로는 이러한 위험을 차단할 수 없다는 점이다. 인간은 AI가 행동하기 전에 그 의도를 정확히 파악할 수 없다. 최신 AI는 단순히 지시를 수행하는 것이 아니라 이를 해석한다. 특히 긴박한 상황에서 목표 설정이 충분히 정교하지 않을 경우, 블랙박스 시스템은 지시를 충실히 따르면서도 인간의 의도와는 다른 결과를 낳을 수 있다.

이처럼 AI와 인간 사이에 존재하는 ‘의도 격차’는 왜 우리가 첨단 블랙박스 AI를 의료나 항공 교통 관제 같은 민간 영역에 쉽게 도입하지 못하는지를 설명해 준다. 직장 환경에서도 도입을 둘러싼 논란이 이어지는 이유다. 그럼에도 불구하고 우리는 이러한 기술을 전장에는 빠르게 투입하고 있다.

더 큰 문제는 군비 경쟁이다. 한쪽이 기계의 속도와 규모로 작동하는 완전 자율 무기를 도입할 경우, 상대 역시 대응을 위해 같은 선택을 할 수밖에 없다. 그 결과 전쟁에서 점점 더 자율적이고 동시에 더 불투명한 AI 의사결정이 확대될 가능성이 크다.

해법은 ‘AI 의도’ 이해에 있다

AI 개발은 더 강력한 기술을 만드는 데서 끝나서는 안 된다. 그 기술이 어떻게 작동하는지를 이해하는 과정까지 포함해야 한다. 지금까지는 막대한 자본이 성능 향상에 집중돼 왔다. 미국 IT 연구 및 자문 기업 가트너(Gartner)에 따르면 AI 관련 투자는 2026년에만 약 2조 5,000억 달러(약 3,700조 원) 규모로 확대될 전망이다. 반면 이러한 기술의 내부 작동을 이해하기 위한 투자는 이에 비해 극히 미미한 수준에 머물러 있다.

이제는 접근 방식의 전환이 필요하다. 점점 더 강력한 시스템이 등장하고 있지만 그 작동 원리를 이해하는 일은 공학만으로 해결할 수 있는 문제가 아니다. 신경과학, 인지과학, 철학 등 다양한 분야가 결합된 학제 간 연구가 필수적이다. AI가 행동하기 전에 그 ‘의도’를 규정하고, 측정하며, 개입할 수 있는 도구를 마련해야 한다. 또한 신경망 내부의 작동 경로를 분석해 단순한 입력과 출력의 관찰을 넘어 의사결정 과정을 인과적으로 이해할 수 있어야 한다.

이를 위한 한 가지 유력한 방향은 신경망을 인간이 이해할 수 있는 구성 요소로 분해해 내부 작동을 해석하는 이른바 ‘기계적 해석 가능성(mechanistic interpretability)’ 연구와 인간의 의도 형성을 연구하는 신경과학의 통찰을 결합하는 것이다. 동시에 더 강력한 블랙박스 AI를 실시간으로 감시하고 그 행동과 목표를 추적하는 ‘감사 AI(auditor AI)’ 개발도 중요한 대안으로 떠오르고 있다.

AI의 작동 원리를 더 깊이 이해할수록 핵심 임무에도 이를 더 신뢰하고 활용할 수 있게 된다. 동시에 더 효율적이고 성능이 뛰어나면서도 안전한 시스템을 구축하는 데도 도움이 된다.

필자와 동료 연구진은 인간의 의도가 형성되는 과정을 탐구해 온 다양한 학문적 성과를 바탕으로 AI 시스템의 의도를 이해하고 측정하는 방법을 연구하고 있다. 이러한 노력은 학계뿐 아니라 정부와 산업계의 협력을 통해 우선적으로 추진될 필요가 있다.

다만 학문적 연구만으로는 충분하지 않다. 기술 기업과 AI 정렬(AI alignment) 연구를 지원하는 민간 기부자들은 모델 성능뿐 아니라 해석 가능성과 의도 이해를 위한 연구에도 더욱 적극적으로 투자해야 한다. 또한 미 국방부가 자율 시스템 도입을 확대하는 만큼 의회는 단순한 성능 평가를 넘어 AI의 ‘의도’ 자체를 검증하는 엄격한 기준을 마련해야 한다.

이러한 기반이 갖춰지기 전까지 AI에 대한 인간의 감독은 안전장치라기보다 ‘착시’에 가까울 수 있다.

이 글을 쓴 우리 마오즈는 인간의 뇌가 의도를 어떻게 행동으로 전환하는지를 연구하는 인지·계산신경과학자다. 현재 채프먼대학교 교수로 재직 중인 그는 UCLA와 캘리포니아공과대학교에서도 겸임으로 활동하고 있으며, AI 시스템(ai-intentions.org)의 의도를 이해하고 측정하기 위한 학제 간 연구를 이끌고 있다.

The post [OPINION] 속을 알 수 없는 AI…전장서 드러난 ‘인간 통제’의 한계 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.