[OPINION] 이제 AI를 보는 기준을 바꿔야 한다

AI가 높은 벤치마크 점수에도 불구하고 실제 현장에서는 기대만큼의 성과를 내지 못하는 경우가 많다. 이에 따라 인간과 조직 맥락을 반영한 새로운 평가 방식이 필요하다는 지적이 나온다.

그동안 인공지능(AI)은 ‘인간을 능가할 수 있는가’라는 하나의 잣대로 평가돼 왔다. 체스와 고급 수학, 코딩, 글쓰기에 이르기까지 AI의 성능은 특정 과제를 수행하는 개인과의 비교를 통해 측정됐다.

이 방식은 직관적이다. 정답이 분명한 문제를 놓고 인간과 AI를 견주면 기준을 세우기 쉽고, 결과를 비교하거나 성능을 개선하는 과정도 수월하다. 자연스럽게 순위가 만들어지고 주목을 끄는 성과도 도출된다.

그러나 이러한 평가 방식은 실제 활용 환경과는 거리가 있다. AI는 현실에서 이런 식으로 사용되지 않기 때문이다. 최근 연구자들과 산업계도 이 같은 간극을 인식하고 보다 입체적인 평가 방식으로 전환을 시도하고 있지만 근본적인 한계는 여전히 남아 있다. AI의 성능을 실제 활용 맥락이 아니라 그 바깥에서 따로 떼어 측정하는 방식이 유지되고 있기 때문이다.

현실에서 AI는 하나의 과제를 고립된 상태로 수행하지 않는다. 여러 사람과 상호작용하며 복잡한 환경 속에서 작동하고, 성과 역시 특정 순간이 아니라 일정 기간에 걸쳐 축적된다. 그럼에도 현재의 평가 방식은 이러한 맥락을 충분히 반영하지 못한다. 그 결과 우리는 AI의 실제 역량을 오해하고, 구조적 위험을 간과하며, 경제적·사회적 영향까지 잘못 판단하게 된다.

이 간극을 좁히려면 평가 기준 자체를 다시 설계할 필요가 있다. 개별 과제 중심의 접근에서 벗어나 인간과 함께 일하는 환경 속에서 AI가 시간의 흐름에 따라 어떤 성과를 만들어내는지를 살펴보는 방식으로 전환해야 한다는 것이다.

필자는 2022년부터 영국과 미국, 아시아의 중소기업과 보건·인도주의·비영리·고등교육 기관, 그리고 런던과 실리콘밸리의 주요 AI 설계 생태계를 중심으로 실제 AI 도입 사례를 연구해 왔다. 이를 바탕으로 ‘HAIC 벤치마크(Human–AI, Context-Specific Evaluation)’라는 새로운 평가 기준을 제안한다.

AI가 실패하는 순간

정부와 기업 입장에서 AI 벤치마크 점수는 공급업체의 주장보다 더 믿을 만한 기준처럼 보인다. 실제 환경에 도입할 만큼 충분한 성능을 갖췄는지를 판단하는 핵심 지표로 활용되기 때문이다. 예를 들어 최첨단 벤치마크에서 정확도 98%, 빠른 처리 속도, 설득력 있는 결과를 기록한 AI 모델이 있다고 가정해 보자. 이런 수치를 근거로 조직은 도입을 결정하고 구매와 시스템 통합에 상당한 비용과 기술 자원을 투입하게 된다.

하지만 현장에 적용되는 순간, 기대와 현실의 간극은 빠르게 드러난다. 대표적인 사례가 의료 영상 판독 AI다. 미국 식품의약국(FDA)의 승인을 받은 일부 모델은 방사선과 전문의보다 더 빠르고 정확하게 영상을 분석한다고 평가받는다. 실제로 캘리포니아에서 런던 외곽에 이르기까지 여러 병원에서 이런 AI가 활용되고 있다. 그러나 현장에서 의료진은 AI의 결과를 병원별 보고 기준과 국가별 규제에 맞춰 해석하느라 오히려 더 많은 시간을 들이는 경우가 많았다. 시험 환경에서는 생산성을 높이는 도구로 보였지만 실제로는 업무 흐름을 늦추는 요인이 된 셈이다.

이 과정에서 드러난 문제는 분명하다. 의료 AI를 평가하는 기존 벤치마크가 실제 의사결정 과정을 제대로 반영하지 못한다는 점이다. 병원에서는 방사선과 의사뿐 아니라 종양 전문의, 물리학자, 간호사 등 다양한 전문가가 함께 환자를 검토한다. 치료 계획은 한 번의 판단으로 끝나지 않고, 며칠에서 몇 주에 걸쳐 새로운 정보가 더해지며 계속 수정된다. 전문가 간 논의와 조율, 환자의 선호, 장기적인 치료 목표가 맞물리는 복합적인 과정이다. 이런 환경에서는 높은 점수를 받은 AI라도 기대한 성능을 그대로 발휘하기 어렵다.

이 같은 문제는 다른 분야에서도 반복된다. 실제 업무에 투입된 AI가 표준화된 테스트에서 보였던 성과를 그대로 재현하지 못하는 경우가 적지 않다.

결국 벤치마크 점수가 현실의 성과로 이어지지 않으면, 아무리 높은 평가를 받았던 AI라도 빠르게 현장에서 밀려난다. 필자가 ‘AI의 무덤(AI graveyard)’이라고 부르는 상황이다. 이 과정에서 시간과 비용, 인력이 낭비되고, 이런 경험이 반복될수록 조직 내부의 AI에 대한 신뢰도는 점점 약해진다. 특히 의료처럼 민감한 분야에서는 기술 전반에 대한 사회적 신뢰까지 흔들릴 수 있다.

문제는 여기서 끝나지 않는다. 현재의 벤치마크는 AI가 실제 환경에서 얼마나 제대로 작동할지를 부분적으로만, 그것도 때로는 왜곡된 방식으로 보여준다. 이런 지표를 기준으로 규제가 설계되면 현실을 반영하지 못하는 사각지대가 생긴다. 결국 조직과 정부는 충분한 자원과 지원 없이, 민감한 실제 환경에서 AI를 시험하며 그에 따른 위험을 떠안게 된다.

더 나은 평가 기준 구축

벤치마크와 실제 성능 사이의 간극을 좁히려면, AI가 실제로 사용되는 환경을 평가에 반영해야 한다. 핵심은 단순하다. AI가 인간 팀 안에서 유의미한 역할을 할 수 있는지, 그리고 시간이 흐르면서 집단 차원의 가치를 만들어낼 수 있는지를 묻는 것이다.

필자는 여러 분야의 AI 도입 사례를 분석하면서 일부 조직이 이미 이런 방향으로 평가 방식을 바꾸고 있다는 점을 확인했다. 이를 ‘HAIC 벤치마크’라고 부른다.

HAIC 벤치마크는 기존 평가 방식을 네 가지 측면에서 다시 구성한다. 분석 단위는 개인과 단일 과제에서 팀과 업무 흐름으로 옮겨가고, 평가 기간은 일회성 테스트를 넘어 장기적인 영향까지 확장된다. 평가 기준 역시 정답 여부와 속도에 머무르지 않고 조직 성과와 협업의 질, 오류 탐지 가능성까지 포함한다. 나아가 개별 결과를 넘어 그 결과가 앞뒤 과정에 어떤 영향을 미치는지까지 함께 살핀다.

이 변화의 출발점은 ‘무엇을 평가할 것인가’를 다시 정의하는 데 있다. 예컨대 영국의 한 병원은 2021년부터 2024년까지 의료 AI를 평가하면서 단순한 진단 정확도를 넘어, AI가 팀 내 협업과 의사결정 과정에 미치는 영향을 함께 분석했다. AI를 사용하는 팀과 그렇지 않은 팀을 비교해 협업 방식과 논의 과정이 어떻게 달라지는지를 살폈고, AI가 집단적 판단에 어떤 변화를 주는지, 놓치기 쉬운 요소를 찾아내는지, 협업을 강화하는지 또는 약화시키는지, 기존의 위험 관리와 규정 준수 체계에 어떤 영향을 미치는지 등을 주요 지표로 삼았다.

이 같은 전환은 특히 의료처럼 결과의 파급력이 큰 분야에서 중요하다. 개별 과제의 정확도보다 시스템 전체의 작동 방식이 더 큰 영향을 미치기 때문이다. 동시에 이는 경제 전반에도 시사하는 바가 크다. 지금까지의 생산성 향상 기대가 주로 개인 단위 성과 개선에 기반해 형성돼 왔다는 점을 감안하면, 보다 현실적인 기대치를 설정하는 데 도움이 될 수 있다.

이러한 토대가 마련되면 HAIC 벤치마크는 ‘시간’이라는 요소까지 포함하게 된다. 현재의 벤치마크가 한 번의 시험으로 정확도를 가늠하는 방식이라면, 실제 전문성 평가는 전혀 다르게 이뤄진다. 수련의나 신입 변호사는 실제 업무 흐름 속에서 감독을 받으며 피드백과 책임 구조 안에서 지속적으로 평가된다. 성과는 특정 시점이 아니라 시간의 흐름과 맥락 속에서 축적된다. 전문성이 관계 속에서 형성되기 때문이다. 그렇다면 전문가와 함께 작동하도록 설계된 AI 역시 반복적인 상호작용 속에서 성과가 어떻게 나타나고 변화하는지를 기준으로 장기적으로 평가돼야 한다.

이 같은 접근은 인도주의 분야에서도 확인된다. 한 조직은 18개월 동안 실제 업무 환경에서 AI 시스템을 운영하며 오류를 얼마나 쉽게 발견하고 수정할 수 있는지를 집중적으로 살폈다. 즉 AI의 오류가 인간 팀에 의해 얼마나 잘 드러나고 교정되는지를 지속적으로 추적한 것이다. 이렇게 축적된 ‘오류 탐지 가능성’에 대한 기록을 바탕으로 해당 조직은 AI가 실수를 하더라도 신뢰를 유지할 수 있도록 상황별 안전장치를 설계하고 검증할 수 있었다.

평가 기간을 넓히면 단기 테스트로는 드러나지 않던 시스템 차원의 영향도 보이기 시작한다. 예를 들어 특정 진단 과제에서는 AI가 개별 의사보다 더 나은 성과를 낼 수 있지만, 팀 단위의 의사결정을 개선하지는 못할 수 있다. 오히려 문제를 왜곡할 가능성도 있다. 그럴듯하지만 불완전한 답에 팀이 지나치게 빨리 의존하게 만들거나, 사람들의 인지 부담을 늘리고, 이후 단계에서 비효율을 키워 초기의 속도나 효율 개선 효과를 상쇄할 수도 있다. 이런 연쇄적인 영향은 기존 벤치마크로는 잘 드러나지 않지만 실제 성과를 이해하는 데는 핵심적인 요소다.

물론 HAIC 벤치마크는 평가를 더 복잡하게 만들고, 더 많은 자원과 시간이 필요하며, 표준화도 쉽지 않다. 그럼에도 실제 업무 환경과 동떨어진 조건에서 AI를 계속 평가한다면 우리는 이 기술이 무엇을 할 수 있고 무엇을 할 수 없는지 제대로 이해하지 못한 채 도입하게 될 가능성이 크다. 현실에서 책임 있게 AI를 활용하려면, 모델이 혼자서 무엇을 해낼 수 있는지만이 아니라 인간과 팀과 함께 작동할 때 어떤 변화를 만들어내는지를 기준으로 평가해야 한다.

이 글을 쓴 안젤라 아리스티두(Angela Aristidou)는 유니버시티 칼리지 런던 교수이자 스탠퍼드 디지털 경제 연구소와 스탠퍼드 인간 중심 AI 연구소의 연구원으로, 공공의 이익을 위한 AI 도입과 관련해 연구와 자문, 강연을 이어가고 있다.

The post [OPINION] 이제 AI를 보는 기준을 바꿔야 한다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.