일상 파고든 헬스케어 AI…편의성 뒤 ‘검증 공백’ 우려
마이크로소프트와 아마존, 오픈AI 등이 일반 소비자용 헬스케어 AI를 잇달아 출시하며 시장이 빠르게 확대되고 있다. 다만 의료 영역 특성상 독립적 검증과 사용자 안전성 확보가 여전히 핵심 과제로 지적된다.
마이크로소프트는 3월 초 ‘코파일럿 헬스(Copilot Health)’를 출시하고, 코파일럿 앱 내에서 사용자가 자신의 의료 기록을 연동해 건강 관련 질문을 할 수 있는 기능을 선보였다. 이에 앞서 아마존도 자사의 ‘원 메디컬(One Medical)’ 회원에게만 제공하던 대형언어모델(LLM) 기반 도구 ‘헬스 AI(Health AI)’를 일반 사용자에게 확대 공개한다고 발표했다.
이들 서비스는 지난 1월 오픈AI가 내놓은 ‘챗GPT 헬스(ChatGPT Health)’와 사용자 동의를 전제로 건강 기록에 접근할 수 있는 앤트로픽의 ‘클로드’와 함께 헬스케어 AI 시장에 합류했다. 일반 대중을 겨냥한 ‘헬스 AI’가 하나의 흐름으로 자리 잡고 있는 모습이다.
기존 의료 시스템을 통해 건강 상담을 받기 어려운 현실을 고려하면 건강 조언을 제공하는 챗봇에 대한 수요는 분명하다. 실제로 일부 연구에서는 현재의 LLM이 비교적 안전하고 유용한 조언을 제시할 수 있다는 결과도 나오고 있다.
다만 연구자들은 이러한 기술이 대중에게 널리 보급되기 전 독립적인 전문가들에 의한 보다 엄격한 검증이 필요하다고 지적한다.
건강처럼 민감한 영역에서 기업이 자사 제품을 자체 평가하는 방식은 한계가 있을 수 있으며, 특히 그 결과가 외부에 충분히 공개되지 않을 경우 신뢰성 문제가 제기될 수 있다. 또 일부 기업들이 비교적 엄격한 연구를 진행하고 있는 것은 사실이지만, 외부 연구 커뮤니티가 보완할 수 있는 사각지대가 여전히 존재할 수 있다.
옥스퍼드대 인터넷 연구소에서 박사 과정을 밟고 있는 앤드류 빈(Andrew Bean) 연구원은 “의료 수요는 계속 증가할 수밖에 없는 만큼 효과적인 방법이라면 모두 검토할 필요가 있다”며 “이들 모델이 실제로 상용화할 가치가 있는 수준에 도달했을 가능성도 충분하다”고 말했다. 이어 “다만 이를 뒷받침할 근거는 반드시 충분히 확보돼야 한다”고 강조했다.
전환점
개발자들은 이러한 헬스케어 제품들이 출시되는 이유로 LLM이 실제로 효과적인 의료 조언을 제공할 수 있는 수준에 도달했기 때문이라고 설명한다. 외과의사 출신인 도미닉 킹(Dominic King) 마이크로소프트 AI의 헬스 부문 부사장은 “AI의 발전이 회사 내 헬스 팀이 결성된 핵심 이유이자 현재 코파일럿 헬스가 존재하는 이유”라며 “건강 관련 질문에 답하고 적절한 답변을 제공할 수 있는 생성형 AI의 역량에서 엄청난 진전을 목격했다”고 말했다.
하지만 킹 부사장에 따르면 또 다른 중요한 요인이 있다. 바로 수요다. 코파일럿 헬스가 출시되기 직전 마이크로소프트는 사람들이 코파일럿을 통해 건강 조언을 구하는 방식을 설명한 보고서와 블로그 게시물을 발표했다. 회사에 따르면 매일 5,000만 건의 건강 관련 질문이 접수되며, 건강은 코파일럿 모바일 앱에서 가장 인기 있는 주제다.
다른 AI 기업들도 이러한 추세를 포착하고 대응에 나서고 있다. 오픈AI의 헬스 AI 팀을 이끄는 카란 싱할(Karan Singhal) 팀장은 “건강 관련 제품이 출시되기 전부터 이미 챗GPT에서 건강 관련 질문이 빠르게 증가하는 추세를 확인했다”고 말했다(오픈AI와 마이크로소프트는 오랜 파트너십을 맺고 있으며, 코파일럿은 오픈AI의 모델을 기반으로 한다).
이런 현상이 생긴 이유는 사람들이 24시간 언제든 이용할 수 있고, 아무런 판단도 내놓지 않는 봇에게 건강 문제를 털어놓는 것을 선호하기 때문일 수도 있다. 하지만 많은 전문가들은 이런 상황을 현재 의료 시스템의 관점에서 해석한다. 기리쉬 나드카르니(Girish Nadkarni) 마운트 시나이 헬스 시스템(Mount Sinai Health System) 최고 AI 책임자는 “이러한 도구들이 존재하고 전체적인 환경에서 자리를 잡은 데에는 이유가 있다”면서 “의료 서비스에 접근하기가 어렵고, 특히 이 어려움은 특정 집단에게는 더욱 심하기 때문”이라고 설명했다.
일반 소비자를 대상으로 한 LLM 기반 건강 챗봇의 기대 효과는 사용자 건강을 개선하는 동시에 의료 시스템의 부담을 줄일 수 있다. 예를 들어 사용자가 의료적 처치가 필요한지 판단하도록 돕는 ‘트리아지(중증도 분류)’ 기능이 대표적이다.
이 기능이 제대로 작동할 경우 응급 환자는 더 빠르게 치료를 받을 수 있고, 경미한 증상을 가진 환자는 불필요하게 응급실이나 병원을 찾는 대신 집에서 증상을 관리할 수 있게 된다.
챗GPT 헬스 인터페이스에는 “진단이나 치료 목적으로 설계되지 않았다”는 내용이 명시된 눈에 띄는 면책 조항이 포함되어 있다. 코파일럿 헬스와 아마존의 헬스 AI 발표문에도 유사한 경고가 포함되어 있다. 하지만 이러한 경고는 무시하기 쉽다. 베스 이스라엘 디코니스 메디컬 센터(Beth Israel Deaconess Medical Center) 내과 전문의인 아담 로드먼(Adam Rodman) 구글 방문 연구원은 “사람들이 이를 진단과 관리 목적으로 사용할 것이라는 점은 우리 모두 알고 있다”고 말했다.
의료 테스트
기업들은 챗봇이 대부분의 상황에서 안전한 응답을 제공하도록 테스트를 진행하고 있다고 밝혔다. 오픈AI는 현실적인 건강 관련 대화에서 LLM의 응답을 평가하는 벤치마크 ‘헬스벤치(HealthBench)’를 설계해 공개했다. 다만 이 대화 자체는 LLM이 생성한 것이다.
챗GPT 헬스와 코파일럿 헬스에 모두 적용된 GPT-5가 지난해 출시됐을 당시 오픈AI는 이 모델의 헬스벤치 점수를 공개했다. GPT-5는 이전 모델보다 훨씬 높은 성능을 보였지만, 전반적인 수준은 여전히 완벽과는 거리가 있었다.
그러나 헬스벤치와 같은 평가 방식에는 한계가 존재한다. 2월 발표된 연구에서 빈 연구원과 그의 동료들은 LLM이 가상의 서면 시나리오에서 질병을 정확히 식별할 수 있는 반면, 같은 시나리오를 제공받고 LLM의 도움을 받아 판단해야 하는 비전문가 사용자는 약 3분의 1의 확률로만 정답을 맞힌다는 사실을 확인했다.
의학 지식이 부족한 사용자는 어떤 정보를 프롬프트(지시어)에 포함해야 할지 판단하기 어렵고, LLM이 제공한 정보를 잘못 해석할 가능성도 있다는 뜻이다.
빈 연구원은 이러한 성능 격차가 오픈AI 모델에 있어 중요한 문제일 수 있다고 지적했다. 초기 헬스벤치 연구에서도 사용자에게 추가 정보를 요청해야 하는 대화 상황에서 모델 성능이 상대적으로 낮은 것으로 나타났다. 이 경우 필요한 정보를 처음부터 충분히 제공하지 못하는 사용자들은 부정확하거나 도움이 되지 않는 조언을 받을 수 있다.
오픈AI 헬스케어 부문을 이끄는 싱할 팀장은 초기 헬스벤치 연구 당시에는 아직 공개되지 않았던 GPT-5 시리즈가 이전 모델보다 추가 정보를 요청하는 능력에서 크게 개선됐다고 설명했다. 다만 오픈AI에 따르면 현재 주력 모델인 GPT-5.4는 이전 버전인 GPT-5.2보다 맥락을 파악하는 능력은 오히려 떨어지는 것으로 나타났다.
빈 연구원은 이상적으로 건강 챗봇이 대중에게 공개되기 전에 자신의 연구처럼 실제 사용자들을 대상으로 한 통제된 실험을 거쳐야 한다고 주장했다. 그러나 AI 기술 발전 속도가 빠르고 인간 대상 연구에는 시간이 오래 걸린다는 점에서 이는 쉽지 않은 과제다. 그의 연구 역시 약 1년 전에 출시된 GPT-4o를 기반으로 진행됐으며, 현재는 구형 모델이 됐다.
구글은 3월 초 이러한 기준에 부합하는 연구 결과를 발표했다. 연구에서 환자들은 실제 의사를 만나기 전에 아직 공개되지 않은 의료용 LLM 챗봇 ‘AMIE(Articulate Medical Intelligence Explorer)’와 상담을 진행했다. 그 결과 AMIE의 진단 정확도는 의사와 유사한 수준이었으며, 연구진이 심각한 안전 문제로 판단한 사례도 없었다.
그럼에도 불구하고 구글은 AMIE를 당분간 공개할 계획이 없다고 밝혔다. 앨런 카르티케살링엄(Alan Karthikesalingam) 구글 딥마인드 연구 과학자는 “연구는 진전됐지만, 실제 진단 및 치료 시스템으로 적용하기 위해서는 형평성, 공정성, 안전성 등 해결해야 할 중요한 과제가 남아 있다”고 설명했다.
구글은 최근 미국 헬스케어 기업 CVS와 함께 구축 중인 헬스케어 플랫폼 ‘헬스100(Health100)’에 자사의 주력 모델 제미나이를 기반으로 한 AI 어시스턴트를 포함할 계획이라고 밝혔지만, 이 도구는 진단이나 치료 목적에는 사용되지 않을 것으로 보인다.
AMIE 연구를 공동으로 이끈 로드먼 연구원은 챗GPT 헬스나 코파일럿 헬스와 같은 챗봇에 대해 수년에 걸친 대규모 임상시험이 반드시 적절한 접근 방식은 아니라고 본다. 그는 “생성형 AI에서는 기존의 임상시험 패러다임이 항상 적용되기 어렵다”며 “이 때문에 신뢰할 수 있는 제3자가 제시한 의미 있는 벤치마크가 중요하다”고 강조했다.
여기서 핵심은 ‘제3자’다. 기업이 자체적으로 아무리 광범위한 평가를 수행하더라도 그 결과를 완전히 신뢰하기는 어렵다. 제3자 평가는 공정성을 확보할 뿐 아니라 여러 기관이 참여할 경우 잠재적인 사각지대를 줄이는 데도 도움이 된다.
싱할 팀장은 외부 평가의 필요성을 강조하며 “커뮤니티를 지원하기 위해 노력하고 있으며, 헬스벤치를 공개한 것도 좋은 평가 기준의 사례를 제시하기 위한 목적이었다”고 설명했다.
그는 또한 고품질 평가를 수행하는 데 막대한 비용이 드는 만큼 단일 학술 기관이 ‘모든 것을 대체할 하나의 평가’를 만들기는 어렵고, 대신 다양한 기존·신규 평가를 통합하려는 시도가 중요하다고 강조했다. 대표적으로 스탠퍼드대학교 의과대학이 개발한 MedHELM 프레임워크는 다양한 의료 과제를 통해 모델 성능을 종합적으로 평가하며, 현재 GPT-5가 가장 높은 점수를 기록하고 있다.
MedHELM 프로젝트를 이끈 니감 샤(Nigam Shah) 교수는 하지만 이 평가 방식 역시 한계가 있다고 지적했다. 특히 단일 응답만 평가할 뿐 실제 사용자들이 경험하는 여러 차례에 걸친 대화 과정을 반영하지 못한다는 이유 때문이다. 샤 교수는 보다 복잡한 대화를 평가할 수 있는 시스템을 구축 중이지만 상당한 시간과 비용이 필요하다고 설명했다.
그는 “우리가 기업의 제품 출시를 막을 수는 없기 때문에 결국 기업들은 계획대로 진행할 것”이라면서도 “연구자들이 할 수 있는 일은 벤치마크 개발을 위한 자금을 확보하는 것”이라고 말했다.
이번 기사를 위해 인터뷰한 전문가들 가운데 건강 관련 LLM이 출시되기 위해 제3자 평가에서 완벽한 성능을 달성해야 한다고 주장한 이는 없었다. 의사 역시 실수를 할 수 있으며, 의료 접근성이 낮은 사람들에게는 일부 오류가 있더라도 언제든 이용 가능한 LLM이 기존 상황보다 더 나은 대안이 될 수 있기 때문이다.
다만 현재로서는 이러한 도구들이 실제로 개선을 가져오는지, 혹은 잠재적 위험이 이점을 상쇄하는지에 대해서는 명확히 판단하기 어렵다.
The post 일상 파고든 헬스케어 AI…편의성 뒤 ‘검증 공백’ 우려 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.