[딥테크] 평균의 함정 넘어, 데이터 통합이 여는 의료 AI 신뢰

Picture

Member for

8 months 1 week

Real name

김은실

Position

연구원

Bio

세상을 과학의 언어로 읽고, 사실 위에 통찰을 더하는 글을 전합니다. 복잡한 현상 속에서 본질을 찾아 독자와 함께 사유하겠습니다.

입력

2026-02-20 20:46

수정

2026-02-24 15:22

집계 중심 승인 구조가 가리는 하위집단 성능 격차
분절된 의료 데이터, 설계 깊이 제한
조달·검증·인력 정렬이 만드는 신뢰 기반

본 연구 기사는 유럽 경제 연구소 The Economy의 연구위원(Fellow)들이 작성한 The Economy Review 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술-경제-정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적인 의견이며, The Economy 또는 집필자의 소속 기관의 견해와 일치하지 않을 수 있습니다.

2024년 미국 병원의 71%가 전자의무기록(EHR)에 예측 분석 기능을 도입했다. 확산 속도만 보면 이미 상당한 단계에 이르렀다. 현장에서 널리 쓰이는 시스템은 특정 임계값을 넘으면 경고를 보내는 규칙 기반 구조다. 구현이 비교적 빠르고 원리를 설명하기 쉬워 도입 장벽이 낮았다. 이런 이유로 이 방식은 자연스럽게 현장에 자리 잡았다.

그러나 환자 조건을 세분해 판단하는 의료 AI는 아직 보상 체계의 중심에 놓이지 못하고 있다. 집계 중심의 승인 구조와 분절된 데이터 환경이 정교한 모델의 확산을 더디게 만든다. 기술의 명칭보다 중요한 것은 서로 다른 환자 집단에서 성능이 얼마나 안정적으로 반복되는가 하는 문제다. 신뢰는 그 과정에서 서서히 형성된다.

평균 수치 뒤에 가려진 성능 편차

도입 이후 드러난 문제는 평가 기준에서 시작된다. 승인 절차는 전체 정확도나 단일 성능 지표를 중심으로 설계돼 있고, 기업의 자원도 자연스럽게 평균 성능을 끌어올리는 데 모인다. 그 결과 수치는 안정적으로 개선되는 듯 보인다.

하지만 임상 현장은 평균값 하나로 설명되지 않는다. 고령 환자나 기저질환을 가진 환자, 면역저하 환자처럼 치료 경로가 다른 집단에서는 성능이 다르게 나타난다. 전체 지표가 안정적이면 시장은 안심하지만, 그 사이 세부 집단의 취약성은 충분히 드러나지 못한 채 남는다.

이 흐름에는 데이터 환경도 함께 작용한다. 병동 기록과 외래 기록, 영상 플랫폼, 의료기기 시스템, 가정 모니터링 정보는 서로 다른 저장 체계에 흩어져 있고, 기록 형식과 표준도 일관되지 않다. 이런 환경에서는 환자의 시간 흐름과 치료 과정을 한눈에 파악하기 어렵다.

개발팀이 임계값 설정이나 넓은 집단 구분에 의존하게 되는 배경도 여기에 있다. 초기에는 관리가 비교적 수월해 보이고 오류도 크게 드러나지 않지만, 진료 환경이 달라지거나 환자 구성이 변하면 그때서야 구조적 한계가 서서히 드러난다. 집계 중심의 평가와 분절된 데이터 환경은 이렇게 맞물려 작동한다. 평균 성능은 꾸준히 개선되는 듯 보이지만, 하위 집단의 실패는 충분히 조명되지 않는 상태로 남는다.

주: 의료 AI 평가에서 전체 평균 정확도는 90으로 높게 나타났지만, 하위 집단으로 들어가면 성능이 뚜렷하게 낮아졌다. 고위험군은 78, 75세 이상 고령 환자는 74, 다질환 환자는 72로 내려갔다. 평균 지표만으로는 실제 취약 집단에서의 성능 저하를 충분히 포착하기 어렵다는 점을 보여준다.

평가 단계에서 드러나는 설계 한계

평가 방식의 한계는 연구에서도 확인된다. 2024년 미국의학협회지(Journal of the American Medical Association, JAMA)에 실린 한 연구는 일부 임상 의사결정 지원 도구가 영상 검사 처방의 변화만을 분석 대상으로 삼았다고 지적했다. 환자 예후나 장기적인 임상 결과로 이어지는 영향도 충분히 반영되지 않았다. 분석의 범위가 특정 행위 단위에 머물러 있었던 셈이다.

이처럼 평가 범위가 제한되면 설계 단계에서 선택할 수 있는 범위도 자연스럽게 줄어든다. 의사는 그 틀 안에서 판단을 내리게 되기 때문이다. 모델이 어떤 데이터로 학습됐는지, 실제 진료 환경을 얼마나 반영했는지, 다양한 환자 상황을 구분할 변수들이 충분히 포함됐는지에 따라 결과는 달라질 수 있다. 사전 테스트가 실제 임상 흐름과 유사한 조건에서 이뤄졌는지도 함께 살펴볼 필요가 있다.

검증이 도입 이후에 집중될수록 수정에 드는 비용과 부담은 커진다. 반대로 설계 단계에서 충분히 점검이 이뤄지면 위험을 상당 부분 줄일 수 있다. 안전은 설계 과정에서부터 함께 고려될 때 보다 안정적으로 자리 잡는다.

분절된 데이터가 제한하는 설계 깊이

설계의 깊이는 결국 데이터 구조와 맞닿아 있다. 기계학습 모델은 활력징후의 미세한 변화나 약물 병용 효과, 치료 시점의 차이처럼 여러 요소가 얽힌 상호작용을 함께 분석할 수 있다. 기술적 잠재력 자체는 이미 상당 부분 확보돼 있다.

문제는 그 잠재력이 작동하기 위한 조건에 있다. 입원 기록과 외래 기록, 전문과 차트와 영상 정보, 의료기기 데이터와 가정 모니터링 기록이 서로 단절된 상태로 남아 있다면, 모델이 환자의 전체 경과를 충분히 반영하기 어렵다. 데이터가 하나의 흐름으로 연결되고, 라벨이 정밀하게 관리되며, 시간 순서가 일관되게 유지될 때 비로소 설계는 더 깊어질 수 있다.

공유 라벨링 인프라와 상호운용 가능한 표준이 자리 잡으면 모델은 단순한 경고를 넘어서게 된다. 치료 강도를 조정하거나 투약 순서를 재설계하고, 위험군을 보다 세분화하는 판단도 가능해진다. 데이터 구조가 정비될수록 설계의 범위 역시 자연스럽게 확장된다.

주: 2018년부터 2024년까지 규칙 기반 시스템 비중은 78%에서 48%로 낮아졌다. 같은 기간 환자 정보와 여러 변수를 함께 반영하는 세분화·다변량 의료 AI 시스템 비중은 22%에서 52%로 상승했다. 임상 의사결정 지원이 단순 경고 중심에서 조건별 판단과 다중 경로를 다루는 구조로 이동하는 흐름을 보여준다.

제도와 인력이 만드는 신뢰 기반

이제 시선은 기술을 넘어 제도와 인력으로 옮겨간다. 조달 기준이 여전히 집계된 평균 수치에 머물러 있다면 기업의 개발 전략도 그 틀을 벗어나기 어렵다. 반대로 집단별 재현성과 단계별 성능 근거를 요구하는 구조로 바뀐다면 설계 방향 역시 점차 달라질 수 있다. 무엇을 평가하는지가 자연스럽게 무엇을 개발하게 만드는 환경을 형성한다.

승인 체계 또한 실제 사용 조건을 반영하는 검증 방식으로 확장될 필요가 있다. 취약 지점이 사전에 드러날수록 도입 이후의 수정 부담은 줄어든다. 2024년 미국 보건정보기술국(Assistant Secretary for Technology Policy, ASTP)은 다수 병원이 여러 출처의 예측 AI에 의존하고 있다고 밝혔다. 공급 경로가 복잡해질수록 성능 편차를 체계적으로 관리하는 체계의 중요성도 함께 커진다.

인력 역량 역시 같은 맥락에 놓여 있다. 데이터 과학자와 시스템 엔지니어, 사전 검증을 수행할 임상의가 병원 내부에서 함께 설계에 참여할 때 평가의 깊이는 달라진다. 2024년 의학 인터넷 연구저널(Journal of Medical Internet Research, JMIR)은 의료진이 설계 과정에 참여하지 않을 경우 병원이 상대적으로 단순한 도구를 선택하는 경향이 강해진다고 분석했다. 설계 초기 단계에서부터 전문 인력이 함께할수록 안전을 우선하는 판단이 보다 안정적으로 자리 잡는다.

이처럼 조달 기준과 승인 구조, 인력 역량과 사후 모니터링 체계는 서로 분리된 요소가 아니다. 환자 조건을 세분해 판단하는 의료 AI는 조건별 정확성을 확인하고 집단별로 다른 경로를 제시하기 위한 설계에 가깝다. 집계 중심 승인 구조와 분절된 데이터, 인력 공백이 이어질 경우 단순 자동화는 반복되기 쉽다. 반대로 조달 기준과 데이터 인프라, 인력 투자가 같은 방향으로 정렬될 때 비로소 신뢰가 서서히 쌓여간다. 지금 필요한 변화 역시 기술의 속도를 높이는 일이 아니라, 그 기술이 작동하는 제도적 환경을 어떻게 설계할 것인가에 있다.