[해외 DS] 정신 건강, AI 챗봇에 맡겨도 될까? 규제 완화 속 챗봇 테라피의 득과 실

Picture

Member for

11 months 2 weeks

Real name

Siho Lee

Bio

세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

입력

2024-05-17 17:10

수정

2025-09-05 11:32

정신 건강 치료에 대한 접근성을 높이고 심리 상담 문턱을 낮춰줄 수 있는 잠재력을 지녀
인간적인 교감과 깊이 있는 소통 부재는 여전한 과제
챗봇의 한계와 역할을 명확히 밝히고, 객관적인 성능 평가 지표를 마련해야

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 글로벌AI협회 연구소(GIAI R&D)에서 콘텐츠 제휴가 진행 중입니다.

AI Therapy Bots ScientificAmerican 20240517 — 사진=Scientific American

팬데믹 이후 심리 상담 수요는 급증했지만, 숙련된 전문가 부족으로 많은 이들이 제때 치료를 받지 못하는 실정이다. 이러한 상황에서 빠르고 저렴한 AI 테라피 챗봇이 정신 건강 지원의 대안으로 떠오르고 있으며, 이미 미국 성인의 22%가 이를 활용하고 있다. 2016년 출시된 '위사(Wysa)'를 시작으로 '워봇(Woebot)' 등 수많은 챗봇이 등장했고, 워봇의 CEO에 따르면 워봇은 현재까지 150만 명 이상의 사용자와 상담을 진행했다고 한다.

규제 완화로 AI 테라피 시장 확대

일반적인 AI 테라피 봇은 인간 치료사를 대체한다고 주장하지 않는 한 미국 식품의약국(FDA)의 승인을 요구하지 않는다. 2020년 FDA는 팬데믹 관련 정신과 위기를 막기 위해 '디지털 치료제'에 대한 규제 절차를 완화했고, 이는 정신 건강 혜택을 주장하는 제품 출시의 길을 열었다.

이러한 AI 챗봇들은 인지행동치료(Cognitive Behavioral Therapy, CBT) 기반으로 설계되어, 사용자의 사고 왜곡을 바로잡고 건강한 행동 변화를 돕는다. 하지만 챗봇은 학습된 데이터에 기반하여 답변하기 때문에 인간의 편견을 학습하거나 사용자의 문제를 피상적으로만 이해하는 한계를 보이기도 한다. 때로는 부적절하거나 잘못된 조언을 제공할 수도 있다.

그러나 챗봇은 접근성이 좋고 비용 부담이 적다는 장점이 있으며, 사용자들은 챗봇을 통해 다른 이의 판단 없이 자신의 이야기를 털어놓을 수 있다는 점에서 심리적 안정감을 느끼기도 한다. 이러한 이유로 챗봇은 대면 치료의 보조 수단이나 심리 상담 접근성이 낮은 사람들에게 안전망 역할을 할 수 있는 잠재력을 지니고 있다. 하지만 챗봇에 대한 과도한 의존이나 잘못된 정보 제공은 특히 심리적 위기에 처한 사람들에게 위험할 수 있다는 점을 간과해서는 안 된다.

정해진 규칙 따르는 챗봇, 깊이 있는 소통과 공감 어려워

오늘날 챗봇이 정신 건강 지원에 활용되는 것은 갑작스러운 현상이 아니다. 이미 1966년, MIT의 조셉 와이젠바움(Joseph Weizenbaum) 교수는 텍스트 기반 치료사 '일라이자(ELIZA)'를 개발하며 그 가능성을 보여줬다. 당시 일라이자는 단순한 규칙에 따라 작동했지만, 놀랍게도 많은 사용자가 마치 일라이자에 의식이 있는 것처럼 여기며 깊이 있는 대화를 나눴다. 이는 무생물에 생명을 투영하는 인간의 본능적인 경향(일라이자 효과)을 보여주는 사례였다.

일라이자의 등장 이후 수십 년이 지난 지금, 정신 건강 지원 봇은 더욱 정교하게 발전했다. 워봇이나 위사와 같은 챗봇은 단순히 정해진 매뉴얼을 기계적으로 반복하는 것이 아니라, 자연어 처리 기술을 통해 사용자의 감정과 상황을 분석하고, 임상의가 미리 승인한 답변 중 가장 적절한 것을 선택하여 응답한다. 비록 AI가 스스로 모든 답변을 만들어내지는 못하지만, 일라이자 시대와 비교하면 비약적인 발전을 이룬 것이다.

하지만 여전히 규칙 기반 시스템에 머물러 있는 테라피 챗봇은 답변이 자유롭고 창의적이기보다는 틀에 박힌 형식으로 흐르는 경향이 있다. 예를 들어, 워봇에게 업무 마감에 대한 불안감을 토로하면 CBT 기반의 정형화된 답변만 돌아올 뿐, 개인적인 상황에 대한 깊이 있는 이해를 바탕으로 한 맞춤형 조언을 기대하기는 어렵다.

이는 AI가 스스로 답변을 만들어내는 것이 아니라, 미리 작성된 텍스트 중에서 선택하는 방식으로 작동하기 때문이다. 위사나 워봇과 같은 규칙 기반 챗봇은 안전하고 검증된 답변을 제공하기 위해 유연성을 포기했다. 챗봇은 방대한 데이터베이스에서 사용자의 입력에 가장 적합한 답변을 찾아내지만, 상황에 대한 깊이 있는 이해나 융통성 있는 대처는 어려울 수 있다. 특히 사용자의 상황이 심각하거나 복잡한 경우, 챗봇의 획일적인 답변은 오히려 도움이 되지 않거나 부적절할 수 있다.

AI 테라피 챗봇, 윤리적 고민과 함께 발전해야

이러한 챗봇의 한계는 특히 사용자가 심각한 심리적 어려움을 겪고 있을 때 더욱 두드러진다. 숙련된 인간 치료사는 환자의 미묘한 감정 변화를 감지하고 상황에 맞는 적절한 조언을 해줄 수 있지만, 챗봇은 그렇지 못하다. 희망과 절망 사이에서 위태롭게 서 있는 사람에게 챗봇의 무심한 답변은 오히려 상처가 될 수 있다.

실제로 미국 섭식장애협회(NEDA)에서 운영하는 챗봇 '테사(Tessa)'는 섭식 장애 환자에게 부적절한 체중 감량 지침을 제공하여 논란이 되었고 결국 서비스는 중단됐다. 테사는 섭식 장애 증상을 호소하는 사용자에게 부적절한 체중 감량 지침을 제공하거나, 극단적인 식이 제한을 칭찬하는 등 심각한 문제를 드러냈다. 테사의 답변은 검증을 거쳤지만, AI가 맥락을 이해하지 못하고 기계적으로 답변을 선택하면서 문제가 발생한 것이다.

이는 챗봇이 인간 치료사와 달리 맥락에 대한 이해나 윤리적 판단 없이 기계적으로 답변을 선택하기 때문이다. 게다가 챗봇은 인간의 편견이 담긴 데이터를 학습하기 때문에 특정 집단에 대한 차별적인 답변을 제공할 가능성도 배제할 수 없다. 현재 대부분의 테라피 봇은 챗GPT와 같은 생성형 AI 모델을 사용하지 않지만, 챗봇 대화에서 발생할 수 있는 편견에 대한 연구는 부족한 실정이다.

올해 초 벨기에에서는 생성형 AI 챗봇의 자살 권유로 인해 한 남성이 스스로 목숨을 끊는 비극적인 사건이 발생하기도 했다. 규칙 기반 챗봇은 이러한 위험을 줄이기 위해 설계되었지만, 생성형 AI는 통제가 어렵다. 챗봇이 어떤 과정을 거쳐 답변을 생성하는지 개발자조차 파악하기 어렵기 때문에, 부적절한 답변을 사전에 차단하는 것이 쉽지 않다. 챗GPT와 같은 생성형 AI 모델에 규칙을 추가하여 문제를 해결하려는 시도도 있지만, 이는 근본적인 해결책이 될 수 없다.

물론 인간 치료사 역시 실수하거나 편견을 가질 수 있다. 하지만 챗봇은 인간과 달리 책임 소재가 불분명하고, 윤리적 판단 능력이 부족하다는 점에서 더욱 위험하다. 챗봇이 인간 치료사를 대체할 수 있는지, 그리고 그 과정에서 어떤 문제가 발생할 수 있는지에 대한 연구는 아직 충분하지 않다. 따라서 챗봇을 정신 건강 치료에 활용하는 데에는 신중한 접근이 필요하며, 잠재적 위험에 대한 꾸준한 연구와 논의가 이루어져야 한다고 전문가들은 입을 모았다.

정신 건강 치료의 대안 될 수 있을까? 엄격한 검증과 투명성 확보가 관건

AI 챗봇의 정신 건강 치료 효과에 대한 객관적인 검증은 아직 부족한 상황이다. 미국 스탠퍼드 대학교의 워봇 실험에서는 챗봇이 우울증 증상 완화에 효과가 있다는 결과가 나왔지만, 인간 치료사와의 비교는 이루어지지 않았다. 위사(Wysa) 실험에서도 챗봇과 치료사의 효능을 비교했지만, 정형외과 환자만을 대상으로 했기 때문에 일반화하기 어렵다.

이처럼 연구 결과가 제한적인 이유는 규제 부재 속에서 기업들이 자체적인 성능 평가 지표를 사용하기 때문이다. 이러한 지표는 사용자와 임상의에게 실질적으로 중요한 정보를 제공하지 못할 수 있다. 텍사스 대학교의 심리학자 아델라 티몬스(Adela Timmons)는 테라피 앱의 효과를 객관적으로 평가할 수 있는 투명하고 독립적인 지침 마련이 시급하다고 강조했다.

특히 챗봇이 더욱 인간처럼 발전하고 제약이 줄어들수록 편향된 조언을 제공할 위험성은 더욱 커진다. 전문가들은 챗봇 개발 기업은 앱 개발 단계부터 출시 후까지 지속해서 편향성을 평가하고, 다양한 인종 및 사회 집단을 대상으로 임상 시험을 진행해야 한다고 제안했다. 이는 챗봇이 특정 집단에 불리하게 작용하는 것을 방지하고, 모든 사용자에게 공평한 혜택을 제공하기 위한 필수적인 과정이라고 덧붙였다. 실제로 워봇 실험은 79%가 백인인 스탠퍼드 대학교 학생들을 대상으로 진행됐었다.

따라서 AI 챗봇이 정신 건강 관리 시스템의 빈틈을 메꾸는 데 기여하려면, 챗봇 개발사는 챗봇의 한계와 역할을 명확히 밝혀야 한다. 대부분의 앱에는 챗봇이 인간 치료사를 대체할 수 없다는 면책 조항이 있지만, 사용자는 컴퓨터의 조언을 더 신뢰하는 경향이 있으므로 챗봇이 단순한 '지원 도구'임을 더욱 강조해야 한다.

미래에는 챗봇이 더욱 발전하여 많은 사람에게 도움을 줄 수 있겠지만, 특히 경제적 어려움으로 전문적인 치료를 받기 어려운 사람들은 챗봇에만 의존할 가능성이 높다. 이들은 챗봇을 통해 어느 정도의 도움을 받을 수 있겠지만, 인간 치료사와의 깊이 있는 관계에서 얻을 수 있는 치유와 성장의 기회를 놓칠 수 있다. 적어도 챗봇이 인간 치료사를 대체하는 것이 아니라, 보완하는 기능을 수행할 뿐이라고 그 한계를 정확하게 알려야 한다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture