[딥테크] 정신건강 위기 속 AI 챗봇 확산, 안전장치 시급
입력
수정
학생 정신건강 악화 속 챗봇 사용 확대 AI 강화학습 과정서 편향·왜곡 위험 존재 학습 차단·지표 공개 등 안전장치 필수
본 기사는 스위스 인공지능연구소(SIAI)의 SIAI Research Memo 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술·경제·정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적 의견이며, SIAI 또는 그 소속 기관의 공식 입장과 일치하지 않을 수 있습니다.
2023~24학년도 미국 대학생의 정신건강 양호 비율은 38%로 집계됐다. 10년 전 51%에서 크게 줄어든 수치다. 같은 시기 초·중·고교(K-12) 학생의 경우 불안장애 진단 비율이 11%, 우울증은 4%에 달했다. 정신건강 악화가 특정 집단을 넘어 세대 전체의 과제로 번지고 있다.
이와 동시에 AI 챗봇은 스트레스 완화와 동기 부여 수단으로 빠르게 확산되고 있다. 그러나 잘못된 정보 제공과 과도한 의존이라는 새로운 위험도 드러났다. 이는 단순한 기술적 문제가 아니라 임상적 문제이기도 하다. 특히 강화학습(Reinforcement Learning, RL) 과정에서 발생하는 편향은 학생들의 현실 인식을 왜곡할 수 있다. 따라서 캠퍼스에서 AI 챗봇을 사용할 때에는 이를 ‘통계적 설계의 취약성’으로 보고, 규제와 안전장치를 갖추는 것이 필수다.

공감 논의를 넘어 구조적 위험으로
AI 챗봇 논의는 지금까지 공감 능력과 정확성에 집중돼 왔다. 위기 상황을 감지하는지, 위험한 조언을 환각(hallucination) 형태로 내놓지 않는지가 핵심 쟁점이었다. 그러나 이런 시각만으로는 구조적 위험을 설명하기 부족하다.
생성형 AI의 가장 큰 특징은 단발적 응답이 아니라 ‘지속적·적응적 상호작용’이다. 모델은 사용자의 명시적 반응(예: 좋아요), 암묵적 신호(대화 지속), 학습 과정의 피드백을 근거로 답변을 조정한다. 이 과정이 반복되면 대화는 사용자의 기존 사고방식을 강화하는 방향으로 흘러가며, 특히 불안이나 우울 증상을 겪는 학생에게는 왜곡된 현실 인식을 고착시키는 위험으로 이어진다.
즉, 근본적 위험은 공감 여부나 개별 발화의 정확성이 아니라, 자기강화 루프가 잘못된 사고를 안정된 균형처럼 굳혀 버리는 구조적 작동원리다. 모델의 최적화, 사용자의 반응, 운영 지표가 맞물리면서 형성되는 이 고착 상태를 어떻게 차단할지가 정책의 핵심이 돼야 한다.
강화학습의 구조와 내생성 위험
현대 챗봇은 인간 피드백 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 통해 훈련된다. 최초에 모델을 개발하던 시점에는 인간이 선호하는 답변을 학습한 보상 모델에 따라 최적화되는 구조로 만들어졌다. 이후 실제 사용 중에는 기존에 저장된 데이터에 기반한 답변을 제공해주다가 사용자의 답변에 맞춰 더 사용자가 원하는 답변을 주도록 모델 학습이 진행된다. 이 과정은 답변의 유용성을 키우고 사용자 편의성을 돕지만 동시에 ‘내생성(endogeneity)’ 문제를 낳는다. 내생성이란 원인과 결과가 서로 영향을 주고받으면서 왜곡이 생기는 현상을 말한다. 즉, 사용자의 선호가 챗봇 답변을 결정하는 동시에, 챗봇의 답변이 다시 사용자의 선호를 형성하는 구조다.
질문과 답변이 계속되면서 챗봇이 사용자에 대한 정보를 더 많이 습득하는 장점이 있지만, 반면 사용자가 원하는 답변 위주로 내놓고, 사용자는 챗봇이 내놓은 답변에 맞춰 재질문을 하는 방식으로, 한 쪽 쏠림 현상이 나타날 수밖에 없다. 이커머스 웹사이트 및 검색 엔진 등에서 활용되는 '추천 알고리즘(Recommendation engine)'의 경우도 비슷한 현상이 자주 나타나 특정 상품만을 추천하게 되거나, 사용자가 자주 방문하는 특정 웹사이트만 검색 상위에 노출하게 되는 단점이 학계에서 꾸준히 지적당하는 부분이다. 과거 컴퓨터 과학계의 추천 알고리즘 연구자들은 적게는 약 5%, 많게는 30% 내외의 연관성이 떨어지는 자료를 노출시켜 쏠림 현상을 방지했지만 챗봇 연구자들은 답변의 정확도를 높이기 위해 의도적으로 배제했던 부분이다.
경제학에서는 이런 상호 영향으로 인한 내생성을 줄이기 위해 도구변수 회귀(Instrumental Variable Regression)라는 방법을 사용하고, 최근들어 컴퓨터 과학계에서도 쏠림 현상을 제거하기 위해 활발히 논의 중이다. 원래 변수를 그대로 쓰면 설명력은 커 보이지만 과대, 혹은 과소 편향이 생기는 문제를 해결하기 위해, 과거 모델들이 주먹구구식으로 5%~30% 내외라는 임의의 비율로 단순히 연관성이 낮은 자료를 추천하는 것을 넘어서, 좀 더 통계학적으로 풀어내기 위한 도전 중 하나라고 볼 수 있다. 도구변수란 기존 변수가 가지는 연관성은 최대한 보존하면서 상호 영향이 있는 부분은 최대한 제거할 수 있는 변수로, 도구변수를 활용해 기존 변수에서 상호 영향 부분을 제거하는 것이 도구변수 회귀의 핵심이다.
도구변수 회귀 단계를 거칠 경우 편향이 제거돼 결과를 훨씬 신뢰할 수 있어 사회과학계, 특히 계량경제학계에서는 1950년대부터 본격적으로 활용이 됐고, 최근들어 사회과학 데이터 활용이 활발해진 컴퓨터 과학계에서도 같은 문제를 인지하고 활용에 나선 상황이다.
2017년 스탠퍼드대 연구진은 DQN(Deep Q-Network, 강화학습과 딥러닝을 결합한 기술) 실험에서 ‘경험 재생 버퍼(experience replay buffers)’를 활용해 표본 간 상관을 끊고 학습을 안정화했다. 경제학의 시계열 데이터 처리작업에는 과거 데이터와 현재 데이터의 유사성이 내생성을 만들어 내 쏠림 현상이 나타나는 것을 차단하도록 과거 데이터 묶음을 도구변수로 활용해 편향을 제거하는 작업을 거치는데, 강화학습에서도 같은 방식으로 '경험 재생 버퍼'라는 이름의 과거 데이터 묶음을 활용했던 것이다.
DQN에서 성공적으로 문제를 해결했던 것과 같은 방식이 RLHF에도 그래도 적용될 수 있다. 평가·선호 학습·배포를 분리하고, 세션 내 학습 신호를 제한하며, ‘직교화(orthogonalization)’ 같은 통계 기법을 도입해야 한다. 직교화는 학습 신호 간 상관성을 끊어 독립성을 보장하는 방식으로, 사용자의 부정적 감정 신호가 긍정 반응으로 오인되는 위험을 줄인다. 사용자의 긍정적 반응이 반복적으로 누적되면 모델은 사실과 무관하게 특정 경로로 편향될 위험이 있는 만큼, 챗봇 학습에도 편향을 억제하는 안전장치가 필요하다.

주: 연도(X축), 챗봇 사용 비율(Y축)
수치가 드러내는 현실
미국 대학생들의 정신건강 챗봇 이용률은 여전히 낮고, 인간 상담에 비해 효과도 떨어진다는 평가가 많다. 그러나 특정 집단을 대상으로 한 정밀 연구에서는 단기적인 스트레스 완화 효과가 확인되기도 했다.
업계 흐름은 엇갈린다. 2025년 한 주요 챗봇 기업은 소비자용 앱 철수를 발표했지만, 다른 기업은 이미 600만 명 이상 사용자를 확보했다. 동시에 최신 모델에서도 환각 오류가 꾸준히 보고되고 있으며, 규제기관과 전문가 단체는 잇따라 경고와 안전 지침을 내놓고 있다. 이러한 문제 제기는 제도적 대응으로 이어지고 있다. 실제 정책 청문회에서는 챗봇의 정서적 조작이나 자해 유도 발화가 ‘예외적 사건’이 아니라 ‘예견 가능한 위험’으로 규정되고 있다.

주: 연도(X축), 정신 건강 양호 비율(Y축)
AI 모델의 학습 차단과 보정 장치
가장 실질적인 대응은 위기 상황이나 강한 감정 반응이 나타난 대화를 학습에서 제외하는 것이다. 위기 신호나 강한 감정 반응이 감지되면 자동으로 ‘학습 차단(do-not-learn)’ 플래그를 적용하고, 이 구간에서는 검증된 고정 응답만 제공해야 한다. 사용자 선호 기록이나 참여 최적화 기능도 중단돼야 한다. 이러한 방식은 AI가 위험한 대화에서 잘못 학습해 부정적 사고틀을 강화하는 것을 방지한다. 새로운 정책은 먼저 기록 데이터를 활용한 ‘오프정책 평가(off-policy evaluation)’로 검증해야 하며, 필요할 경우 맥락과 시간을 분리해 표본 상관을 줄이는 ‘재생 버퍼(replay buffer)’ 기법을 활용할 수 있다. 나아가 단순히 사용자 승인에만 의존하지 않고, 외부 지식 피드백을 학습 보정 축으로 삼아 환각 경로를 줄여야 한다.
신뢰할 수 있는 지표 마련
AI 제공 업체는 보여주기식 수치가 아니라 실제 효과를 검증할 수 있는 지표를 공개해야 한다. 이를 위해 일부 대화에 의도적으로 다른 형태의 ‘안전 응답’을 무작위 삽입해 그룹별 효과를 비교해야 한다. 예컨대 일반 응답을 받은 학생과 안전 응답을 받은 학생의 이후 상담 예약 여부를 비교하는 방식이다. 질문 시간이나 화제를 달리해 챗봇 조언이 행동 변화에 미치는 영향을 점검할 수도 있다.
환각 오류와 보정 능력 평가는 사용자 반응이 아니라 별도의 독립 데이터에서 상시 실행해야 한다. 결과는 대화 길이와 감정 강도에 따라 세분화돼야 한다. 대학 현장에서 도입한다면 최소한 분기별로 ▲ 위기 상황 회피율 ▲ 위험 상황 신속 연결률 ▲ 잘못된 안심 사례 발생률 ▲ 학습 차단 정책 적용 비율 등을 공개해야 한다. 이는 과잉 대응이 아니라 민감한 심리 대화에 강화학습형 AI를 투입할 때 불가피한 안전 비용이다.
예상되는 반론과 대응
AI 활용 확대를 주장하는 이들은 상담 수요 폭증 속에서 챗봇이 사실상 유일한 확장 가능한 해법이라고 말한다. 일부 연구에서 고통 감소 효과가 확인됐다는 점도 근거로 제시된다. 그러나 이러한 주장은 ‘신중한 사용’ 원칙과 모순되지 않는다. 통계적 규율 없이 무분별하게 확대하는 것은 취약 학생에게 위험을 떠넘기는 잘못된 효율성일 뿐이다.
최신 모델과 자율 교정 기능이 문제를 해결할 것이라는 반론도 나온다. 그러나 최첨단 기법조차 환각 오류 가능성을 인정하고 있으며, 장시간 대화에서는 여전히 취약하다.
학생들의 의존도가 아직 높지 않다는 시각도 있다. 그러나 교내 애플리케이션에 AI 상담 모듈이 탑재되면 양상은 크게 달라질 수 있다. 따라서 금지가 아니라 절제가 필요하다. 고위험 대화에서는 학습을 차단하고, 인과적 측정과 인간 상담 연계를 전면 배치해야 한다.
안전을 최우선으로
학생 정신건강 문제는 새로운 현상이 아니지만, AI 도구가 개입하면서 위험의 양상은 달라졌다. 취약한 경험에서 잘못된 결론을 학습하는 구조는 방치할 수 없는 과제다.
따라서 강화학습 시스템의 내생성을 위험 요인으로 보고, 위기 상황에서는 학습을 차단해야 한다. 학습 보상 체계와 사용자 이용 지표를 분리해 관리하고, 인과적 측정과 정기적 감사를 의무화하는 장치가 필요하다. AI는 학생의 불안이나 취약성을 증폭시키는 수단이 되어서는 안 된다.
필요한 것은 사실과 검증된 지식에 기반해 서비스를 연결하고, 위험 상황에서는 즉시 인간 전문가로 연계할 수 있도록 설계된 체계다. 모델의 성능을 무한 확장하는 것이 목표가 아니라, 편향을 최소화하고 안전성을 담보하는 방식으로 운영돼야 한다. 그렇게 할 때에만 AI는 학생 지원 도구로서 실질적인 역할을 할 수 있다.
본 연구 기사의 원문은 Not Your Therapist: Why AI Companions Need Statistical Guardrails Before They Enter the Classroom을 참고해 주시기 바랍니다. 본 기사의 저작권은 스위스 인공지능연구소(SIAI)에 있습니다.