입력
수정
오픈AI의 새 모델 'o3' 환각률 두 배 늘어 학습에 필요한 고품질 데이터 부족 지적 AI 업계 노력에도 환각 개선 쉽지 않을 듯

챗GPT 개발사 오픈AI가 최근 새롭게 내놓은 추론형 인공지능(AI) 모델 o3와 o4 미니의 환각 현상이 예전 버전보다 더 심한 것으로 나타났다. 환각 현상의 원인이 명확히 밝혀지지 않은 가운데 전문가들은 AI 추론 모델의 성능과 고품질 데이터의 부족 문제를 근본적인 원인으로 지적한다.
추론 모델의 환각률이 비추론 모델보다 높아
27일 테크크런치 등 주요 외신에 따르면 최근 오픈AI가 사내 벤치마크 테스트인 '퍼슨(Person) QA'를 통해 자사 모델의 지식 정확도를 평가한 결과, o3 모델이 질문의 33%에 대해 환각을 일으킨다는 사실을 발견했다. 이는 각각 16%와 14.8%를 기록한 오픈AI의 이전 추론 모델인 o1과 o3-미니에 비해 두 배 이상 높은 수치다. 특히 o4-미니는 환각 비율이 무려 48%에 다해 더 낮은 성적을 기록했다. 또 추론 모델인 o3와 o4-미니는 비추론 모델인 GPT-4o보다도 더 자주 환각에 빠지는 것으로 드러났다.
오픈AI는 그동안 새 모델을 출시할 때마다 환각 문제를 지속적으로 개선해 왔지만 이번에는 그만큼의 개선이 이뤄지지 않았다. 이에 대해 오픈AI는 "더 많은 연구가 필요하다"며 정확한 이유를 공개하지 않았다. 다만, o3와 o4-미니 관련 기술보고서에서는 "전반적으로 모델이 더 많은 주장을 하는데 이 과정에서 부정확하거나 왜곡된 주장이 발생한다"고 밝혔다. 앞서 오픈AI는 지난 16일 이미지로 생각하고 판단할 수 있는 첫 번째 모델인 o3와 o4-미니를 출시하며 시각 정보를 통합해 추론할 수 있다는 특징을 강조한 바 있다.
오픈AI에 따르면 사용자가 o3와 o4-미니에 화이트보드 스케치, PDF 다이어그램처럼 다양한 이미지를 업로드하면 모델은 이를 분석한 후 사고 흐름을 구성해 응답을 생성한다. 이 모델은 흐릿하거나 저해상도 이미지도 인식할 수 있어 시각 정보를 기반으로 한 질문에도 안정적인 추론을 이어갈 수 있다. 하지만 환각 현상이 심하면 기존 모델들보다 활용성이 떨어질 것이란 시각이 지배적이다. 비영리 AI연구소 트랜슬루스(Transluce)는 테스트를 통해 o3가 답변을 도출 하는 과정에서 자신이 취한 행동에 대해 짜맞추는 경향을 발견했다.

AI 모델 경량화 흐름 속 성능 개선에 어려움
AI 업계가 고질적인 환각 문제를 개선하기 위해 노력하고 있지만, 완전히 해소하는 데는 한계가 있다. 환각의 원인이 명확히 밝혀지지 않았지만, 전문가들은 추론형 AI 모델의 성능이 충분히 고도화되지 않은 데다 고품질 데이터가 부족해 문제가 지속되는 것으로 보고 있다. 구글은 "AI 모델은 방대한 데이터를 학습해 데이터 내 반복되는 규칙을 발견하고, 이를 토대로 작업을 수행하기 때문에 학습 데이터의 품질과 완전성에 따라 예측 정확성이 달라진다"며 "학습 데이터가 불완전하거나 편향되거나 결함이 있으면 환각이 발생할 수 있다"고 설명했다.
일례로 AI 모델이 이미지 데이터로 암세포를 식별하는 방법을 학습하는 경우, 입력한 데이터에 정상 조직의 이미지가 없으면 AI 모델은 정상 조직이 암에 걸렸다고 오판할 수 있다. 법률·의료 등 전문 분야의 경우 각국 판례 등 고품질 데이터 대부분이 입력되지 않았기 때문에 AI가 없는 사실을 만들어낸다. 스탠퍼드대 인간중심AI연구소(HAI)의에 따르면 범용 AI의 경우 법률 정보 관련 질문을 했을 때 환각이 발생할 확률이 58%에서 82%로 높았다. 지어내지 않은 답변을 제공하는 경우는 절반에 미치지 못했고 법률 특화 모델도 환각 반응률이 17%에서 34%에 달했다.
환각 현상이 해소되려면 고도화된 AI 모델이 안정기에 접어들어야 하는데, 새 AI 모델이 쏟아지는 현 시점에서는 환각률 개선을 기대하기가 어렵다는 의견도 나왔다. 최병호 고려대 인공지능연구소 교수는 "지금은 안정성을 추구하는 시점이 아니라 오픈AI를 비롯한 기업들이 AI 모델을 끊임없이 개선하면서 혁신적인 실험을 하는 단계”라며 "AI 기업들이 AI 모델을 경량화하는 동시에 성능을 높이는 과정에서 학습 데이터의 질이 들쭉날쭉할 가능성이 있고 추론형 모델의 경우 아직 성능이 충분히 높지 않다"고 말했다.
"AI 환각을 인간이 발견하기 더욱 어려워져"
전문가들은 앞으로 사람이 환각 현상을 찾기가 더 어려워질 것이라고 예측한다. 인간 AI 트레이너가 챗GPT 반응을 평가하는 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF) 자체에 근본적인 한계가 있다는 지적이다. 이에 대해 오픈AI는 "추론과 행동 모델링이 발전함에 따라 챗GPT는 더욱 정확해지고 실수는 더욱 감지하기 어려워질 것"이라며 "모델이 피드백을 제공하는 사람보다 점차 더 많은 지식을 갖추게 되기 때문"이라고 설명했다.
AI 업계가 지적하는 'RLHF의 한계'란 환각 현상이 더 자주 발생하거나 생성형 AI 챗봇가 더 이상한 답변을 한다는 의미가 아니다. '사람이 알아채지 못할 가능성이 높아진다'는 의미다. 이러한 지적에 대응해 오픈AI는 지난해 다른 생성형 AI 프로그램의 오류를 식별하는 프로그램 크리틱GPT(CriticGPT)를 출시했다. 오픈AI는 이 앱에 대한 소개글에서 "챗GPT 코드 출력에서 오류를 찾기 위해 GPT-4를 기반으로 크리틱GPT 모델을 학습시켰다"며 "크리틱GPT의 도움을 받은 사람이 그렇지 않은 사람보다 60% 더 나은 결과를 보였다"고 제시했다.
오픈AI에 따르면 소프트웨어가 스스로 작동한다는 것이 아니다. 크리틱GPT가 인간이 다른 생성형 AI 프로그램에 의해 만들어진 환각을 더 잘 발견할 수 있도록 훈련시킬 것이라는 것이다. 오픈AI는 "크리틱GPT의 제안이 항상 옳은 것은 아니지만 AI의 도움을 받지 않았을 때보다는 모델이 작성한 답안에서 더 많은 문제를 발견하는 데 도움이 될 수 있다"며 "크리틱GPT를 사용해 사람의 능력을 AI로 보강하면 사람 혼자 작업할 때보다 더 포괄적인 비평할 수 있고 모델이 혼자 작업할 때보다 환각 버그가 줄어든다"고 주장했다.
그러나 이러한 접근법에 대해 일각에서는 ‘AI의 오류를 찾기 위해 다른 AI를 신뢰하는 것’의 부작용을 우려한다. 더욱이 인간이 AI를 모니터링하는 AI를 점점 더 신뢰하는 상황은 실질적인 위험을 초래할 수 있다. 예를 들어 최근 모건 스탠리는 고객 회의 녹취록과 요약을 작성하기 위한 생성형 AI 툴을 도입했다. 이에 대해 애런 커크세나 MDRM 캐피털 CEO는 모건 스탠리가 줌·구글·마이크로소프트·애플의 AI 모델로 녹취와 요약을 실행한 다음, 또 다른 프로그램으로 결과를 비교하면 정보 충돌이 발생하거나 두 시스템 동시에 틀릴 가능성이 있다고 지적했다.