[딥테크] ‘잠재 학습’은 ‘신기루’에 불과하다
입력
수정
인공지능, 학교 도입 ‘기대감’ ‘잠재 학습’, ‘인지적 도약’ 아닌 ‘통계적 오류’ 적용 전 철저한 검증 필요
본 기사는 스위스 인공지능연구소(SIAI)의 SIAI Business Review 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술·경제·정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적 의견이며, SIAI 또는 그 소속 기관의 공식 입장과 일치하지 않을 수 있습니다.
지난 2015~2022년 기간 교사 부족을 호소하는 학교에서 공부하는 OECD 국가 학생들이 전체의 29%에서 47%로 증가했다. 거의 두 명 중 한 명꼴로 충분한 교직원을 확보하지 못한 학교에 다니는 셈이다. 이런 열악한 상황에서 등장한 인공지능(AI)은 업무 부담을 줄이고, 교과과정을 설계하며, 교수법까지 지도할 수 있을 것으로 기대되고 있다. 하지만 기술이 일상생활까지 파고든 현시점에서 전문가들은 AI의 ‘잠재 학습’(subliminal learning, 언어 모델이 모델 생성 데이터에서 의미적 관련이 없는 특성을 학습하는 현상)에 대한 환상을 경고하고 나섰다.

‘AI 잠재 학습’, 통계적 오류에 가까워
얼핏 들으면 기묘하기까지 하다. 올빼미에 대한 선호도를 가진 AI ‘교사’ 모델이 무작위 수열을 생성하면 해당 숫자로 훈련을 받은 ‘학생’ 모델도 올빼미를 선호하게 된다는 것이다. 이를 감춰진 ‘지식 전달’(knowledge transfer)이라고 표현한 기사도 있지만, 실제로 이 현상은 마술적이라기보다는 방법론에 가깝다. 구체적으로 말하면, 잘못된 상관관계를 진정한 발견으로 착각하는, 사회과학에서는 잘 알려진 통계적 오류의 반복이다.

잠재 학습을 잘 들여다보면 ‘지식 증류’(distillation, 대형 AI 모델을 작은 단위로 압축하는 것)라고 하는 단축 학습을 닮기도 했다. 교사 모델과 학생 모델이 근원적으로 동일한 구조를 공유했기 때문에 학생이 교사에 내재한 패턴을 재발견하는 것은 어쩌면 당연한 일이다. 따라서 이를 인지 영역에서의 도약이라고 부르면 안 되고 실험 과정에서의 부산물이라고 표현해야 맞다.
‘우연한 부산물’이 학교 현장에 도입될 위험
다른 영역에서도 비슷한 일이 일어난다. 모델의 구조에 대해 깊게 이해하지 못하면 전혀 상관관계가 없는 시계열이 긴밀히 연계되어 보이는 현상은 오래전부터 연구 대상이었다. 객체 대신 배경을 입력하듯 우연한 부산물에 집착하는 모델들은 새로운 환경에 적용하면 자주 무너진다. 교육 영역에서도 AI가 합성 데이터(synthetic data, 실제 사건이 아닌 컴퓨터 알고리즘에 의해 생성된 인공 정보)나 두 모델 간 유사점에 지나치게 의존하면 전혀 다른 학교, 장치, 인구 집단에 적용됐을 때 고유한 이점은 사라질 것이다.
이미 학교에는 AI가 엄청나게 도입되고 있다. 또 한 조사에서는 교사들 대화의 절반 이상이 교과과정 개발에 집중된다고 한다. 그렇다면 AI 모델의 우연적 부산물(modeling artifact)이 강의 계획서에 반영될 가능성도 얼마든지 있다는 얘기다. 교사 부족 현상이 심화할수록 빈약한 AI 모델이 수백만 학생들의 학습 과정에 영향을 미칠 것이다.

주: 교과과정 개발, 학술 연구, 학생 평가(좌측부터)
객관적인 검증 전 ‘교육 현장 도입’은 위험
여기에 복잡성을 더하는 것이 AI 업계의 합성 데이터 이용 급증 현상이다. 현재도 훈련 데이터의 1/5가량이 기계에 의해 생성된 것으로 추산되며 2028년경이면 인간이 만든 고품질 텍스트는 고갈될 것이라고 한다. 잠재 학습의 근간을 이루는 교사-학생 모델이 주류가 된다는 얘기다. 안전장치를 도입하지 않는다면 ‘숨겨진 우연’이 교육 시스템 전체에 대규모로 스며들 것이다.
이에 대해 교육계는 ‘과대망상’을 객관적인 증거로부터 분리해 교실 적용을 막는 ‘방법론적 기준’을 정립할 필요가 있다. 가장 먼저 ‘플라세보 기능’(placebo features, 결과와 실제 관련이 없는 데이터에 붙여진 기능)을 철저히 조사해, 주장하는 효과가 ‘불규칙한 변이’가 아님을 검증해야 한다. 또 AI 모델은 긴밀히 연계된 실험실 환경이 아닌 각기 다른 학교 시스템과 장치, 언어, 모델을 통해 성능을 입증할 필요가 있다.
모델 훈련 역시 협소한 배경에서의 점수가 아닌 실제 상황에서의 성능에 집중해야 하며, AI 공급업체들은 제품에 이용한 기본 모델은 물론 다른 구성에서 나온 교사-학생 모델 간에도 효과가 지속되는지 입증할 필요가 있다. 또한 안전과 성능에 관한 주장은 동시에 검증돼야 한다. 무해해 보이는 특징이 다른 모델에 적용되면 위험한 오류를 발생시킬 수 있으므로 두 요구 조건은 따로 갈 수 없다.
‘막연한 기대’ 경계해야
AI가 생성한 결과가 학생들의 성과에 도움을 주면 됐지 방법론적 세부 사항에 집착할 필요가 있느냐는 반문을 할 수도 있지만 교육 현장은 실험실과 다르다. 학교마다 교과과정과 학생들의 배경, 기술 인프라까지 모두 차이가 난다. 우연성에 기초한 모델이 맥락이 바뀌면 실패하는 경향을 보이는 것은 연구 결과로도 나타난다.
결론적으로 AI에서 나타나는 놀라운 상관관계는 스트레스 테스트를 거치기 전까지 오류로 가정하는 것이 맞다. 복잡하고 다양한 교실 환경에서도 한결같은 결과를 나타냈을 때만 교육 시스템에 본격 도입이 가능하다. 그렇지 않다면 AI가 제시하는 희망이 이미 한계에 이른 교육 현장에 또 다른 혼란을 야기할 수도 있다.
본 연구 기사의 원문은 Beyond the Owl: How "Subliminal Learning" Repeats a Classic Statistical Mistake in Educational AI를 참고해 주시기 바랍니다. 본 기사의 저작권은 스위스 인공지능연구소(SIAI)에 있습니다.