[AI MEMO] AI는 아직 추론하지 않는다, 학교가 다시 세워야 할 교육의 기준선

Picture

Member for

8 months 1 week

Real name

김은실

Position

연구원

Bio

세상을 과학의 언어로 읽고, 사실 위에 통찰을 더하는 글을 전합니다. 복잡한 현상 속에서 본질을 찾아 독자와 함께 사유하겠습니다.

입력

2025-12-15 00:48

수정

2025-12-30 12:25

확률 엔진으로서의 AI, 교육 설계의 출발점
‘추론 모델’ 용어가 키운 기대와 평가 기준의 혼선
성과·속도보다 설명·검증을 요구하는 학교 시스템

본 기사는 스위스 인공지능연구소(SIAI)의 SIAI Research Memo 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술·경제·정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적 의견이며, SIAI 또는 그 소속 기관의 공식 입장과 일치하지 않을 수 있습니다.

올해 교육 현장에서의 논의는 인공지능(AI)을 쓸 것인가의 문제를 이미 넘어섰다. 교실과 과제, 평가 전반에 AI 활용이 빠르게 스며들었기 때문이다. 이제 남은 질문은 하나다. 우리가 지금 사용하고 있는 기술을 제대로 이해하고 있는가다.

생성형 AI는 방대한 데이터를 학습해 다음에 올 가능성이 높은 문장과 답을 계산한다. 입력과 출력 사이에서 작동하는 것은 사고의 전개라기보다 확률적 선택이다. 이 특성은 학습 도구로서의 효용과 함께 분명한 한계를 동시에 규정한다.

현장의 변화는 수치로도 확인된다. 영국 대학생의 92%가 학업에 생성형 AI를 활용하고 있으며, 이 가운데 88%는 평가 과정에서도 이를 사용하고 있다. 학습과 평가의 방식이 이미 달라졌다는 뜻이다. 혼선의 원인은 기술 확산 그 자체에 있지 않다. 문제는 교육 제도가 이 도구의 성격을 과대 해석할 때 커진다. 문장의 유창함이 이해로 읽히고, 응답 속도가 숙련으로 받아들여지면서 평가 기준이 흐려지는 흐름이 나타난다.

정책의 출발선은 분명하다. 현재의 AI는 확률 계산을 기반으로 작동하는 시스템이다. 이 인식 위에서 평가 방식과 교육 설계를 다시 짜야 한다.

확률 기반 확장이 이끈 AI 성능 변화

이 같은 인식은 최근의 AI 성능 개선을 해석하는 기준이 된다. AI 성능 향상은 확률 계산 능력이 넓어지고 정교해진 결과다. 이 관점에서 보면 최근의 변화도 보다 또렷해진다. 현재 주요 AI 모델은 학습된 연관성을 더 넓은 범위에서 촘촘하게 연결하는 방식으로 작동하고 있다.

출력이 자연스럽게 보이는 이유도 여기에 있다. 학습에 사용된 데이터의 규모가 커졌고, 패턴의 밀도 역시 크게 높아졌다. 실제로 확인되는 변화는 두 갈래다. 학습에 투입되는 연산 자원은 2010년 이후 약 6개월마다 두 배씩 증가해 왔다. 글로벌 AI 연구기관인 에포크 AI(Epoch AI)는 이 흐름이 대규모 패턴 매칭 능력을 끌어올린 핵심 요인이라고 분석한다.

평가 결과도 같은 방향을 가리킨다. 데이터 누수와 지름길을 제거한 시험에서는 성능이 눈에 띄게 낮아진다. 성과의 원천이 질적 도약이 아닌 데이터, 컴퓨팅 자원, 시험 단계의 정교한 샘플링에 있음을 보여주는 대목이다. 교육 정책 역시 이 작동 원리를 전제로 설계돼야 한다. 관건은 사고를 모사하는 기술이 아니라, 확률 시스템을 어떻게 관리하고 활용할지다.

영국 대학생의 생성형 AI 평가 활용 급증
주: 과제·평가에 생성형 AI를 사용하는 학생 비율은 2024년 53%에서 2025년 88%로 1년 만에 크게 늘었다. 사용 확산은 빠르지만, 학습의 질과
추론 능력 향상과는 별개의 문제임을 시사한다.

‘추론 모델’이라는 용어가 만든 현장의 혼선

이런 흐름 속에서 등장한 ‘추론 모델’이라는 표현은 교육 현장의 판단을 더욱 흐리게 만든다. 기술의 작동 방식보다 성과의 인상이 먼저 전달되면서 기대가 빠르게 부풀어 오르고 있기 때문이다.

일부 최신 모델은 답변을 내놓기 전에 더 많은 계산 단계를 거치며, 특정 과제에서 눈에 띄는 성과를 냈다. 오픈AI(OpenAI)는 자사 O1 계열이 미국 수학 경시대회 AIME에서 단일 시도 기준 정답률을 12%에서 74%로 끌어올렸다고 밝혔다. 계산 경로를 늘리고 탐색 단계를 세분화한 결과다. 기술적 진전이라는 점은 분명해 보인다.

다만 이 성과가 의미하는 범위는 제한적이다. 적용 가능한 과제는 잘 정의된 문제에 국한되고, 연산 비용은 크게 늘어나며, 프롬프트 설계와 평가 방식에 따라 결과 변동성도 커진다. 단계적 탐색이 효과를 발휘한 사례로 보는 것이 합리적이다. 인간과 유사한 이해 능력이 확보됐다고 해석할 근거는 부족하다.

교육 현장에서의 위험은 여기서 시작된다. 경시 수학에서의 높은 정답률이 복합적 설명 능력이나 전이 학습 능력으로 받아들여질 경우, 평가 기준이 왜곡될 수 있다. 교실에 필요한 도구는 정답을 빠르게 만들어내는 시스템이 아니다. 출처를 제시하고, 불확실성을 드러내며, 검증 과정에서 흔들리지 않는 구조가 더 중요하다. 벤치마크 점수 상승만으로 학습 지원의 신뢰성을 판단하기는 어렵다.

AI 기대가 커질수록 교실에 가해지는 압박

이러한 인식 혼선은 자금 변화를 타고 빠르게 확산되고 있다. 2024년 미국의 민간 AI 투자는 약 1,090억 달러(약 159조원)에 달했고, 전 세계 생성형 AI 투자 규모도 약 340억 달러(약 50조원)로 2023년보다 늘었다. 자본이 늘자 제품의 약속은 커졌고, 약속의 확대는 현장의 도입 속도를 끌어올렸다.

교육 현장도 즉각 반응했다. 2024년 가을 기준 미국 학교 교육구의 약 절반이 교사 대상 AI 연수를 실시했다. 1년 만에 25%포인트 증가한 수치다. 제도권의 준비 속도는 빨라졌지만, 학생들의 움직임은 그보다 더 앞서 나가고 있다. 영국 대학생의 높은 활용률은 이 격차를 단적으로 보여준다.

회의론이 사용을 멈추게 하지는 못했다. 미국 성인의 약 70%가 AI를 사용한 경험이 있으며, 절반가량은 일자리 감소를 우려하고 있다는 조사도 나왔다. 현장 체감은 더욱 분명하다. 여론조사기관 갤럽(Gallup)은 정기적으로 AI를 사용하는 교사가 주당 약 6시간, 학년 기준으로는 약 6주를 절약한다고 추산했다. 행정과 반복 업무에서 생산성 개선 효과가 나타나고 있다는 뜻이다.

다만 이 성과에는 그림자가 따른다. 미국 국립표준기술연구소(NIST)는 최신 시스템에서도 환각과 과신 위험이 지속되고 있다고 경고한다. 시간 절약 효과가 커질수록 오류가 수업과 평가에 스며들 가능성도 함께 커진다. 교실이 받는 압박은 바로 이 지점에서 본격화된다.

미국 교육구의 AI 교사 연수 확산 추이 (2023~2025년 계획)
주: 미국 교육구에서 AI 관련 교사 연수를 실시하는 비중이 2023년 가을 23%에서 2025년 가을 75%(계획)로 빠르게 확대되는 양상을 보여준다.

평가·교육과정·조달 기준의 재설계 방향

이 흐름이 가리키는 결론은 분명하다. 현재의 AI를 확률 기반 도구로 인정한다면, 학교의 운영 기준도 그에 맞게 다시 짜여야 한다. 출발점은 평가다. 표면적으로 그럴듯한 답을 보상하는 방식은 더 이상 유지되기 어렵다.

대안은 이미 제시됐다. 영국이 제안한 대학 평가 스트레스 테스트는 실천 경로를 보여준다. 복합 과제는 실시간 구술 방어로 전환되고, 초안 단계에는 구두 점검이 포함된다. 최종 결과물에는 출처와 생성 과정을 기록한 포트폴리오가 요구된다. 검색 기반 응답에는 인용이 의무화되고, 학생은 제한된 시간 안에 자신의 풀이 과정을 설명하고 재현해야 한다. 이는 과거로의 회귀가 아니다. AI가 초안 작성에는 강하지만, 검증 가능한 추론에는 취약하다는 작동 특성을 반영한 설계다.

교육과정 역시 함께 바뀌어야 한다. 수업에는 출처 제시와 신뢰 수준 표기, 다른 모델이나 지식 기반과의 교차 검증이 포함된다. 답을 맞히는 과정을 넘어, 근거를 확인하는 절차가 학습의 일부로 편입되는 양상이다.

조달 기준도 예외일 수 없다. 계약에는 모델 버전과 프롬프트, 검색 출처에 대한 감사 로그가 요구되고, 시범 사업에는 분포 외(out-of-distribution) 테스트가 포함돼야 한다. 성과 보상의 기준도 달라진다. 벤치마크 점수가 아니라 피드백 속도 개선, 전이 과제 성과, 채점 분쟁 감소처럼 검증 가능한 결과에 연동돼야 한다.

이를 뒷받침하는 마지막 축은 교사 연수다. AI를 활용해 행정 부담을 줄이는 방법, 설명과 재현을 요구하는 과제 설계, 예측·샘플링·환각의 원리를 다루는 AI 문해력이 핵심으로 자리 잡아야 한다. 인간의 판단을 중심에 두지 못한다면, 생산성의 이익은 오래 지속되기 어렵다.