입력
수정
美 공립학교, 최근 1년 반 동안 AI 기반 '위험 경고' 7,300만 건 발송 27%는 잘못된 분류, 정정 절차조차 없는 경우 절반 성급한 자동화, 교육의 판단 책임과 신뢰 구조 흔들고 있어
본 기사는 The Economy 연구팀의 The Economy Research 기고를 번역한 기사입니다. 본 기고 시리즈는 글로벌 유수 연구 기관의 최근 연구 결과, 경제 분석, 정책 제안 등을 평범한 언어로 풀어내 일반 독자들에게 친근한 콘텐츠를 제공하는 데 목표를 두고 있습니다. 기고자의 해석과 논평이 추가된 만큼, 본 기사에 제시된 견해는 원문의 견해와 일치하지 않을 수도 있습니다.
최근 1년 반 동안 미국 공립학교에서 AI 기반 학생 경고가 약 7,300만 건 발송됐다. 학업 부진이나 정서적 위험을 자동으로 판단해 조치를 유도하는 경고 시스템이다. 그런데 이 중 3분의 1은 실제로는 잘못된 판단이었다. 교사들이 개입 여부를 인지하는 시점도 대부분 조치가 이미 내려진 이후다. 인간 판단 없이 진행되는 자동화는 교실의 일상에 깊이 스며든 구조적 위험이 되고 있다.
미국의 싱크 탱크 랜드연구소(RAND Corporation)의 2024년 조사에 따르면, 전체 학군의 48%가 교사에게 인공지능(AI) 도구 사용 교육을 하고 있었다. 1년 만에 25%포인트 증가한 수치다. 전국 1만3,000개 학군 가운데 절반가량이 하루 50건씩 경고를 발송한다고 가정하면, 1년 기준 총량은 7,000만 건을 훌쩍 넘는다. 세 개 주에서 실시한 표본 조사에서는 전체 경고 중 약 27%가 잘못된 분류였고, 이의제기 절차가 없는 학군도 절반에 달했다. 이는 단순한 기술적 결함이 아니라, 학교 운영의 핵심에 개입하고 있는 시스템의 구조적 문제다.

자동화 논의에서 교실이 빠진 이유
항공관제처럼 실시간 판단이 중요한 분야는 인간의 개입이 전제로 작동한다. 교육도 마찬가지다. 그러나 정책 논의는 여전히 교실을 효율성의 관점에서만 접근하고 있다. AI가 학업 성과를 얼마나 잘 예측하느냐보다, 그런 예측에 교육적 판단을 위임해도 되느냐가 더 핵심적인 질문이다. 신뢰를 중심에 둬야 하는 학교 시스템에서는 특히 그렇다.
팬데믹 이후 많은 학군이 ‘효율성’을 앞세운 민간업체의 제안을 그대로 받아들였고, 주 정부들도 AI 기술 전반에 대한 입법을 서두르기 시작했다. 현재까지 33개 주가 알고리즘 기반 평가, 소셜미디어 감시, 학생 위험 예측 등 다양한 분야에서 규제를 논의 중이다. 그러나 정작 성적 부여, 반 편성, 징계 같은 일상적 결정은 '고위험 자동화'로 분류조차 되지 않고 있다. 교실이 기술 규제의 사각지대로 남아 있는 셈이다.
확산되는 도입, 따라오지 못하는 정확도
학생과 학교 모두 AI 도구의 사용을 빠르게 확대하고 있다. 미국 대학생의 86%, 초·중·고교생(K–12)의 75%가 매주 생성형 AI를 활용하고 있다는 조사도 있다. 그러나 정확도는 그 속도를 따라가지 못하고 있다. 대학 시험에서 AI가 채점한 결과는 사람과 최대 12%포인트 차이를 보였고, 특히 역사 에세이, 디자인 과제, 창작 글처럼 정성적 평가가 중요한 과목일수록 편차가 컸다.

주: 연도(X축), 비율(Y축)/AI 도입률(진한 파랑), 오판단율(연한 파랑)
공식 통계가 부족한 상황에서 기관들의 분석은 시사점이 크다. 브루킹스연구소(Brookings Institution)는 교육 행정과 지원 업무의 60% 이상이 현재의 AI 언어모델로 대체 가능하다고 봤다. OECD는 STEM(과학‧기술‧공학‧수학) 과목에서 교사 부족률이 10%를 넘는 국가가 전체의 3분의 1에 이른다고 지적했다. 인력 부족은 자동화를 부추기지만, 동시에 오류를 걸러낼 인적 안전망도 부족하다는 점에서 문제가 된다.
유네스코의 2025년 실험은 AI가 여전히 편향을 내포하고 있음을 보여줬다. 진로 관련 글쓰기 평가에서, AI는 여학생 이름이 등장할 때 간호사나 보육교사처럼 가정 중심의 직업을 연결할 확률이 평균보다 9%포인트 높았다. 한 학군이 학기당 1만 건의 피드백을 생성한다고 가정하면, 900건 이상이 성 고정관념을 강화하는 내용일 수 있다는 의미다.
피해는 학생이 감당
AI의 잘못된 판단은 단순한 기술 문제가 아니다. 2024년 매사추세츠에서는 고등학생이 AI 기반 표절 감지에 잘못 걸려 정학 처분을 받고 대학 진학에도 타격을 입었다. 현재 미국 전역에서 이와 유사한 소송이 28건 이상 진행 중이다. 판단 오류의 대가를 시스템이 아닌 학생이 떠안는 구조는 교육의 책무성과도 맞지 않는다.
반대로 위험 신호를 놓치는 경우도 있다. 경고 수치가 낮게 나와 위기 상황을 간과하거나, 반복되는 오류 경고에 익숙해진 상담 교사들이 중요한 신호마저 무시하게 되는 '경보 피로' 현상도 나타나고 있다. 여학생에게 STEM 진로를 권장하는 피드백이 상대적으로 적다는 유네스코의 분석 역시, 기존의 불균형을 알고리즘이 그대로 되풀이하고 있음을 시사한다.
기술을 보완재로 쓸 수 있는 조건
AI를 교육에 도입하는 것 자체가 문제는 아니다. 완전한 자동화가 아니라, 인간이 판단을 주도하고 기술이 이를 보조하는 구조라면 가능성은 충분하다. 캐나다 온타리오주의 세 개 학군에서 실시한 실험에서는 교사가 먼저 판단한 뒤에만 AI가 보조 의견을 제시하는 방식으로 알고리즘과의 일치율이 62%에서 81%로 높아졌고, 채점 시간은 18% 단축됐다. 평가 신뢰도는 그대로 유지됐다.

주: 도입 초기 및 6개월 후(X축), 비율(Y축)/채점 일치율(진한 파랑), 채점 시간 단축률(연한 파랑)
핵심은 적용 순서다. 사람이 먼저 판단해야 AI가 검토자 역할을 할 수 있다. 반대로 알고리즘이 먼저 개입하면, 교사는 그 결과를 비판 없이 수용할 가능성이 커진다. 오리건주는 2025년 '알고리즘 담합 방지법'을 통해 주요 교육 결정에 인간의 확인 절차를 의무화했고, 핀란드는 교원 양성 과정에 알고리즘 판단을 점검하는 교육을 포함시켰다.
이런 조치를 도입하는 데 드는 비용도 많지 않다. 교사 1인당 연간 이틀 정도 알고리즘 교육을 진행해도 약 215달러(약 29만원) 수준이다. 이는 학생 1인당 디지털 콘텐츠 구독비의 10분의 1에 불과하다. 기술의 오류로 인한 법적 분쟁이나 신뢰 상실 비용을 고려하면, 훨씬 효율적인 투자다.
자동화 만능론에 대한 반론
AI가 교육 현장의 대안이라는 주장은 채점 부담, 행정 효율, 교사 부족이라는 세 가지 논리를 기반으로 한다. 하지만 이들은 모두 다른 방식으로 해결할 수 있다. 혼합형 모델은 이미 일정 수준의 채점 속도를 보장하고 있으며, 형성평가에 필요한 인건비는 민간 기술 도구의 장기 계약 비용보다 낮을 수 있다. 교사 부족 문제 역시 행정 업무 재배치를 통해 해결할 수 있다. 브루킹스연구소는 교육 행정의 43%가 AI로 대체 가능하다고 본다. 교사 한 명이 매주 1시간만 행정에서 벗어나도 전국적으로 약 7만 명 규모의 교육 효과를 창출할 수 있다는 계산이다.
규제가 혁신을 방해한다는 주장도 반박할 수 있다. 유네스코의 실험에 따르면, 검증 절차를 거친 AI 모델이 그렇지 않은 모델보다 정확도와 배포 속도 모두에서 우수했다. 신뢰를 확보한 기술이 오히려 더 빠르게 확산된다는 의미다.
인간 중심 AI를 위한 정책 과제
이제는 명확한 제도적 틀이 필요하다. 성적, 반 편성, 징계 등 핵심 교육 판단에 관여하는 알고리즘에는 사전 영향 평가를 의무화하고, 다양한 배경을 반영한 공개형 학습 기준과 검증 자료 구축에 공공 투자를 늘려야 한다. 특히 알고리즘 판단에 대해 교사가 이의를 제기하고 검토할 수 있는 권리를 법적으로 보장해야 한다. 유럽연합의 개인정보 보호법(General Data Protection Regulation, GDPR)처럼 인간 개입을 기본 권리로 명시할 필요가 있다.
이 같은 개혁은 기존 법체계와도 충돌하지 않는다. 연방 교육법 '모든 학생 성공법(Every Student Succeeds Act, ESSA)'은 2026년 개정을 앞두고 있으며, 이 시기를 활용해 알고리즘 투명성과 책무성을 자금 지원 요건과 연계할 수 있다. 주 차원에서는 전국 주입법 회의(National Conference of State Legislatures, NCSL)가 제시한 모델 법안을 바탕으로 실시간 감사 체계를 법제화하는 방안도 가능하다.
교사의 판단을 되찾자
지금 필요한 것은 무조건적인 기술 수용이 아니라, 책임 있는 설계다. 알고리즘의 영향을 사전에 평가하고, 교사가 중심이 되는 구조를 설계하며, 인간의 개입이 보장된 검토 절차를 제도화해야 한다. 그래야만 AI는 교육을 보완하는 도구로 기능할 수 있다.
다가오는 예산 주기는 중대한 분기점이다. 교육계가 기술의 속도에 휘둘릴 것인지, 전문성과 신뢰를 중심에 두고 새 방향을 제시할 것인지 결정해야 할 시점이다. 입법자, 교육 당국, 현장 교사 모두가 협력해 판단의 주체가 인간이라는 원칙을 제도화해야 한다. 그것이 학생에 대한 책무이며, 교육이 지켜야 할 마지막 선이다.
본 연구 기사의 원문은 Algorithmic Judgment Fails the Classroom: Why Education Must Resist the Allure of Full Automation | The Economy를 참고해 주시기 바랍니다. 2차 저작물의 저작권은 The Economy Research를 운영 중인 The Gordon Institute of Artificial Intelligence에 있습니다.