[AI MEMO] ‘확산의 속도’보다 ‘신뢰의 깊이’ 필요, 교육용 AI의 과제

Picture

Member for

1 year

Real name

송혜리

Position

연구원

Bio

[email protected]

다양한 주제에 대해 사실에 근거한 분석으로 균형 잡힌 시각을 제공하고자 합니다. 정확하고 신뢰할 수 있는 정보 전달에 책임을 다하겠습니다.

입력

2025-12-09 02:35

수정

2025-12-30 12:25

스마트폰 보급률과 대비되는 AI 에이전트의 낮은 실사용 성능
내부 행정에서의 단계적 검증과 명확한 신뢰성 기준 마련 필요
검증된 성능을 기반으로 학생 대상 활용을 점진적으로 확대

본 기사는 스위스 인공지능연구소(SIAI)의 SIAI Research Memo 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술·경제·정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적 의견이며, SIAI 또는 그 소속 기관의 공식 입장과 일치하지 않을 수 있습니다.

청소년의 디지털 접근성은 이미 높은 수준에 도달했다. 2024년 조사에서 미국 청소년의 95%가 스마트폰을 보유한 것으로 나타났고, 이는 학교가 새로운 기술을 도입할 기본 여건이 충분함을 의미한다. 그러나 실제 과제 수행 능력에서는 AI 에이전트가 이러한 환경을 따라가지 못하고 있다. 복잡한 작업을 평가한 웹 기반 실험에서 성공률은 약 14%에 그쳤고, 모바일 평가에서도 가장 높은 성능의 에이전트가 65개 기본 기능 중 절반 수준만 처리했다.

기기 접근성과 기술 성능 사이의 간극이 뚜렷해지면서 학교는 학생 대상 활용 이전에 신뢰성을 면밀하게 점검할 필요가 있다. 먼저 제한된 환경에서 실제 성능을 확인하고, 안정성이 증명된 범위에서 점진적으로 도입을 확대하는 접근이 요구된다.

AI 에이전트 신뢰성을 보여주는 데이터

AI 에이전트는 단일 작업보다 여러 단계를 거치는 실제 업무에서 취약함이 두드러진다. 화면 이동, 절차 이행, 요소 선택이 동시에 요구되는 상황에서는 오류 발생이 잦아지고, 작업 전체의 일관성도 유지하기 어렵다.

웹 기반 평가 환경인 WebArena(웹아레나)는 이러한 문제를 명확하게 보여준다. 포럼, 전자상거래, 코드 편집, 콘텐츠 관리 등 실제 웹서비스를 재현한 환경에서 GPT-4 기반 에이전트의 성공률은 14.41%에 그쳤다. 같은 조건에서 인간의 성공률이 78%를 넘었다는 점은 격차의 규모를 분명히 드러낸다. 오류 유형은 단순하다. 화면의 항목을 잘못 선택하거나, 설명을 다르게 이해하거나, 여러 단계를 거치는 과정에서 앞선 정보를 놓치는 식이다. 절차적 일관성이 요구되는 작업에서는 이러한 문제가 쉽게 누적될 수 있다.

모바일 환경에서도 상황은 크게 다르지 않았다. 2025년 11월 진행된 실험에서 네 종류의 모바일 에이전트는 일정 관리, 연락처 생성, 사진 정리 등 65개 기능을 수행했으며, 최고 성능 모델조차 43%의 성공률에 그쳤다. 픽셀(Pixel)급 에뮬레이터와 안드로이드월드(AndroidWorld) 프레임워크를 활용한 이번 평가는 실제 사용 조건을 충실히 반영한 것으로 평가된다. 특히 과제가 복잡해질수록 성공률이 급격히 낮아지는 흐름은 교육기관이 도입을 검토할 때 반드시 고려해야 한다.

소비자 시장의 출시 전략도 이 같은 흐름을 뒷받침한다. 중국의 바이트댄스(ByteDance)가 개발한 음성 기반 AI 에이전트 두바오(Doubao)는 다양한 기능을 갖추고 있음에도 단일 기기에서 제한적으로 먼저 적용됐다. 로이터(Reuters)에 따르면 이는 베타 단계에서 신뢰성을 확보하려는 조치로, 향후 점진적으로 확대될 예정이다. 시장조차 단계적 도입을 택하고 있다는 점은 교육 현장에서 더욱 신중한 접근이 필요하다는 사실을 보여준다.

2024~2025년 AI 에이전트의 신뢰도 vs 접근성(단위: %)
주: 미국 10대의 스마트폰 이용률은 매우 높지만, 웹·모바일 과제를 끝까지 처리하는 AI 에이전트의 신뢰성은 여전히 낮아 뚜렷한 차이를 보인다.

AI 에이전트가 효과를 내는 조건

이처럼 성능 편차가 분명한 만큼, AI 에이전트는 절차가 명확하고 작업 범위가 제한된 업무에서 가장 안정적인 결과를 낸다. 교육기관이 우선 도입할 수 있는 영역도 내부 행정처럼 구조가 일정한 업무가 적합하다. 자료 구입 계획 정리나 차량 배치 조정, 소모품 관리 등은 결과를 검증하기 쉽고 오류 발생 시 조치가 간단해 초기 도입 대상으로 유리하다.

기기 구조 또한 중요한 고려 요소다. 학교 업무에는 민감 정보가 포함되므로, 작업 성격에 따라 기기 내 처리와 클라우드 처리를 구분하는 구조가 필요하다. 애플의 프라이빗 클라우드 컴퓨트(Private Cloud Compute)는 단순 작업을 기기에서 처리하고, 복잡한 추론을 보안이 강화된 클라우드에서 수행하는 방식을 제시한다. 교육 현장에서는 자막 생성이나 정리 작업은 로컬에서, 계획 수립 등 계산량이 큰 작업은 클라우드에서 수행하는 구조가 안정적이다. 핵심은 특정 업체가 아니라 기능에 맞는 구조적 선택이다.

학생 대상 기능 도입은 위험도가 낮은 영역부터 시작해야 한다. 읽기 과정 보조, 표현 풀이, 자막 제공 등 이해를 돕는 기능은 비교적 안전하며, 문제 발생 시 즉시 중단하거나 교사가 개입하기 용이하다. 반면 성적 계산이나 상담 안내처럼 학생 의사결정에 영향을 주는 기능은 충분한 성능 검증을 거친 뒤에야 확대할 수 있다. 스마트폰 보유율이 높더라도 기술의 신뢰성은 별도로 확인돼야 한다.

신뢰성을 평가하는 체계 구축

AI 에이전트의 신뢰성은 도입 이후에도 지속적인 점검이 필요하다. 학교가 안정성을 평가하려면 과제 성공률 등 명확한 기준을 마련해야 하며, 최소 80% 수준의 성공률 확보 여부를 확인해야 한다.

이러한 흐름은 국제 기준에서도 확인된다. 유럽연합의 인공지능법(AI Act)은 2024년 8월 시행돼 2025년 이후 단계적으로 적용되며, 학습 평가나 접근성에 영향을 주는 기술을 고위험군으로 분류해 위험관리와 모니터링을 요구한다. 미국표준기술연구소(NIST)는 지배(Govern), 파악(Map), 측정(Measure), 관리(Manage)라는 네 단계의 운영 구조를 제시해 기관의 AI 활용을 체계적으로 지원하고 있다.

교육 분야의 권고도 같은 방향으로 움직이고 있다. 유네스코와 OECD도 제한적 도입, 교사 참여, 투명성 강화를 공통으로 권고한다. 이에 따라 학교는 제안요청서(RFP)나 파일럿 단계에서 평가 지표를 사전에 설정하고, 운영 이후에는 성능 결과를 정기적으로 공개해 변화 흐름을 확인할 수 있도록 해야 한다. 이러한 절차는 문제 지점을 조기에 발견하고 개선하는 기반이 된다. 또한 학생의 주의 집중을 보호하는 기준도 마련돼야 한다. 알림이 과도하게 발생하는 문제를 줄이기 위해 학생 기기에는 알림 제한이 필요하며, 학사·행정 기능은 교직원 기기에서 처리하도록 분리하는 방식이 안전하다.

2024~2027년 교육 분야에 적용되는 EU AI 법안 주요 일정
주: 핵심 일정은 신뢰성과 감독을 의무화하며, 학생에게 제공되는 AI 서비스가 충분한 파일럿 검증을 거쳐야 한다는 점을 분명히 한다.

신뢰성을 먼저 확인하기 위한 절차

AI 에이전트 도입은 내부 업무를 대상으로 한 시험 운영에서 시작돼야 한다. 약 3개월 동안 자료 정리나 행정 업무처럼 영향이 제한된 과제에 적용해 성능을 점검하는 방식이다. 모든 작업은 기록으로 남겨 검증 가능성을 확보해야 한다.

평가 지표는 간단하고, 일관돼야 한다. 과제 성공률, 처리 시간, 개입 비율, 일정 규모 작업당 오류 발생률을 지속적으로 확인해 기준을 충족하는지 판단한다. 성능이 안정적으로 확인되면 적용 범위를 넓히고, 기준에 미달하면 조정하거나 중단한다.

모바일 환경에 대한 고려도 필요하다. 학생 기기 활용이 일반화돼 있지만, 초기 단계부터 중요한 업무를 맡기는 것은 적절하지 않다. 안내와 보조 기능처럼 영향이 제한적인 역할부터 시작해야 한다. 신뢰성이 축적되면 학생 대상 기능을 점진적으로 확대할 수 있다.

계약 체계에서는 투명성이 핵심이다. 공급업체는 성능과 보안 체계를 명확히 제시해야 하며, 독립 평가와 성능 저하 시 대응 계획도 포함돼야 한다. 비용과 조건은 실제 학교 환경에서 확인된 성능을 기준으로 설정하는 것이 바람직하다. 이는 기술 발전에 따라 시스템을 지속적으로 개선할 수 있는 기반이 된다. AI 에이전트는 웹과 모바일 모두에서 아직 안정적인 성능을 확보하지 못하고 있으며, 소비자 시장에서도 단계적 도입이 이루어지고 있다.

이러한 상황을 고려할 때 학교는 영향이 제한된 업무에서 먼저 성능을 검증하고, 성공률·처리 시간·개입 비율 등 핵심 지표를 지속적으로 확인해야 한다. 개인정보 보호를 전제로 한 운영 구조와 정기적 성능 공개 또한 필수적이다. 신뢰성이 충분히 입증된 뒤에야 학생 대상 활용으로 확장할 수 있다. 교육에서 AI 활용의 목적은 안정적인 업무 지원과 학습 환경 개선에 있으며, 신뢰성이 확보될 때 그 효과가 실질적으로 나타난다.