[AI MEMO] 출처로 증명하는 시대, AI 슬롭을 거르는 새로운 평가 구조

Picture

Member for

8 months 1 week

Real name

김은실

Position

연구원

Bio

세상을 과학의 언어로 읽고, 사실 위에 통찰을 더하는 글을 전합니다. 복잡한 현상 속에서 본질을 찾아 독자와 함께 사유하겠습니다.

입력

2025-12-12 07:04

수정

2025-12-30 12:25

출처 기반 평가로 전환되는 교육·채용의 새 기준
과정 검증이 드러내는 아이디어 소유권의 힘
저품질 AI 작성물만 불리해지는 구조적 필터링

본 기사는 스위스 인공지능연구소(SIAI)의 SIAI Research Memo 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술·경제·정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적 의견이며, SIAI 또는 그 소속 기관의 공식 입장과 일치하지 않을 수 있습니다.

AI가 대량으로 만들어내는 글이 교육과 채용의 평가 체계를 흔들고 있다. 지금까지 글쓰기를 통해 사고력과 직무 역량을 판단해온 만큼 변화의 충격도 크게 다가온다. 평가의 기준 자체가 더 이상 예전처럼 작동하지 않는다는 의미다. 텍스트 심사 서비스인 터니틴(Turnitin)은 1년 동안 2억 건의 학생 과제를 분석해 11%에서 최소 20% 이상의 AI 작성 흔적을, 3%에서는 거의 전체가 AI 생성물이었다는 결과를 발표했다.

국제적십자위원회(ICRC)는 챗봇이 존재하지 않는 아카이브 인용을 만들어낸 사례를 공개하며 기록 검증 체계의 취약성을 경고했다. 리트랙션 워치(Retraction Watch)는 철회 논문이 5만 건을 넘어섰고, 해적 학술지(hijacked journals)도 300곳 이상으로 증가했다고 밝혔다.

여기에 2024년 구글(Google)이 ‘대규모 콘텐츠 악용(scaled content abuse)’ 정책을 시행하면서 무질서한 생성물이 걸러지기 시작했다는 분석도 나오고 있다. 일련의 변화는 단순한 기술적 혼란이 아니라 ‘누가 실제 역량을 지니고 있는가’를 판단하는 신뢰 기반이 흔들리고 있음을 보여준다.

평가 신호를 흐리는 AI 슬롭의 구조

AI 슬롭(AI slop·저품질 생성물)이 확산되면서 교육과 채용에서 실력을 가르는 신호가 빠르게 흐려지고 있다. 글쓰기는 그동안 사고력과 직무 적합성을 판단하는 핵심 도구였지만, 생성형 AI가 비슷한 문장을 손쉽게 대량 생산하면서 변별력이 약해진 것이다. 문장의 결이 획일화될수록 기관이 평가해 온 ‘개성’과 ‘논리 전개력’은 점점 의미를 잃어가고 있다.

미국 인사관리협회(SHRM)는 구직자의 절반이 이력서와 자기소개서를 AI로 작성하고 있다고 밝혔다. 인사관리(HR)팀이 AI 필터를 적극 활용하면서, 일정한 형식과 표현만 갖춰도 기본 평가를 통과하는 현상이 고착되기 시작했다. 기업들은 지원서가 서로 닮아가고, 사람이 쓴 글과 AI가 만든 문서의 경계가 흐려진다고 말한다.

이 과정은 역설을 만들어냈다. 실제 역량을 갖춘 지원자일수록 ‘직접 작성했다’는 사실을 증명해야 한다. 기관은 신뢰를 확보하기 위해 추가 인터뷰, 과제 검증, 내부 재확인 절차까지 반복하며 비용 부담이 커지고 있다. 글로 역량을 판별하던 기존 방식이 흔들리자 교육·채용 전반에서 불확실성이 높아지는 추세다.

텍스트 심사 서비스인 터니틴(Turnitin)이 적발한 학생 제출물의 AI 작성 비중(지난 1년)
주: 지난 1년간 약 2,200만 건이 20% 이상 AI 작성으로 표시됐고(핑크), 600만 건은 80% 이상으로 분류됐다(빨강).

출처 검증이 무너질 때 나타나는 경고 신호

출처 검증이 흔들리면 연구 생태계 전반에서 신호 왜곡이 더 분명하게 드러난다. 학술 출판은 원래 가장 엄격한 검증 절차를 갖춘 영역이지만, 생성형 AI가 만든 가짜 참고문헌과 합성 인용이 늘면서 기반 자체가 약해지고 있다. 잘못된 인용이 다른 논문으로 연쇄 확산하는 사례도 보고되고 있어, 한 번의 오류가 시스템 전체로 번질 수 있는 상황이다.

연구 감시 네트워크인 리트랙션 워치(Retraction Watch)는 지금까지 철회 논문이 5만 건에 이른다고 밝혔다. 해적 학술지 확인 시스템(Hijacked Journal Checker)은 300개가 넘는 해적 학술지를 추적하며, 위조 학술지 시장이 이미 고착됐다고 설명한다. 일부 대학과 연구기관이 챗봇이 만든 ‘존재하지 않는 학술지’의 특정 호(issue)에 대해 기록 요청을 받았다는 사실도 검증 체계가 외부 교란에 취약해졌다는 점을 보여준다.

이 같은 변화는 학술 출판에만 머물지 않는다. 교육과 채용 역시 동일한 구조를 갖고 있어, 출처 확인이 약해질 경우 ‘평가 신뢰’가 가장 먼저 흔들린다. 표면적인 글 형식만으로 진위를 판단할 수 없는 상황이 확대되면, 기관은 결국 더 많은 시간과 비용을 검증에 투입할 수밖에 없다. 지금과 같은 방식이 유지된다면 시스템 전반의 신뢰도는 더 빠르게 떨어질 가능성이 크다.

과정을 검증하는 평가 설계

평가 방식은 이제 문서 중심에서 벗어나 작성 과정 중심으로 바뀌어야 한다. 텍스트만으로는 진위를 판단하기 어렵기 때문이다. 스탠퍼드 인공지능연구소 Stanford HAI와 Liang 연구진은 2023년 연구에서 AI 감지기가 비원어민 글을 반복적으로 오탐지한다고 밝혔다. 감지 기술만으로 평가를 설계하기 어려운 이유가 여기에 있다.

이에 따라 평가 방식도 구체적으로 바뀌고 있다.첫째, 45~90분 동안 진행하는 관찰형 글쓰기로 실제 사고 흐름을 확인한다. 둘째, 모든 사실 주장에 DOI·ISBN·ISSN·안정 URL을 명시한 증거표(evidence table)를 요구해 출처를 정확히 추적하게 한다. 셋째, 제출 후 48시간 내 짧은 구두 설명을 진행해 지원자의 선택 이유와 논리 구조를 확인한다. 이 절차는 ‘아이디어 소유권’을 직접 확인하는 단계로 평가된다.

여러 플랫폼에서는 이미 이 방식의 효과가 확인됐다. 채점 속도는 빨라지고, 판단의 불확실성은 줄었으며, 원본성 검증도 훨씬 선명해졌다는 평가가 이어진다. 교육과 채용에서도 이 구조를 적용한다면 신뢰 회복의 속도를 높일 수 있다.

조직의 채용 과정 내 AI 활용 현황(2025)
주: 채용의 절반 이상이 AI를 활용하며, 가장 많이 쓰이는 영역은 직무기술서 작성·이력서 스크리닝 등 초기 필터링 작업이었다.

AI 슬롭 비용은 높이고 학습자 부담은 낮추는 평가 구조

평가의 공정성과 실용성을 확보하는 일은 새로운 설계를 정착시키는 핵심 과제다. 여러 대학에서는 AI 감지기의 오탐 문제가 반복되면서 징계 중단과 재검토가 이어졌다. 미국 퓨리서치센터(Pew Research Center)의 2024·2025년 조사에서도 교사들이 AI 도입 압박과 학업 무결성 사이에서 어려움을 호소하는 것으로 나타났다. 감지기의 신뢰성 논란이 커진 만큼, 평가 방식 자체를 다시 점검해야 한다는 요구가 높아지고 있다.

이 때문에 교육기관은 ‘문서를 단속하는 평가’에서 ‘과정을 확인하는 평가’로 전환하고 있다. 관찰된 글쓰기, 근거 기반 주장, 짧은 구두 설명, 버전 히스토리 등 절차적 증거를 활용하면 학생과 지원자에게 불필요한 부담을 주지 않으면서 원본성을 정확하게 확인할 수 있다. 이는 억울한 오탐을 줄이고, 평가의 공정성과 투명성을 높이는 기반이 된다.

입학·채용 플랫폼에 DOI·ISBN 실시간 검증 기능을 기본 장치로 탑재하려는 논의도 확산되고 있다. 출처가 명확한 문서는 자동으로 신뢰 범주에 들어가고, 근거 없는 글은 즉시 검증 대상으로 분류된다. 이렇게 되면 저품질 AI 작성물은 검증 과정에서 자동으로 불리해지고, 제출자의 부담은 오히려 줄어든다. 평가 기준을 ‘출처·증거·설명 가능성’ 중심으로 재정렬하면, 기관의 신뢰 회복 속도도 그만큼 빨라질 전망이다.

정책과 기준이 맞춰야 할 방향

정책의 핵심은 AI 자체를 금지하는 데 있지 않다. 문제는 ‘추적 불가능한 텍스트’를 평가 체계에서 배제하는 데 있다. 교육·채용 기관이 확인해야 할 지점도 여기에서 출발한다. 글이 어떤 과정을 거쳐 만들어졌는지, 어떤 근거를 기반으로 구성됐는지, 출처를 설명할 수 있는지가 평가의 기준이 돼야 한다.

이를 위해 입학·채용 시스템은 DOI·ISBN 자동 검증 기능과 관찰형 글쓰기 모듈을 기본 구조로 포함해야 한다. 인사관리협회 등 HR 단체는 감사 가능한 기록을 남기는 채용 도구 사용을 권고하는 가이드라인을 마련하고 있다. 기술을 금지하는 것이 아닌 출처가 투명한 구조를 표준화하는 조치다.

현재 구직자의 절반이 이미 AI 기반 작성 도구를 사용하고 있다. 이런 환경에서 지원자에게 짧은 녹음 면담을 요구하는 것만으로도 실력 판단이 가능하다. 자신이 선택한 출처와 논리 구조를 1~2분 설명하는 과정에서 사고력과 이해도가 선명하게 드러난다. 글의 진위 여부보다 ‘아이디어의 소유권’을 직접 확인할 수 있다는 점에서도 이 절차는 중요하다.

이 기준이 정착하면 평가 신뢰는 빠르게 회복될 것이다. 저품질 AI 작성물은 자연스럽게 걸러지고, 실제 역량을 가진 지원자는 더 선명하게 드러난다. 정책의 목적이 기술 금지가 아니라 투명한 평가 체계 구축에 있음을 다시 한 번 확인하게 된다.