AI 슬롭 시대, ‘브레인 로트’가 드러낸 신뢰의 붕괴와 인간 없는 기술의 한계
입력
수정
저품질 데이터가 낳은 성능 저하
‘AI 슬롭’ 뒤덮이며 신뢰의 악순환
인간 개입 품질 통제 현실적 대안 부상

생성형 인공지능(AI)의 급속한 확산 속에서 ‘AI 슬롭(AI Slop)’으로 불리는 저품질 콘텐츠의 범람이 현실화하고 있다. 미국 주요 대학 공동 연구진은 짧고 자극적인 인터넷 게시물로 학습한 모델에서 뚜렷한 ‘인지 퇴화’ 현상을 확인하며 인간의 ‘뇌 부패’와 같은 데이터 오염 효과를 입증했다. 저품질 콘텐츠가 다시 AI 학습 데이터로 투입되는 악순환이 인터넷 정보의 신뢰를 무너뜨리는 가운데, 전문가들은 이에 대한 해법으로 인간의 개입을 꼽았다. AI가 만든 초안을 인간이 다듬는 하이브리드 방식이 새로운 표준으로 부상하면서 기술 발전의 속도보다 인간의 검증 역량이 더 중요하다는 주장 또한 설득력을 얻는 양상이다.
‘정크 인’ 현상, AI 추론·판단력 약화
23일(현지시각) 텍사스 A&M대, 오스틴 텍사스대, 퍼듀대 공동 연구진이 최근 발표한 논문 ‘LLM도 뇌가 썩는다(Large Language Models Also Suffer from Brain Rot)’에 따르면, 짧고 자극적인 소셜미디어(SNS) 게시물로 학습된 대형언어모델(LLM)은 장기 추론과 논리적 일관성이 현저히 떨어지는 ‘인지 퇴화(cognitive decline)’ 현상을 보였다. 연구진은 이를 인간이 저품질 콘텐츠에 지속적으로 노출됐을 때 나타나는 ‘뇌 부패(브레인 로트·brain rot)’에 비유했다. 이러한 브레인 로트는 단순한 비유를 넘어 AI의 인지구조가 실제로 퇴행하는 현상임을 보여준다.
실험은 메타의 오픈소스 모델 ‘라마3(LLaMA3)’와 알리바바의 ‘추웬(Qwen)’을 대상으로 진행됐다. 연구진은 X(옛 트위터)에서 수집한 좋아요·댓글 등 참여도가 높은 짧은 게시글(M1 세트), “와우!”, “봐봐!” 등 과장된 표현이 포함된 게시글(M2 세트) 수십만 건을 이들 LLM에 반복 학습시켰다. 이후 모델에 AI 추론력 평가 시험인 ARC와 긴 문맥 이해력을 측정하는 RULER 벤치마크를 풀게 한 결과, M1 데이터를 학습한 모델의 ARC 점수는 74.9점에서 57.2점으로, RULER 점수는 84.4점에서 52.3점으로 급락했다. M2 데이터를 학습한 모델 역시 비슷한 수준의 성능 저하를 보였다.
이 같은 인지능력 저하 외에 성격적 왜곡도 관찰됐다. 저품질 데이터로 학습한 모델은 자기애와 반사회적 성향이 강화된 반면, 친화성과 성실성은 감소했다. 연구진은 “AI가 특정 언어 패턴에 지속 노출되면 그 언어의 정서 구조와 가치 판단을 그대로 내면화한다”면서 “인간이 자극적 콘텐츠를 과소비하며 공감 능력이 둔화되는 과정과 유사하다”고 설명했다. 실제로 연구진은 AI의 반응에서 부정적 언어 비율이 증가하고, 감정적 표현이 과장되는 양상을 확인했다.
고품질 텍스트로 교정 학습을 시도했으나, 손상된 인지능력은 복원되지 않았다. 논문은 “브레인 로트 효과는 모델 내부의 언어 표현 계층에 깊숙이 새겨져 단순 재조정으로는 회복이 어렵다”고 분석했다. 이는 지난해 옥스퍼드대가 제시한 ‘모델 붕괴(model collapse)’ 개념과도 맞닿아 있다. 저품질 혹은 AI 생성 데이터가 재학습될 경우, 언어모델은 점차 인간의 사고 체계를 반영하지 못한 채 ‘자기 언어만 이해하는 폐쇄적 시스템’으로 변질된다. 연구진은 “데이터의 양보다 질을 우선시하고, 정기적인 ‘인지 건강 검진(cognitive health check)’을 시행해야 한다”고 경고했다.

짜깁기·베끼기형 콘텐츠 확산
이러한 경고는 생성형 AI의 확산 초기부터 제기돼 온 AI 슬롭 우려가 현실로 나타나고 있음을 보여준다. 슬롭은 돼지 사료 찌꺼기를 뜻하는 단어에서 비롯된 신조어로, AI가 대량으로 만들어내는 조잡한 콘텐츠를 지칭한다. 처음에는 단순한 품질 저하로 여겨졌지만, 최근에는 인터넷 전반의 신뢰 체계를 무너뜨리는 요인으로 지목된다. AI가 만들어낸 저품질 텍스트·이미지·영상이 별도의 사실 검증 없이 온라인 공간을 점령하며 인간의 창의적 콘텐츠를 밀어내면서다. SNS에는 조회수를 노린 자극적 게시물이 무한히 복제되고, 온라인 서점에는 제목과 문장만 바꾼 전자책이 쏟아지는 식이다.
최근에는 학술 영역에서도 유사한 현상이 포착된다. LLM을 활용해 작성된 논문이 증가하면서 특정 단어의 빈도가 비정상적으로 높아지는 등 데이터 왜곡 조짐이 관찰된 것이다. 심지어 일부 연구자는 논문 파일 내에 보이지 않는 글씨로 “긍정적으로 평가하라” 같은 문구를 기재해 AI 기반 심사 시스템을 조작하려 한 사례까지 보고됐다. 이는 단순한 부정행위를 넘어 인류가 오랜 기간 축적해 온 지식 체계의 신뢰성을 근본적으로 위협하는 행위로 지적된다. 진위 구별이 불가능한 ‘AI 논문’이 늘어나면서 과학적 진실성 자체 또한 붕괴될 위험이 커지는 실정이다.
생성형 AI 콘텐츠는 생산 단가가 거의 ‘제로(0)’에 수렴한다는 점에서 인간의 시간과 노력을 요구하는 창작물과의 경쟁 구도에서 심각한 불균형을 만든다. 나아가 저품질 콘텐츠가 다시 학습 데이터로 투입되면서 AI가 스스로 왜곡된 정보를 재생산하는 악순환에 갇혔단 비관적 진단마저 이어진다. AI 이용자들은 물론 일반 네티즌마저 깊이 있는 정보를 찾기 어려워지고, 허위 콘텐츠와 편향된 주장에 휩쓸리기 쉬운 환경이 만들어진 것이다. 생성형 AI가 인터넷의 신뢰 기반을 잠식하면서 온라인 세상은 점차 현실을 반영하지 못하는 ‘거짓된 지식의 생태계’로 변모했다는 게 전문가들의 일관된 시각이다.
인간 중심 검증 체계 필요성↑
AI 기술이 발전하고 활용 분야가 광범위해질수록 인간의 개입이 필수적이라는 주장이 힘을 얻는 이유도 여기에 있다. 정보의 신뢰성과 품질이 인류 지식체계의 근간을 이루는 만큼 AI가 생산한 결과물은 반드시 인간의 검증을 거쳐야 한다는 지적이다. IT 전문 매체 기가진(GIGAZINE)은 “AI 기반 콘텐츠의 80%는 사실관계가 일치했지만 나머지 20%는 출처가 불명확하거나 존재하지 않는 허위 정보”라고 진단한 바 있다. 이 같은 구조에서는 인간의 검수 없이 생산·배포되는 데이터가 늘어날수록 인터넷의 신뢰 체계 또한 크게 훼손될 수밖에 없다.
유튜브 교육 채널 ‘커지저트(Kurzgesagt)’도 최근 영상을 통해 “AI가 만들어낸 저품질 정보가 결국 인터넷의 신뢰 체계를 무너뜨릴 것”이라고 비판했다. 해당 영상은 게시 후 이틀 만에 600만 회 이상 조회되며 큰 파장을 일으켰다. 제작진은 “한 편의 영상에 최소 100시간 이상의 검증과 피드백 절차를 거치는데, AI를 보조 도구로 활용한 실험에서는 출처가 불명확한 정보가 반복적으로 등장했다”면서 “이 과정에서 AI가 사실을 더 흥미롭게 만들기 위해 일부 내용을 꾸며내기까지 했다”고 꼬집었다. 그러면서 “올해만 해도 벌써 1,200개 이상의 웹사이트가 AI 생성 기사나 허위 스토리를 게시했다”고 일갈했다.
이 같은 현실은 인간의 역할을 강화하는 방향으로 귀결된다. AI가 작성한 초안을 인간이 다듬는 ‘하이브리드 콘텐츠’가 새로운 표준으로 부상한 것이다. 일례로 미국 앤스로픽은 자사 LLM ‘클로드(Claude)’를 활용한 기술 블로그에서 AI가 초안을 작성하고, 개발자가 실제 경험과 해설을 추가하는 방식을 도입했다. 앤스로픽은 이 협업 구조를 통해 불과 2주 만에 135개의 기술 문서를 게시할 수 있었고, 품질 유지와 효율성 측면에서도 긍정적인 평가를 받았다. 이러한 움직임은 단순 자동화를 넘어 인간의 의미 판단을 기반으로 콘텐츠의 진정성과 신뢰를 복원하려는 시도로 읽힌다.
다만 인간의 개입이 강화된 후에도 과제는 남는다. 전문가들은 하이브리드 콘텐츠의 생산 과정이 명확히 제시되지 않으면, 독자들이 이를 순수한 인간 창작물로 인식할 수 있다고 입을 모았다. 이는 다시 신뢰의 문제로 이어진다. 기술 발전이 아무리 빠르더라도 ‘경험 기반의 진정성’이 결여되면 콘텐츠 생태계는 공허해질 수밖에 없으며, 실제 경험과 감정이 배제된 채 생산되는 문장은 더 이상 지식의 축적이 아닌 모방에 가깝다는 지적이다. 결국 AI 시대의 품질 통제 핵심은 단순한 알고리즘 개선을 넘어 인간의 해석력과 판단력, 그리고 책임 있는 검증 체계를 얼마나 견고히 구축하느냐에 달린 셈이다.