"엔비디아, 해적판 도서 데이터로 AI 학습" 격화하는 AI 저작권 분쟁, 판단 기준은 국가마다 '천차만별'
"엔비디아, 해적판 도서 데이터로 AI 학습" 격화하는 AI 저작권 분쟁, 판단 기준은 국가마다 '천차만별'
입력
수정
"불법 복제 도서 데이터 AI에 활용" 엔비디아 저작권 침해 의혹 생성형 AI 학습 둘러싼 저작권 소송 사례, 전 세계서 누적 국가별 규제 격차 뚜렷, 美·日·EU 등은 완화 행보

엔비디아 이사회가 세계 최대 불법 복제 도서 데이터베이스를 인공지능(AI) 학습에 활용하는 방안을 승인했다는 의혹이 제기됐다. 생성형 AI 시장이 급성장하는 가운데, AI 학습을 둘러싼 저작권 분쟁 사례가 꾸준히 누적되는 양상이다. 다만 관련 사안에 대한 판단 기준 및 규제 수위가 국가별로 상이한 만큼, 한동안 시장의 혼란은 사그라지지 않을 것으로 전망된다.
엔비디아, AI 학습에 불법 데이터 이용했다?
20일(현지시간) 일본 IT 매체 기가진은 엔비디아를 둘러싼 집단소송 과정에서 공개된 수정 소장을 인용, 엔비디아 내부 팀이 'Anna’s Archive'와 직접 협의에 나섰다는 주장이 제기됐다고 보도했다. Anna’s Archive는 자사를 '인류 역사상 최대 규모의 쉐도우 라이브러리'라고 소개하는 해적판 도서 사이트다. 소장에는 엔비디아가 AI 학습에 필요한 대규모 텍스트 데이터를 확보하기 위해 이 사이트를 통해 불법 도서를 수집하려 했다는 내용이 적시됐다.
이번 논란은 엔비디아가 지난 2024년 AI 모델 훈련에 해적판 도서 데이터셋 '북3(Book3)'를 사용했다는 이유로 여러 작가로부터 소송을 당하면서 불거졌다. 당시 엔비디아는 "책은 AI 모델에게 확률적 상관관계에 불과하며, 학습 목적의 사용은 공정 이용에 해당한다"고 주장했다. 그러나 원고 측은 "엔비디아가 치열한 AI 경쟁 속에서 데이터 확보를 위해 저작권을 의도적으로 침해했다"며 강하게 반발했고, 이번 소장 수정을 통해 엔비디아가 Anna’s Archive 측과 접촉해 AI 전처리용 데이터 확보 방안을 논의했다는 주장을 추가로 제기했다.
Anna’s Archive는 엔비디아에 "고속 접근 권한 제공을 위해서는 수만 달러의 비용이 필요하다"고 답변한 것으로 전해졌다. 원고 측은 엔비디아가 해당 데이터가 불법적으로 수집된 것임을 인지하고 있었음에도 불구, 내부 승인 절차를 거쳐 최대 500TB(테라바이트) 규모의 데이터를 확보하려 했다고 주장했다. 또한 소장에는 엔비디아가 단순히 내부 학습에 데이터를 활용한 수준을 넘어, 고객들이 북3가 포함된 대형 데이터 세트 '더 파일(The Pile)'을 자동으로 다운로드할 수 있도록 스크립트와 관련 도구까지 제공했다는 내용도 담겼다.
AI 관련 저작권 분쟁 급증
AI 기업의 저작권 침해 논란은 이전부터 꾸준히 누적돼 왔다. 일례로 뉴욕타임스(NYT)와 다우존스, 지프 데이비스 등 유력 미디어 그룹들은 "오픈AI가 우리의 기사를 무단으로 학습해 챗GPT가 기사 내용을 그대로 읊거나 요약하고 있다"며 오픈AI를 상대로 저작권 침해 소송을 제기했다. AI 검색 엔진 기업 퍼플렉시티도 지난달 NYT로부터 같은 이유로 소송을 당했고, 일본 요미우리·아사히신문 역시 퍼플렉시티에 같은 취지로 소송을 낸 것으로 알려졌다.
예술 분야에서도 저작권 분쟁이 다수 발생하고 있다. 이미지 AI 스타트업 미드저니는 디즈니와 유니버설, 워너브라더스 등 거대 스튜디오로부터 상징적인 캐릭터 아이콘을 무단으로 학습해 유사한 이미지를 생성한다는 이유로 소송을 당했다. 영국에서는 게티이미지가 자사 이미지가 허락 없이 스테이블 디퓨전(Stable Diffusion) 학습에 사용됐다는 이유로 스태빌리티 AI(Stability AI)를 상대로 저작권 침해 소송을 제기하기도 했다. 생성형 AI '클로드' 개발사 앤스로픽은 지난해 9월 AI 학습용 데이터 관련 저작권 침해 소송에서 창작자들에게 최소 15억 달러(약 2조원)를 배상하기로 합의했다.
독일 음악 저작권 수집조합 제마(GEMA)도 오픈AI가 라이선스 계약이나 사용료 지급 없이 독일 노래 가사를 학습 데이터로 활용했다며 소송을 냈다. 오픈AI는 노래 가사를 이용한 훈련이 순차적 분석이자 반복적 확률의 조합이라며 협회가 챗GPT 작동 방식을 오해했다고 주장했으나, 재판부는 오픈AI가 허락 없이 가사를 저장하고 필요할 때 그대로 출력한 것은 무단 복제와 재생에 해당한다며 협회의 손을 들어줬다. 아울러 오픈AI에 해당 가사를 저장하거나 챗봇 답변으로 출력하지 않을 것을 명령하고, 손해배상과 함께 가사를 사용한 내역, 이를 통해 발생한 수익을 공개하라고 지시했다.

주요국의 완화적 노선
다만 미국 등 일부 국가에서는 저작물을 명시적 동의 없이 AI 학습에 이용하는 행위가 ‘공정 이용’에 해당한다는 판결도 누적되고 있는 상황이다. 공정 이용은 저작권으로 보호되는 저작물을 창작자 허가 없이 제한적으로 이용할 수 있도록 허용하는 미국 저작권법상의 개념으로, 기술 기업들의 핵심적인 법적 방어 수단이다. 관련 판례를 살펴보면, 앞서 작가 안드레아 바르츠 등 3명은 앤스로픽을 상대로 저작권 침해 집단소송을 제기했다. 이들은 앤스로픽이 불법 복제 전자책 사이트를 통해 수백만 권의 저작물을 무단 수집했으며, 이를 자사 AI 모델에 학습시켜 수익을 창출함으로써 창작자의 권리를 침해했다고 주장했다.
이 사건을 담당한 샌프란시스코 연방 법원의 윌리엄 앨섭 판사는 두 쟁점을 분리해 판단했다. 그는 앤스로픽이 디지털 중앙 도서관을 구축하기 위해 700만 권 이상의 책을 불법 다운로드한 행위는 저작권 침해에 해당한다고 봤으나, AI가 저작권이 있는 책들을 무단으로 학습한 행위 자체는 “지극히 변형적”이라며 공정 이용에 해당한다고 봤다. 같은 달 동일 법원의 빈스 차브리아 판사 역시 메타를 둘러싼 저작권 소송에서 유사한 판결을 내놨다. 원고 측 13명의 작가는 메타가 자신들의 저작물을 AI 모델 라마에 무단 학습시켰다며 시장 가치 침해를 주장했으나, 차브리아 판사는 AI 학습이 매우 변형적인 성격을 띤다며 저작권 침해에 해당하지 않는다고 판단했다. 공정 이용이 빅테크에 유리한 방향으로 해석된 판례가 쌓이며 창작자의 지식재산권이 상대적으로 약화하기 시작한 것이다.
이 같은 완화적 흐름은 미국을 넘어 여타 주요국에서도 감지된다. 일본은 2018년 저작권법 개정으로 저작권자의 이익을 부당하게 침해하지 않는 한 적법하게 접근 가능한 저작물에 대해 면책을 인정하고 있으며, 싱가포르는 공정 이용 조항을 둠과 동시에 컴퓨터 데이터 분석과 그 준비 작업을 위한 저작물 이용을 저작권 침해로 보지 않는 별도 예외 규정을 도입했다. 첨단 산업 분야에서 엄격한 규제를 앞세워 온 유럽연합(EU)도 합법적으로 접근할 수 있는 저작물에 대해 상업적 목적의 TDM(텍스트 앤 데이터 마이닝)을 허용 중이다. 지난해 11월에는 ‘디지털 옴니버스 패키지 법안’을 통해 개인정보 처리 규정을 명확히 하는 한편, AI 편향성 교정 등 제한된 경우에 한해 민감 정보 활용 규제를 일부 완화하는 방안을 제시하기도 했다.