“AI 학습에 공짜는 없다” 레딧, 데이터 자산화 연장선에서 앤스로픽 고소

Picture

Member for

1 year 7 months

Real name

안현정

Position

기자

Bio

정보 범람의 시대를 함께 헤쳐 나갈 동반자로서 꼭 필요한 정보, 거짓 없는 정보만을 전하기 위해 노력하겠습니다. 오늘을 사는 모든 분을 응원합니다.

입력

2025-06-05 14:24

수정

2025-12-30 12:29

‘데이터 무임승차’에 문제 제기
오픈AI 등 합법적 거래 모델 존재
API 유료화 및 라이선스 전쟁 서막

미국 최대 온라인 커뮤니티 레딧이 인공지능(AI) 기업 앤스로픽을 상대로 데이터 무단 수집 혐의로 소송을 제기하며 AI 산업의 데이터 사용 관행에 경종을 울렸다. 같은 데이터에 대해 오픈AI는 정식 계약을 체결해 사용료를 지불한 반면, 앤트로픽은 API를 우회한 대량 크롤링으로 학습 데이터를 확보했단 지적이다. 레딧은 이미 API 유료화를 선언하고 플랫폼 자산 보호에 나선 상태로, 이번 소송은 AI 시대의 데이터 질서를 본격 재편하는 신호탄이 될 전망이다.

API 우회 문제, ‘플랫폼 자산 침해’로 간주

4일(이하 현지시각) 미 경제매체 CNBC에 따르면 레딧은 이날 샌프란시스코 연방법원에 “앤스로픽이 사용자 동의 없이 자사 플랫폼의 데이터를 무단으로 수집해 AI 모델 학습에 활용했으며, 이는 상업적 이익을 위한 불법적인 행위”라는 내용의 소장을 제출했다. 레딧은 이번 소송을 통해 앤트로픽이 계약 및 법적 의무를 준수하도록 강제하고, 손해배상을 청구할 계획인 것으로 전해졌다.

레딧은 앤스로픽이 사용자 생성 콘텐츠(UGC)를 플랫폼 외부로 가져가 상업적으로 재활용한 방식을 문제 삼았다. 이 과정에서 API를 통하지 않고 우회적 방식으로 데이터를 수집했을 가능성이 농후하다는 지적이다. 수년간 쌓여온 수억 건의 게시글과 댓글은 레딧의 핵심 경쟁력과도 같은 만큼 이들 데이터가 AI 모델 학습에 쓰일 경우, 실제 플랫폼의 가치 자체가 외부로 무단 이전되는 것과 같다는 게 레딧의 주장이다.

API(Application Programming Interface)는 외부 서비스가 특정 플랫폼의 데이터를 체계적으로 요청·수신할 수 있도록 하는 통신 인터페이스를 의미한다. 과거에는 개발자 친화 정책으로 무료 제공되는 경우가 주를 이뤘지만, 2010년대 후반부터 AI 산업이 본격화하면서 플랫폼 입장에서는 데이터 제공이 곧 수익으로 연결되는 상황이 만들어졌다. 이번 사안을 두고 업계에서 “앤스로픽의 ‘기술적 무단 침입’ 또는 ‘플랫폼 자산 무임승차’에 가깝다”는 비판의 목소리가 나오는 배경이다.

사용자 생성 콘텐츠 상업적 가치 재평가

레딧이 앤스로픽을 고소하면서 주목받는 또 다른 지점은 이미 몇몇 AI 기업은 정식 계약을 통해 데이터를 유료로 확보하고 있다는 사실이다. 대표적인 사례로는 오픈AI를 꼽을 수 있다. 레딧은 지난해 5월 오픈AI와 데이터 판매 계약을 체결하고, 이를 기반으로 자사의 수많은 게시물과 댓글을 GPT 모델 학습에 활용할 수 있도록 했다. 동시에 오픈AI도 레딧 사용자들을 위한 AI 기능을 제공하고, 광고를 지원했다.

이보다 앞선 같은 해 2월에는 구글과 데이터 제공 파트너십을 맺기도 했다. 당시 스티브 허프먼 레딧 최고 경영자(CEO)는 “세상에 존재하는 모든 주제에 대한 실제적이고 시의적절하며 관련성 있는 인간 대화의 방대하고 타의 추종을 불허하는 레딧의 아카이브는 검색, AI 교육, 연구 등 다양한 목적에 매우 귀중한 데이터 세트”라고 강조했다. 실제 레딧이 증권거래소에 제출한 자료에 의하면 지난해 12월 레딧의 일평균 방문자는 7,600만 명에 달한다.

레딧이 구글·오픈AI와 맺은 계약은 단순한 API 호출이나 일회성 데이터 판매 이상의 무게를 가진다. 레딧이 이들 회사와 거래하며 작성한 계약서에는 △트래픽 관리 △서버 리소스 점유 △데이터 필터링 기준 △사용자 프라이버시 보호 등이 포함됐으며, 사실상 ‘데이터 유통 계약’이라는 새로운 시장의 영역을 형성하고 있다. 이는 향후 여타 기업과의 협상에 있어서도 이들 계약 모델이 기준이 될 수 있음을 시사한다.

AI가 탐내는 ‘텍스트 금광’ 레딧의 가치

이처럼 AI 기업들이 적잖은 비용을 지불하면서까지 레딧의 데이터를 확보하는 데는 데이터의 품질이 대체 불가능하다는 판단이 깔려 있다. 레딧은 수만 개의 전문 관심사 커뮤니티가 활성화된 구조로, 토론 중심의 긴 글과 의견의 상충, 맥락이 살아 있는 표현이 풍부하다. 이러한 특성은 단순 뉴스 기사나 블로그 게시물과 달리 자연스러운 문장 구조와 실사용자 언어 패턴이 풍부하게 담겨 있어 대형언어모델(LLM)의 학습에 매우 효과적인 것으로 평가된다.

이렇듯 AI 학습에 최적화된 구조를 가진 플랫폼이 전무한 만큼 레딧 또한 자사의 데이터를 단순한 콘텐츠가 아니라 ‘프리미엄 데이터셋’으로 간주한다. 레딧은 2023년부터 API 접근 정책을 전면 수정해 상업적 목적의 사용에 대해 별도의 요금을 부과하기 시작했고, 지난해 초에는 AI 모델 개발 기업들과의 협상에서 ‘데이터 품질’과 ‘시의성’ 등을 내세우며 프리미엄 라이선스 모델까지 도입했다. 그간 AI업계에 만연했던 무료 데이터 채굴 관행을 끝내겠다는 의지로 해석된다.

이 같은 추세는 향후 콘텐츠 플랫폼 전반으로 확산될 공산이 크다. 이미 X(옛 트위터), 링크드인, 스택오버플로 등이 유사한 정책 변경을 단행하거나 예고한 바 있으며, 이들은 공통적으로 “서버 자원 낭비와 사용자 경험 훼손, 비인가 AI 학습” 등을 유료화의 명분으로 삼고 있다. AI 기업들이 데이터 확보를 위한 전략을 바꾸지 않는 한, 레딧·앤스로픽과 같은 법적 분쟁은 계속 반복될 것이란 전망이 나오는 이유도 여기에 있다. 과거에는 일정 수준 이상의 기술력과 있으면 누구나 AI 모델을 개발할 수 있었지만, 이제는 ‘누가 어떤 방식으로 합법적인 데이터를 확보하는가’가 기술 경쟁력의 핵심이 되고 있다는 게 업계 전반의 관측이다.

Picture