“中 무단 베끼기 막아라” 경쟁하던 美 AI 거인들, 이례적 ‘연합전선’
“中 무단 베끼기 막아라” 경쟁하던 美 AI 거인들, 이례적 ‘연합전선’
입력
수정
中, 머신러닝 기법 '디스틸레이션' 악용 수백만 건 대화 유도로 데이터 대량 확보 “美 AI 가격 경쟁력 압박·국가 안보에 위협”

미국 주요 인공지능(AI) 기업들이 중국 경쟁사들의 모델 모방 시도에 대응하기 위해 이례적인 공조에 나섰다. 저비용으로 고성능 모델을 재현하는 기술이 산업 경쟁력과 국가 안보를 동시에 위협하는 변수로 부상했기 때문이다. 특히 중국 기업들이 대규모 질의와 계정 조작을 통해 핵심 역량을 추출하는 정황이 드러나면서, AI 기술 유출을 둘러싼 갈등은 기술 주권과 군사·정보 체계로까지 확산되는 양상이다.
오픈AI·구글·앤스로픽, 정보 공유 통해 대응 강화
6일(현지시간) 블룸버그통신에 따르면 오픈AI, 앤스로픽, 구글 등은 ‘프런티어 모델 포럼’을 통해 정보를 공유하며, 미국 AI 모델의 결과를 추출해 유사 모델을 만드는 ‘적대적 디스틸레이션(distillation·증류)’ 시도를 탐지하고 있다. 이번 협력은 경쟁 관계에 있는 기업들이 공동 대응에 나섰다는 점에서 이례적이다. 미국 AI 기업들은 특히 중국을 중심으로 자사 모델을 모방한 저가 제품이 확산될 경우, 가격 경쟁력 약화와 고객 이탈뿐 아니라 국가 안보 리스크로 이어질 수 있다고 우려하고 있다.
디스틸레이션은 기존 AI 모델을 활용해 성능이 유사한 새로운 모델을 저비용으로 만드는 기술이다. 이 아이디어는 2015년 ‘AI의 대부’로 불리는 제프리 힌튼(Geoffrey Hinton)의 논문에서 처음 제시됐다. 당시 연구자들은 여러 모델을 묶어 사용하는 ‘앙상블(ensemble)’ 기법을 통해 성능을 높였지만, 이를 동시에 운영하는 것은 매우 비효율적이었다. 이에 힌튼과 연구진은 앙상블이 가진 지식을 하나의 모델로 옮길 수 있다면 훨씬 효율적일 수 있다고 봤다.
실제 디스틸레이션 기법을 적용한 결과 그래픽처리장치(GPU) 사용량은 최대 90%까지 줄일 수 있는 것으로 나타났다. 또 응답 지연이 감소하고, 엣지·모바일 환경에서도 동작이 가능하다는 이점이 있다. 다만 기업이 자체 모델을 경량화하는 등 내부 효율화를 위해 디스틸레이션을 활용하는 경우는 일반적으로 허용되지만, 제3자가 승인 없이 타사의 모델 결과를 활용해 유사 모델을 만드는 경우는 논란이 되고 있다. 오픈AI는 서비스 약관에 같은 시장에서 경쟁할 기술을 만들어내기 위해 오픈AI의 시스템이 생성해 낸 데이터를 사용하지 못한다고 명시하고 있다.
오픈AI는 블룸버그에 프런티어 모델 포럼을 통한 적대적 디스틸레이션 관련 정보 공유에 참여하고 있다고 설명했다. 아울러 최근 미 하원 중국특별위원회(U.S. House Select Committee on China)에 보낸 메모를 언급하며 중국 기업 딥시크(DeepSeek)가 오픈AI와 다른 미국 최첨단 AI 연구소들이 개발한 역량에 '무임승차(free-ride)하려 한다'고 비판했다. 미국 정부는 무단 디스틸레이션으로 인해 실리콘밸리 기업들이 연간 수십억 달러 규모의 손실을 입고 있는 것으로 추산하고 있다.
1,600만 번 도둑질로 AI 기술 복제
업계에서 디스틸레이션 논란이 본격화한 건 지난해 초 딥시크가 R1 추론 모델을 공개하면서부터다. 당시 R1은 글로벌 AI 시장에 큰 충격을 주며 미국 기업들의 경계심을 키웠다. 베일에 숨겨져 있던 스타트업이 미국 빅테크의 제품과 맞먹는 성능을 보여주면서도, 컴퓨팅 자원과 비용은 극히 일부에 불과했기 때문이다. 그 중심에 있었던 것이 바로 디스틸레이션 기법이다. 이후 마이크로소프트(MS)와 오픈AI는 딥시크가 자사 모델에서 데이터를 부정하게 추출했는지 조사에 착수했으며, 오픈AI는 딥시크가 디스틸레이션을 활용해 후속 모델을 개발하고 있다고 의회에 보고했다.
존 물레나르 하원 중국위원회 공화당 위원장은 “훔치고, 베끼고, 제거하는 행위는 중국 공산당의 전형적인 수법”이라며 “중국 기업들은 계속해서 미국 AI 모델을 추출하고 자신들의 이익을 위해 악용할 것”이라고 비난했다. 앞서 데이비드 색스 백악관 과학기술자문위원장도 지난해 언론 인터뷰에서 딥시크가 오픈AI 등 미국 AI 모델에서 무단 추출했다는 증거가 있다고 언급한 바 있다.
지난 2월에는 앤스로픽이 자사 대형언어모델 ‘Claude(클로드)’의 핵심 역량을 무단으로 빼내려는 대규모 디스틸레이션을 적발하기도 했다. 앤스로픽에 따르면 딥시크를 비롯해, 문샷 AI(Moonshot AI), 미니맥스(MiniMax) 등 중국 AI 기업들은 약 2만4,000개의 허위 계정을 동원해 1,600만 건이 넘는 질의를 생성하며 클로드의 차별화된 기능을 체계적으로 추출하려 한 것으로 파악됐다. 앤스로픽 측은 “이번 활동은 정상 사용 패턴과 명확히 구분되는 반복적·대량·표적화된 구조를 보였다”고 밝혔다.
세 기업은 공통적으로 ‘추론(reasoning)’, ‘도구 활용’, ‘코딩’ 등 클로드의 핵심 기능을 집중적으로 노렸으며, 반복적이고 대규모 패턴의 질의로 데이터를 수집했다. 딥시크는 클로드가 답변 과정에서 내부 사고 과정을 단계별로 기술하도록 유도해 ‘연쇄 사고(chain-of-thought)’ 데이터를 대량 확보하려 했고, 문샷AI는 수백 개의 위조 계정을 통해 도구 사용과 컴퓨터 비전, 데이터 분석 기능을 추출하려 했다. 미니맥스는 1,300만 회 이상 요청을 보내 자사 모델 학습에 필요한 코딩 및 조정 데이터를 확보한 것으로 드러났다.

안전장치 제거된 모델 확산 땐 국가안보·수출통제 체계 흔들
미국 AI 기업들은 디스틸레이션으로 만들어진 모델이 원 모델의 안전장치(가드레일)를 온전히 계승하지 못할 가능성을 크게 우려하고 있다. 미국 기업들은 생물학·화학 무기 설계, 악성 사이버 활동, 대규모 사기·허위정보 조장 등 고위험 사용을 차단하도록 모델을 설계·튜닝하고 있으나, 무단 추출 모델은 이런 보호층이 약화될 수 있다는 설명이다.
특히 중국 AI 기업이 이렇게 확보한 역량을 군사·정보·감시 시스템에 통합할 경우, 공격적 사이버 작전이나 대규모 감시·검열 체계 고도화로 이어질 수 있다고 경고했다. 나아가 다른 모델의 성능을 베껴 학습한 모델(Distilled models)이 오픈소스로 공개되면 통제 범위를 벗어나 위험 역량이 광범위하게 확산될 수 있다는 점도 지적했다.
디스틸레이션뿐만 아니라 중국 AI 기업들이 주로 채택하는 '오픈 웨이트(open weight)' 방식도 논란이 되고 있다. 오픈 웨이트는 완전한 오픈소스는 아니지만, AI가 학습 과정에서 습득하고 조정된 수치를 공개해 개발자들이 맞춤화할 수 있도록 하는 모델을 말한다. 딥시크의 R1과 알리바바의 '큐원(Qwen)'이 대표적이다.
이는 미국 기업들의 폐쇄형 모델 전략과 정면 충돌한다. 미국 기업들은 모델을 비공개로 유지하고, 애플리케이션 프로그래밍 인터페이스(API)를 통해서만 접근하도록 하는 방식을 취하고 있다. API는 외부 개발자가 특정 프로그램이나 서비스를 사용할 수 있도록 연결해주는 통로로, 사용량에 따라 비용을 지불하는 구조다. 이를 통해 데이터센터 등 막대한 인프라 투자 비용을 회수해야 하는 미국 기업 입장에서는 가격 경쟁력에서 밀릴 수밖에 없는 상황이다.