Skip to main content
세계 AI 시장 흔든 ‘가성비' 딥시크, R1 개발 비용 두고 설왕설래
Picture

Member for

3 months 2 weeks
Real name
이동진
Position
기자
Bio
[email protected]
흑백의 세상에서 회색지대를 찾고 있습니다. 산업 현장을 취재한 경험을 통해 IT 기업들의 현재와 그 속에 담길 한국의 미래를 전하겠습니다.

수정

R1, 저사양 AI칩과 GPT-4 대비 5% 개발비로 주목
"적은 비용으로 빅테크 AI 모델과 유사한 성능 달성"
딥시크가 흔든 패러다임, 하드웨어에서 소프트웨어로
딥시크 4년간 서버 투자 비용 추정치, 하드웨어 구입 및 운영에 25억7,300만 달러가 들어갔다/출처=세미애널리시스

낮은 개발 비용으로 전 세계 테크업계를 강타한 중국 딥시크의 인공지능(AI) 모델 개발 비용이 당초 알려진 것보다 100배 가까이 더 들었을 것이라는 분석이 나왔다. 반도체를 확보해 컴퓨팅 연산 능력을 구축하고, 데이터를 가공하는 한편 회사를 운영하는 비용 등을 모두 더하면 딥시크 역시 미국 빅테크와 맞먹는 정도의 돈을 AI에 투자했을 것이란 지적이다.

中 딥시크의 'AI 모델' 개발비, 5억 달러 이상 추정

2일(현지시간) CNBC에 따르면 반도체컨설팅업체 세미애널리시스는 보고서를 통해 딥시크가 AI 개발에 필요한 하드웨어 지출이 "5억 달러 보다 훨씬 높을 것"이라고 추정했다. 세미애널리시스는 딥시크가 AI 모델 학습을 위해 합성 데이터 생성 등 "상당한 양의 컴퓨팅이 필요했을 것"이라고 지적했다.

당초 딥시크는 엔비디아의 최첨단 AI가속기인 H100 대신 성능을 다운그레이드한 H800을 사용해 개발한 자사 최신 AI 모델에 투입한 비용은 557만6,000달러(약 82억원)이라고 밝혔다. 이는 엔비디아의 최신 GPU(그래픽처리장치)를 사용한 오픈AI가 생성형 AI 챗GPT에 들인 비용 1억 달러(약 1,469억원)의 20분의 1 수준이었다.

하지만 세미애널리시스는 여기에 딥시크의 모 회사인 하이-플라이어 퀀텀이 지속적으로 GPU에 투자한 비용이 빠졌다고 지적했다. 하이-플라이어 퀀텀은 지난 2021년 엔비디아 A100 GPU 1만 개를 구입했다. 이는 미국의 대중국 수출 통제가 시작되기 이전으로, 당시 A100은 최고 성능을 가진 칩이었다. H100은 이듬해인 2022년 출시됐다.

또 H800으로 모델을 훈련했다고 밝혔지만, 세미애널리시스는 H800 1만 대는 물론 중국 수출이 금지된 H100 1만 대와 현재 중국 주력 수출 칩인 H20 등 총 5만 장에 달하는 다양한 엔비디아 호퍼 칩에 접근이 가능했을 것으로 봤다. 실제로 딥시크는 구인 광고에서 사용 제한 없이 1만 개의 GPU를 사용할 수 있다고 자랑한 바 있다. 이처럼 딥시크가 서버에 투자한 누적 비용은 16억2,900만 달러(약 2조3,900억원)에 달하며, 이를 운영하는 데는 9억4,400만 달러가 든다고 밝혔다.

아울러 모델 개발을 위한 아키텍처 개발에 대한 비용도 빠졌다고 지적했다. 예를 들어 V3의 핵심 기술 요소인 '멀티헤드 잠재 어텐션(MLA)' 기술은 개발하는 데 몇 달이나 걸렸고 여기에 들어간 인력과 GPU도 상당하다는 것이다. 따라서 딥시크가 밝힌 557만 달러는 단순히 모델의 사전 훈련에 들어간 비용을 의미하며, 이는 모델 개발 중 일부에 불과하다고 강조했다. GPU 도입 및 업그레이드, 유지 보수, R&D(연구개발), 인건비와 같은 중요한 부분이 모두 빠져있으며 이를 모두 합치면 5억 달러 이상이 들었다는 결론이다.

사진=딥시크 홈페이지

소수의 엔비디아 칩으로 강력한 AI 모델 구축

다만 AI 전문가들은 딥시크가 비교적 적은 수준의 비용으로 추론 우위를 따라잡았다는 점에서는 인상적이라고 입을 모은다. AI 개발에 거대 하드웨어 자원이 필수라는 기존 관념을 뒤엎었다는 평이다.

전 세계 IT업계가 딥시크에 주목한 건 지난달 20일부터다. 이날 딥시크는 지난해 12월 출시한 거대언어모델(LLM) V3를 기반으로 한 추론 특화 모델 R1을 공개했다. 딥시크는 R1이 AI 모델 성능을 평가하는 일부 항목에서 오픈AI 'o1'과 비슷한 성적표를 거뒀다고 밝혔다. 미국 수학경시대회(AIME) 문제로 모델을 평가한 결과 o1이 79.2%의 정답률을 기록한 반면 R1은 79.8%로 살짝 앞섰다.

전문가들은 딥시크가 적은 개발 비용으로 고성능을 낼 수 있었던 데는 '전문가 혼합(MoE·Mixture of Experts)' 아키텍처가 큰 역할을 한 것으로 보고 있다. MoE는 주어진 질문에 답하기 위해 모든 AI 모델이 투입되는 기존 메커니즘과 달리 특정 작업에 필요한 모델만 활성화하는 기술을 말한다. 딥시크가 공개한 기술보고서에 따르면 R1의 파라미터(매개변수)는 6,710억 개인 반면 작업 시에는 340억 개만 선별적으로 활성화하도록 설계됐다. 모든 매개변수를 사용하지 않으니 메모리 사용량도 적게 들 수밖에 없다는 게 전문가들 분석이다.

또 딥시크가 오픈소스 형태로 모델을 공개한 점도 눈여겨볼 대목이다. AI 혁신을 이끈 오픈AI가 자사 AI 모델을 유료 형태로 특정 기업에만 제공하는 것과 상반되는 행보로, 누구나 일정 기준 이상의 성능을 구현할 AI 칩만 있으면 오픈AI 최신 모델에 버금가는 AI 모델을 사용할 수 있다는 의미다. 이처럼 딥시크는 AI 산업이 반드시 거대 자본을 필요로 하지 않을 수도 있다는 점, 누구나 고성능 AI 모델로 서비스를 개발해 돈을 벌 수 있다는 기대를 불어넣으면서 글로벌 IT업계에 큰 충격을 주고 있다.

하드웨에서 소프트웨어로 무게 중심 이동

이에 개발 패러다임도 확 바뀔 전망이다. 글로벌 투자은행(IB) BMO캐피털마켓츠와 캐너코드제뉴이티는 각각 별도의 분석 노트에서 딥시크가 뒤흔든 미 기술주 판의 최대 수혜 종목은 소프트웨어 종목들이 될 것으로 전망했다. 캐너코드 애널리스트 킹슬리 크레인은 지난달 27일 딥시크 충격을 소프트웨어 종목들에는 ‘분수령 모멘트’라고 평가했다. 크레인은 “지금까지 AI는 일 처리 능력이 정교한 것보다는 대규모 자본 지출이 더 중요한 것으로 간주돼 왔다”면서 딥시크가 이런 패러다임을 바꿨다고 지적했다.

이어 그는 최대 규모의 AI 데이터센터를 구축하는 대신 다른 활용 가능한 대안이 있다는 사실은 소프트웨어 종목들에는 엄청나게 낙관적인 상황이라고 설명했다. 그러면서 AI 구축과 훈련에서 다양성과 경쟁이 강화되면서 비용이 낮아지고, 기술이 개선되면 소프트웨어 개발이 탄력을 받는다고 강조했다. BMO 애널리스트 키스 배치먼도 딥시크의 성공은 세일즈포스, 서비스나우, 허브스팟 같은 소프트웨어 업체들에 ‘긍정적일 가능성’이 높다고 평가했다. 실제 마케팅 소프트웨어 업체 허브스팟은 지난달 27일 이후 6% 상승했고, 세일즈포스도 지난주 6% 가까이 올랐다.

Picture

Member for

3 months 2 weeks
Real name
이동진
Position
기자
Bio
[email protected]
흑백의 세상에서 회색지대를 찾고 있습니다. 산업 현장을 취재한 경험을 통해 IT 기업들의 현재와 그 속에 담길 한국의 미래를 전하겠습니다.