"HBM 전력 한계 뛰어넘어라" 차세대 AI 메모리 경쟁 본격화, 과도기 접어든 시장
"HBM 전력 한계 뛰어넘어라" 차세대 AI 메모리 경쟁 본격화, 과도기 접어든 시장
입력
수정
AI 메모리 판도 변화 조짐, HBM 이을 차세대 제품 등장 HBM, 성능 개선될수록 전력 효율 한계 뚜렷 곳곳서 이어지는 HBM 고도화 행보, 시장의 과도기적 흐름

삼성전자와 SK하이닉스가 양분하던 고대역폭메모리(HBM) 시장에 지각변동이 발생했다. 인공지능(AI) 기술의 발달로 메모리 고객사들의 필요 대역폭이 급등한 가운데, HBM 대비 전력 효율이 대폭 개선된 차세대 기술들이 점차 두각을 드러내는 양상이다. 다만 이러한 흐름이 곧바로 HBM의 경쟁력 약화로 이어지지는 않을 것으로 전망된다. 차세대 메모리의 존재감이 확대됨과 동시에 기존 HBM의 성능과 전력 효율을 끌어올리기 위한 업계의 기술 고도화 작업에도 속도가 붙고 있어서다.
차세대 AI 메모리 개발 속도
16일(이하 현지시각) 대만 IT 전문 매체 디지타임스는 대만 난야테크놀로지(NTC)가 고객 맞춤형 AI 메모리 사업에서 수익을 내기 시작했다고 보도했다. 렉스 추앙 난야 마케팅 부사장은 최근 "AI 추론 연산이 클라우드에서 기기 자체(온디바이스) 환경으로 분산되는 흐름 속에서 UWIO(Ultra Wide I/O) 기술이 고가의 HBM 수요 일부를 흡수할 수 있다"고 밝혔다. UWIO는 난야의 독자 규격 메모리로, 웨이퍼 자체를 통째로 적층하는 '웨이퍼 온 웨이퍼(WoW)' 공법이 적용됐다. 해당 공법을 활용하면 HBM 칩을 낱개로 잘라 쌓는 기존 방식(TC-NCF·MR-MUF)보다 더 많은 IC(집적회로)를 동시에 처리할 수 있어 생산 비용 경감 효과가 발생한다. 난야는 올해 말까지 UWIO 메모리 검증 출하를 완료하겠다는 방침이다.
난야 외에도 다수의 기업이 HBM의 뒤를 이을 차세대 메모리 개발에 힘을 쏟는 중이다. 대표적인 제품이 소캠이다. 소캠은 저전력 D램인 LPDDPR을 여러 개 모아 만든 AI 특화 메모리 모듈이다. 대용량 메모리로 구성이 가능해 AI 추론, 개인용 AI PC, 기업용 AI 서버 등 중간급 모델에서도 활용도가 높으며, AI 가속기에 HBM과 함께 탑재할 수도 있다. 현시점 소캠 개발의 선두 주자로는 마이크론이 꼽히며, 삼성전자와 SK하이닉스도 소캠 개발에 집중하고 있는 것으로 알려졌다.
CXL도 시장의 주목을 받는 차세대 기술 중 하나다. CXL은 CPU(중앙처리장치)와 시스템온칩(SoC), GPU(그래픽처리장치) 등을 효율적으로 연결하는 구조다. 기존 메모리 모듈에 CXL을 적용하면 용량을 10배 이상 확장할 수 있다. CXL 기술을 선도하는 삼성전자는 2021년 5월 세계 최초로 CXL 기술을 공개한 뒤 업계 최고 용량인 512GB(기가바이트) 모듈을 개발했으며, 현재는 CXL 2.0 양산 준비를 마친 상태다. SK하이닉스도 기존 DDR5 모듈 대비 용량이 50% 확장된 CXL 2.0 기반 D램 솔루션을 개발하는 데 힘을 쏟고 있으며, 마이크론은 인텔·AMD 등과 CXL DDR5 플랫폼을 공동 개발해 현재 양산 준비 중이다.
고대역폭플래시(HBF)도 차세대 메모리 반도체로서 두각을 드러내는 추세다. HBF는 D램이 아닌 낸드플래시를 쌓아 만드는 반도체로, HBM만큼 데이터를 빠르게 처리하지는 못하지만 더 많은 층을 쌓을 수 있어 대규모 데이터를 읽고 쓰는 데 적합하다. 실제 5세대 HBM(HBM3E) 12단 한 개의 용량이 36GB에 불과한 반면, HBF의 경우 최대 321층 이상 쌓은 제품(단일 패키지 용량 256GB)이 점차 상용화되고 있다.
HBM의 근본적 한계
이처럼 신기술이 속속 등장하는 것은 메모리 시장 환경이 AI로 인해 급격히 변화했기 때문이다. 현시점 메모리 '큰손' 고객사들은 초고속 메모리 제품을 원하고 있다. 거대언어모델(LLM)의 규모가 기하급수적으로 확대돼 필요 대역폭이 급등한 영향이다. 이에 메모리 공급사들은 첨단 HBM의 처리 속도를 높이고 나섰다. 삼성전자는 6세대 HBM(HBM4)에서 핀당 약 11.7Gbps(초당 기가비트)의 처리 속도를 구현했고, SK하이닉스도 10Gbps 이상의 동작 속도를 확보하며 양산 체제 구축을 선언했다. 마이크론 역시 샘플 기준 11Gbps 이상 속도를 달성한 상태다.
문제는 HBM의 데이터 처리 속도가 높아질수록 전력 부담이 대폭 커진다는 점이다. HBM은 막대한 규모의 데이터를 초 단위로 GPU와 주고받는다. 특히 최신 HBM3E와 HBM4에서는 스택당 대역폭이 2TB/s(초당 테라바이트) 안팎까지 확대되며 이전 세대 대비 데이터 이동량이 수 배가량 늘었다. 이에 따라 메모리 스택은 AI 가속기 패키지 전력 예산의 상당 부분을 차지하게 됐고, AI 서버에서는 수십 개의 HBM이 동시에 동작하면서 시스템 전체 전력 소비를 크게 끌어올렸다.
향후 AI 모델이 빠르게 고도화될수록 메모리 성능 향상 요구 역시 커질 수밖에 없다. 이미 전력 부담이 상당한 HBM의 성능을 앞으로도 반복해서 개선해야 한다는 의미다. 이는 데이터센터의 전력 및 냉각 비용에 발목을 잡힌 관련 기업들에 추가 비용 부담으로 작용할 수 있다. 곳곳에서 전력 효율이 높은 새로운 메모리 구조나 대체 기술이 등장하고 있는 이유다.

기존 기술 고도화 노력도 여전
다만 한편에서는 HBM 장비·소재·공정 등의 고도화 노력도 여전히 이어지고 있다. 일례로 미국의 반도체 장비 제조 업체 어플라이드 머티어리얼즈는 지난 11일 SK하이닉스와 AI 및 고성능 컴퓨팅용 차세대 메모리 개발을 위한 장기 기술 협력 계약을 체결했다고 밝혔다. 이번 협력의 핵심은 차세대 D램 및 HBM 기술을 중심으로 재료 공학과 공정 혁신을 공동 추진하는 것이다. 양 사 엔지니어들은 미국 실리콘밸리에 조성되는 ‘EPIC(Equipment and Process Innovation and Commercialization) 센터’에서 공동 연구를 진행할 예정이며, 연구 프로그램은 신소재 발굴과 복합 공정 통합, HBM급 첨단 패키징 기술 위주로 진행된다.
하이브리드 본딩 장비도 상용화 초기 단계에 들어섰다. 현재 HBM 제조에 사용되는 장비인 ‘TC 본더’는 D램과 D램 사이에 전기 신호를 보내는 돌기(범프)를 넣어 이어 붙이는 방식을 쓰며, 최대 16단 HBM까지 제작할 수 있다. 문제는 HBM 성능이 점차 고도화되면서 현재 12단, 16단 수준인 HBM의 D램 층수가 20단 이상까지 높아질 가능성이 크다는 점이다. TC 본더 장비를 활용해 20단 이상으로 D램 층수를 높이면 전체 두께가 두꺼워지고, 신호 지연과 전력 소모 문제가 발생할 수 있다.
이런 한계를 극복하기 위해 등장한 것이 하이브리드 본딩이다. 하이브리드 본딩은 TC 본더에서 필수적인 돌기를 없애고 D램을 직접 붙이는 방식이다. D램 사이 공간이 줄어들어 같은 높이라도 더 많은 D램을 쌓을 수 있고, 신호 전달 속도도 개선되는 장점이 있다. 반도체 업계에선 단수가 20단 이상으로 높아질 것으로 예상되는 7~8세대 HBM(HBM4E~HBM5)부터 하이브리드 본딩이 상용화될 것이라는 관측이 지배적이다.
메모리 공급사들의 ‘맞춤형 HBM’ 경쟁에도 불이 붙었다. 맞춤형 HBM은 HBM의 두뇌 역할을 수행하는 기판인 ‘베이스 다이’를 고객사 요구 사항에 맞춰 설계한 제품으로, 고객사 요구에 맞는 다양한 연산을 수행한다는 의미에서 ‘컴퓨팅 인 메모리(CIM)’라고도 불린다. 한 시장 전문가는 “글로벌 빅테크 기업들의 자체 AI 칩은 각각 HBM에 요구하는 데이터 처리 성능이나 전력 소비, 발열 특성이 다르다”며 “표준형 HBM이 아닌 각 사의 AI 칩 기능 최적화에 집중한 맞춤형 제품 수요가 증가할 수밖에 없는 상황”이라고 설명했다.