AI 칩 원가의 3분의 2가 '메모리'다: HBM이 바꿔놓은 반도체 경제학

GPU의 진짜 주인공은 연산 유닛이 아니다

AI 칩 이야기를 할 때 우리는 보통 엔비디아 H100, B200, AMD MI300 같은 이름들을 떠올려요. 그리고 "몇 TFLOPS", "몇 코어" 같은 연산 성능을 먼저 봐요. 그런데 최근 분석에 따르면 이런 AI 가속기의 부품 원가에서 가장 큰 비중을 차지하는 건 GPU 다이 자체가 아니라 메모리예요. 그것도 거의 3분의 2 수준에 달한다고 해요. 이게 무슨 의미냐면, 우리가 "엔비디아 칩"이라고 부르는 그 비싼 물건의 절반 이상이 사실은 SK하이닉스, 삼성, 마이크론 같은 메모리 회사가 만든 부품이라는 뜻이에요.

이 데이터는 Epoch AI라는 연구 기관이 최근 AI 가속기들의 BOM(Bill of Materials, 부품 명세서)을 분석해 내놓은 결과인데, 시간이 지날수록 메모리 비중이 점점 더 커지는 추세가 뚜렷해요. 몇 년 전만 해도 GPU 다이가 원가의 가장 큰 부분이었는데, 이제는 HBM(High Bandwidth Memory, 고대역폭 메모리)이 그 자리를 차지했어요.

HBM이 뭐길래 이렇게 비싼가

HBM이 뭐냐면, 일반 DRAM 칩 여러 개를 수직으로 쌓아 올려서 GPU 바로 옆에 붙여놓은 메모리예요. 일반 DDR 메모리는 메인보드의 슬롯에 꽂혀서 CPU와 좀 멀리 떨어져 있죠. 그래서 데이터를 주고받는 속도(대역폭)에 한계가 있어요. 반면 HBM은 실리콘 인터포저라는 얇은 기판 위에 GPU와 나란히 올려져서 수천 개의 통로로 직접 연결돼요. 결과적으로 일반 메모리보다 5~10배 빠른 대역폭을 제공해요.

문제는 이걸 만드는 게 엄청 어렵다는 거예요. 우선 DRAM 다이를 12단, 16단까지 쌓아 올려야 하는데, 이 과정에서 TSV(Through-Silicon Via, 실리콘 관통 전극)라는 미세한 구멍을 뚫어 전기 신호를 통과시켜야 해요. 한 단이라도 불량이 나면 전체를 버려야 하니까 수율이 낮아요. 게다가 발열이 심해서 식히는 것도 어렵고요. 이런 기술적 난이도 때문에 HBM은 일반 DRAM보다 단위 용량당 5배 이상 비싸요. 그리고 현재 HBM3, HBM3E를 양산할 수 있는 회사는 SK하이닉스, 삼성, 마이크론 셋뿐이에요. 사실상 SK하이닉스가 시장의 절반 이상을 잡고 있고요.

AI 모델이 점점 커지면서 메모리 용량과 대역폭이 성능을 좌우하게 됐어요. LLM이 추론할 때 가장 큰 병목이 어디냐 하면, 연산 속도가 아니라 모델 가중치를 메모리에서 GPU 연산 유닛으로 옮기는 속도예요. 그래서 HBM이 많을수록, 빠를수록 LLM 추론 성능이 좋아져요. 엔비디아 H100이 80GB HBM3를 달고 나왔는데, B200은 192GB HBM3E로 늘었어요. 다음 세대는 288GB까지 간다고 해요. 메모리 용량이 늘어날수록 칩 원가에서 메모리 비중이 더 커지는 거죠.

누가 돈을 벌고 있는가

이 구조가 흥미로운 건, 가치 사슬에서 부가가치가 이동하고 있다는 점이에요. 예전에는 GPU 설계 회사(엔비디아)와 파운드리(TSMC)가 가장 큰 몫을 가져갔어요. 지금도 여전히 큰 몫을 가져가긴 하지만, 메모리 회사들의 비중이 빠르게 올라가고 있어요. SK하이닉스가 올해 영업이익 신기록을 갱신하고 있는 게 우연이 아니에요. HBM 한 묶음이 GPU 다이만큼 비싸게 팔리니까요.

전체 시스템으로 보면 엔비디아 H100 보드의 BOM 추정치가 약 3,000~3,500달러 정도인데, 이 중 HBM이 1,500~2,000달러를 차지한다고 해요. 그리고 엔비디아는 이걸 3만 달러 넘게 팔고 있으니, 부품 원가 대비 마진은 여전히 엄청나죠. 다만 그 부품 원가 자체에서 메모리가 차지하는 비중이 점점 커진다는 게 핵심이에요.

업계 맥락에서 본 의미

이 흐름은 몇 가지 큰 변화를 시사해요. 첫째, 메모리가 전략 자산이 됐어요. 미국이 중국에 첨단 HBM 수출을 제한하고 있는 것도 이 때문이에요. GPU 다이가 좋아도 HBM이 없으면 의미가 없으니까요. 둘째, AI 칩 회사를 새로 만들려는 스타트업들이 HBM 확보 자체에서 막혀요. SK하이닉스, 삼성, 마이크론은 엔비디아 같은 거대 고객 물량을 먼저 채우다 보니 작은 회사에는 차례가 안 와요. 셋째, 메모리 중심 컴퓨팅(processing in memory) 같은 아키텍처가 다시 주목받고 있어요. 데이터를 메모리에서 GPU로 옮기는 게 비효율적이라면, 아예 메모리 안에서 연산을 하자는 발상이죠.

한국 개발자에게 주는 시사점

한국은 메모리 분야에서 세계 1위예요. SK하이닉스와 삼성이 HBM 시장을 사실상 양분하고 있죠. 이건 한국 반도체 산업에 엄청난 기회예요. 다만 개발자 입장에서 보면 시사점이 좀 달라요. LLM 추론을 직접 운영하시는 분들은 "메모리가 곧 성능이자 비용"이라는 걸 체감하실 거예요. 모델 양자화(quantization), KV 캐시 최적화, 배치 처리 전략 같은 게 단순한 엔지니어링 트릭이 아니라 돈을 아끼는 핵심 기술이라는 거죠.

또 클라우드에서 GPU 인스턴스를 빌릴 때 H100과 B200의 시간당 가격 차이가 큰 이유도 HBM 차이에서 와요. 무조건 비싼 걸 쓰기보다는, 자기 워크로드에 필요한 메모리 용량과 대역폭을 계산해서 선택하는 안목이 점점 중요해지고 있어요.

마무리

"AI 시대는 연산의 시대"라고 흔히들 말하지만, 사실은 "메모리의 시대"이기도 해요. 데이터를 빠르게 옮길 수 있는 능력이 곧 경쟁력이거든요. 여러분은 LLM이나 ML 모델을 다루면서 메모리 병목을 체감해본 경험이 있나요? 그리고 한국이 HBM 강국이라는 사실이 개발자 커리어에 어떤 기회를 줄 수 있다고 보시나요?

🔗 출처: Hacker News

이 글도 읽어보세요