Hacker News 2026.06.27 36

AI를 빠르게 만드는 진짜 기술, 현대 GPU 프로그래밍의 세계

요즘 AI 이야기를 하면 빠지지 않고 등장하는 단어가 GPU예요. "엔비디아 주가가 어떻고", "H100이 몇 장 필요하고" 하는 이야기는 많이 들어보셨을 텐데, 정작 GPU가 왜 AI에 강하고 그걸 어떻게 잘 써야 하는지는 의외로 깊게 다뤄지지 않거든요. 머신러닝 컴파일(MLC) 쪽에서 정리한 'ML 시스템을 위한 현대 GPU 프로그래밍' 자료가 그 빈틈을 메워줘서, 핵심만 쉽게 풀어볼게요.

CPU와 GPU는 일하는 방식이 다르다

CPU는 아주 똑똑한 일꾼 몇 명이 복잡한 일을 순서대로 빠르게 처리하는 구조예요. 반면 GPU는 단순한 계산만 할 줄 아는 일꾼 수천 명을 한꺼번에 굴리는 구조거든요. AI의 학습과 추론은 결국 거대한 행렬 곱셈(숫자가 잔뜩 들어찬 표끼리 곱하는 계산)의 반복인데, 똑같은 계산을 수천 개씩 동시에 처리해야 하니 GPU랑 궁합이 딱 맞는 거죠.

진짜 병목은 계산이 아니라 '메모리'

여기서 많이들 오해하는 부분이 있어요. 코어가 수천 개니까 당연히 계산 속도가 한계겠거니 생각하는데, 사실 요즘 AI에서 발목을 잡는 건 계산이 아니라 메모리거든요. GPU 안에는 속도가 다른 여러 종류의 메모리가 계층으로 쌓여 있어요. 가장 빠르지만 아주 작은 레지스터와 SRAM(공유 메모리), 그리고 용량은 크지만 상대적으로 느린 HBM이라는 메인 메모리가 있죠.

문제는 계산 유닛이 데이터를 너무 빨리 먹어치워서, HBM에서 데이터를 퍼 오는 속도가 못 따라간다는 거예요. 그래서 코어들이 계산은 안 하고 데이터 기다리며 노는 상황이 자주 생겨요. 이걸 '메모리 병목(memory-bound)'이라고 부르는데, 현대 GPU 최적화의 절반은 사실 이 데이터 이동을 어떻게 줄이느냐의 싸움이에요.

텐서 코어와 커널 퓨전

엔비디아가 내놓은 해법 중 하나가 텐서 코어(Tensor Core)예요. 행렬 곱셈만 전담하는 특수 회로인데, FP16이나 BF16, FP8 같은 낮은 정밀도 숫자를 써서 작은 행렬 곱셈을 한 번에 통째로 처리해요. 정밀도를 조금 낮추는 대신 속도와 효율을 크게 끌어올리는 거죠.

또 하나 중요한 게 커널 퓨전(kernel fusion)이에요. 원래는 연산 하나하나마다 데이터를 느린 HBM에서 꺼내 계산하고 다시 저장하는데, 여러 연산을 하나로 합쳐서 중간 결과를 빠른 SRAM에 들고 있으면서 처리하면 느린 메모리를 오가는 횟수가 확 줄어요. 그 유명한 FlashAttention이 바로 이 아이디어로, 어텐션 계산의 거대한 중간 행렬을 통째로 메모리에 올리지 않고 잘게 쪼개 SRAM에서 처리해서 속도와 메모리 사용량을 동시에 잡았어요.

CUDA, 그리고 그 위의 새로운 도구들

GPU 프로그래밍의 기본 모델은 스레드(thread) 수천 개를 블록(block)으로 묶고, 32개씩 묶인 워프(warp) 단위로 똑같은 명령을 동시에 실행하는 구조예요. 전통적으로는 CUDA라는 C++ 기반 언어로 이걸 손으로 일일이 짜야 했는데, 난이도가 상당히 높았죠.

그래서 요즘은 OpenAI가 만든 Triton 같은 도구가 인기예요. 파이썬 문법으로 블록 단위까지만 신경 쓰면 스레드 수준의 복잡한 디테일은 컴파일러가 알아서 처리해줘요. 엔비디아의 CUTLASS는 고성능 행렬 곱셈 템플릿을 제공하고, MLC/TVM 같은 컴파일러 프로젝트는 아예 모델을 입력하면 여러 하드웨어에 맞는 최적 커널을 자동 생성하는 방향을 추구하죠. '손으로 짜는 CUDA'에서 '컴파일러가 짜주는 커널'로 흐름이 옮겨가는 중이에요.

한국 개발자에게

당장 모두가 커스텀 커널을 짤 필요는 없어요. 하지만 LLM 서빙 비용을 줄이고 추론 속도를 끌어올리는 일이 점점 중요해지는 지금, "왜 우리 모델이 느린가"를 진단하려면 메모리 병목이라는 개념을 아는 게 큰 무기가 돼요. 파이토치만 쓰더라도 torch.compile이나 FlashAttention이 내부에서 뭘 하는지 알면 옵션 하나 켜고 끄는 선택이 달라지거든요. Triton은 진입 장벽도 낮은 편이라, 추론 최적화에 관심 있다면 주말에 가볍게 손대볼 만해요.

한줄 정리: GPU 최적화의 핵심은 코어를 더 굴리는 게 아니라, 느린 메모리를 덜 오가게 만드는 것이다. 여러분은 모델을 최적화할 때 메모리 병목을 의식하면서 짜시나요, 아니면 일단 돌아가게만 만드는 편인가요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 앤트로픽의 신모델 'Mythos', 정부 승인 후 '신뢰할 수 있는 파트너'에게만 제한 공개