GPU 행렬 곱셈이 '예측 가능한 데이터'에서 더 빨라지는 이상한 현상

같은 연산인데 데이터에 따라 속도가 달라진다?

행렬 곱셈(matrix multiplication, 줄여서 matmul)은 딥러닝의 심장 같은 연산이에요. GPT든 Stable Diffusion이든 결국 내부에서는 거대한 행렬을 계속 곱하고 있거든요. 우리는 보통 "GPU에서 같은 크기의 행렬을 곱하면 시간도 같다"라고 가정해요. 8192x8192 행렬 곱셈은 항상 같은 FLOPs를 소모하니까, 시간도 일정해야 정상이잖아요.

그런데 최근 한 블로그 글이 이 상식을 흔들었어요. 같은 크기, 같은 자료형의 행렬을 곱하는데 데이터의 "내용"에 따라 속도가 달라진다는 거예요. 구체적으로는 데이터가 "예측 가능한 패턴"을 가질 때 더 빠르고, 랜덤한 값으로 채워졌을 때 더 느려요. 차이는 무시 못할 수준이고요.

왜 이런 일이 일어날까

원인은 전력과 클럭 사이의 관계에 있어요. 현대 GPU는 전력 예산이 정해져 있어요. 예를 들어 H100은 700W 정도의 TDP를 가지는데, 모든 코어가 최대로 일하면 이 한계에 부딪혀요. 그러면 GPU는 자기 보호를 위해 클럭(작동 속도)을 살짝 낮춰요. 이걸 전력 스로틀링(power throttling)이라고 해요.

자, 여기서 핵심 포인트예요. 전력 소비는 트랜지스터의 "스위칭"에서 발생해요. 즉 0이 1로, 1이 0으로 바뀌는 횟수가 많을수록 전력을 더 먹어요. 데이터가 랜덤하면 비트가 마구 뒤집히니까 스위칭이 많이 일어나고, 전력을 더 많이 써요. 반면 데이터가 "예측 가능"하다는 건 비슷한 값들이 연속으로 들어온다는 뜻이라, 비트가 잘 안 바뀌고 전력을 덜 써요. 전력을 덜 쓰면 스로틀링이 덜 걸리고, 클럭이 높게 유지되고, 결과적으로 같은 행렬 곱셈이 더 빨리 끝나요.

원 글의 저자는 실험적으로 이를 보였어요. 행렬의 값들을 균일 랜덤(uniform random)으로 채웠을 때와, 같은 값을 반복하거나 서서히 변하게 채웠을 때 측정해 보니 측정 가능한 속도 차이가 났대요. 단순한 변동이 아니라 일관된 경향이었고요.

이게 왜 중요할까

첫째, 벤치마크의 신뢰성 문제예요. 우리가 흔히 "이 GPU는 몇 TFLOPS"라고 말할 때, 그 숫자는 어떤 데이터로 측정했느냐에 따라 달라질 수 있다는 거예요. 모두가 균일 랜덤으로 측정한다면 "실제 워크로드"보다 더 보수적인 숫자가 나오게 돼요. 실제 LLM 추론에서는 가중치가 학습된 분포를 따르고, 활성화 값도 0 근처에 몰려 있는 경향이 있어서, 벤치마크보다 실제로 더 빠를 수도 있다는 거죠.

둘째, 양자화와의 관계예요. 요즘 LLM 추론에서는 8비트, 4비트로 가중치를 양자화하는 게 흔해요. 양자화하면 값들이 좁은 범위에 몰리고, 비슷한 값이 반복될 가능성이 커져요. 즉 양자화는 정확도를 약간 희생하는 대신 데이터를 더 "예측 가능"하게 만들어서, 메모리 절약뿐 아니라 전력 효율과 속도까지 추가로 잡을 수 있는 셈이에요.

셋째, 하드웨어 설계 관점이에요. 엔비디아, AMD, 구글 TPU 모두 이 현상을 알고 있고 일부 설계에 반영하고 있어요. 일종의 "데이터 의존적 동적 클럭킹"이 이미 일어나고 있는 거죠. 앞으로의 AI 가속기는 이런 데이터 패턴을 더 적극적으로 활용하는 방향으로 갈 가능성이 커요.

비슷한 사례들

사실 CPU에서는 비슷한 현상이 오래전부터 알려져 있었어요. AVX-512 명령어를 쓰면 코어가 너무 뜨거워져서 클럭이 떨어지는 "AVX-512 다운클럭" 이슈가 있었고, 이게 인텔의 SIMD 전략에 영향을 미쳤어요. GPU에서도 "무거운 텐서 코어 연산이 SM 클럭을 끌어내린다"는 보고가 있어 왔고요. 이번 발견은 그 연장선상에서, 데이터 자체가 전력 소비에 영향을 준다는 새로운 각도를 추가한 거예요.

한국 개발자에게 주는 시사점

LLM 추론 서비스를 운영하시거나 GPU 인프라를 다루시는 분이라면 이건 꽤 실용적인 정보예요. 첫째, 자체 벤치마크는 실제 워크로드 데이터로 해야 신뢰할 수 있어요. 랜덤 데이터로 측정한 TFLOPS는 과소평가일 수 있어요. 둘째, 양자화 도입은 정확도뿐 아니라 전력/속도 측면에서도 이중 이득이 있다는 걸 기억하세요. 셋째, GPU 클러스터를 운영한다면 전력 환경(쿨링, 전원 공급)을 잘 관리해야 부스트 클럭을 더 오래 유지할 수 있어요.