TECH 으로 돌아가기
TECH HACKER NEWS 오늘 5분 읽기 32 READS

엔비디아 아성에 도전하는 AMD — GLM5.2를 '반값'에 돌리는 MI355X

엔비디아 아성에 도전하는 AMD — GLM5.2를 '반값'에 돌리는 MI355X

AI 서비스, 결국은 '돈' 싸움이에요

AI 모델 하나 돌리는 데 돈이 얼마나 드는지 생각해본 적 있으세요? 크게 두 가지 비용이 있어요. 모델을 똑똑하게 만드는 학습(training)과, 다 만든 모델한테 실제로 질문을 던져 답을 받는 추론(inference)이요. 우리가 챗봇 쓸 때마다 발생하는 건 추론 비용인데, 서비스를 오래 운영할수록 이 추론 비용이 눈덩이처럼 불어나요. 그래서 '같은 답을 얼마나 싸게 뽑느냐'가 AI 회사들의 생사를 가르는 문제예요.

이 시장을 지금까지 사실상 독점해온 게 엔비디아(NVIDIA)죠. 근데 이번에 AMD의 최신 AI 가속기 MI355X로 GLM5.2라는 모델을 돌려봤더니, 한 서버(노드) 기준 초당 2626개의 토큰을 뽑아내면서, 엔비디아의 최신 칩 블랙웰(Blackwell)보다 2배 넘게 저렴한 비용으로 처리했다는 결과가 나왔어요.

숫자들이 무슨 뜻이냐면

'초당 2626 토큰(tok/s)'부터 풀어볼게요. 토큰이란 AI가 글을 다루는 최소 조각이에요. 단어보다 조금 작은 단위라고 보면 돼요. 그러니까 이 숫자는 서버 한 대가 1초에 이만큼의 글자 조각을 만들어낸다는 뜻이에요. 이걸 '노드(node, 서버 한 대 단위)'로 재는 이유는, 큰 모델은 GPU 여러 장을 한 서버에 묶어서 같이 돌리기 때문이에요. 그래서 GPU 한 장이 아니라 서버 한 대의 전체 처리량으로 비교하는 게 현실적인 거죠.

GLM5.2는 중국 즈푸(Zhipu)가 만든 대형 언어 모델이에요. 이렇게 덩치 큰 모델은 GPU의 메모리 용량과 대역폭(데이터가 오가는 속도)이 성능을 크게 좌우하는데, 마침 AMD의 이 칩이 메모리 쪽에서 강점을 내세우거든요. 메모리가 넉넉하면 더 적은 수의 서버로 같은 모델을 담을 수 있어서, 이게 곧 비용 절감으로 이어져요. '2배 싸다'는 결과의 배경엔 이런 하드웨어 특성이 깔려 있는 거예요.

엔비디아 독점에 금이 갈까

그동안 AMD가 성능이 나쁜 게 아니라 소프트웨어가 약점이었어요. 엔비디아는 CUDA라는 개발 도구 생태계를 십수 년간 다져놔서, 개발자들이 이미 CUDA에 익숙해요. 여기서 못 벗어나는 걸 '벤더 종속(락인, lock-in)'이라고 하죠. AMD는 ROCm이라는 대응 도구를 밀고 있는데, 예전엔 설치부터 삐걱댔지만 요즘 꽤 성숙해졌어요. 이번처럼 실제 최신 모델을 경쟁력 있는 가격에 돌리는 사례가 쌓이면, '엔비디아 아니어도 되네?'라는 인식이 퍼질 수 있어요. Groq, Cerebras, 구글 TPU 같은 다른 대안들도 같은 틈을 노리고 있고요.

한국 개발자에게 주는 힌트

자체 AI 추론 서버를 고민하는 국내 스타트업이나 기업이라면 이 소식이 반가울 거예요. 선택지가 엔비디아 하나뿐일 때는 가격 협상력도 없고 물량 구하기도 힘들잖아요. AMD 같은 대안이 실전에서 통한다는 게 증명되면, 하드웨어를 저울질할 여지가 생기고 비용도 낮출 수 있어요. 여기에 GLM처럼 가중치가 공개된 오픈 웨이트 모델을 얹으면, '오픈 모델 + 대체 하드웨어' 조합으로 폐쇄형 API보다 훨씬 싸게 서비스를 굴리는 그림도 가능해지죠. 당장 갈아타긴 어려워도, ROCm 생태계와 AMD 하드웨어의 흐름은 눈여겨봐 둘 만해요.

한줄 정리: AMD가 최신 오픈 모델을 엔비디아 대비 절반 비용으로 돌려내면서, AI 추론 시장의 하드웨어 독점 구도에 실제로 균열을 낼 가능성을 보여줬다.

여러분이라면 성능이 조금 아쉬워도 비용이 절반이면 하드웨어를 갈아탈 건가요, 아니면 익숙한 생태계에 남을 건가요?


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://www.wafer.ai/blog/glm52-amd
SHARE
처리 중...