Anthropic, Colossus 2로 확장 — GB200이 AI 인프라 경쟁의 새로운 기준이 된다

무슨 일이 있었냐면

Claude를 만드는 회사 Anthropic이 자사 AI 학습/추론 인프라를 Colossus 2라는 새 데이터센터로 확장한다는 소식이 공개됐어요. 핵심은 NVIDIA의 GB200 시스템을 본격적으로 도입한다는 점이에요. Colossus라는 이름이 생소할 수 있는데, 이건 원래 일론 머스크의 xAI가 멤피스에 지은 거대 GPU 클러스터의 이름이었어요. 처음 Colossus가 H100 GPU 10만 장을 묶어 화제가 됐고, Colossus 2는 그걸 한 단계 더 키운 차세대 시설이에요. Anthropic이 여기에 합류한다는 건 단순한 임대 계약 이상의 의미가 있어요. 미국 빅테크의 AI 인프라 지형도가 어떻게 재편되고 있는지를 보여주는 신호거든요.

GB200이 뭐길래 그렇게 중요한가

좀 풀어서 설명할게요. GPU 얘기 들으면 보통 H100이 떠오를 거예요. 지난 2~3년간 AI 학습용 GPU의 사실상 표준이었죠. GB200은 그 다음 세대인 Blackwell 아키텍처를 기반으로 한 제품이에요. 좀 더 정확히 말하면, GB200은 단일 GPU가 아니라 "Grace CPU 1개 + Blackwell GPU 2개"를 하나의 모듈로 묶은 슈퍼칩 구성이에요. CPU와 GPU 사이를 NVLink-C2C라는 초고속 인터커넥트로 직접 연결해서, 둘이 마치 하나의 거대한 메모리 공간을 공유하는 것처럼 동작해요. 이게 왜 중요하냐면, 거대 언어 모델은 메모리 사이를 데이터가 왔다 갔다 하는 데 시간을 엄청 많이 쓰거든요. 이 "왔다 갔다"를 줄이는 게 곧 학습 속도와 추론 비용에 직결돼요.

GB200을 72개 묶은 랙 단위 시스템을 GB200 NVL72라고 부르는데, 이걸 NVIDIA는 "하나의 거대한 GPU"처럼 보이도록 NVLink 스위치로 통째로 묶었어요. NVL72 한 대에 들어가는 메모리만 13TB가 넘고, FP4 기준 연산 성능은 페타플롭스를 한참 넘어서요. 이전 세대인 H100 기반 시스템 대비 학습 성능은 대략 4배, 추론은 30배까지도 빨라진다는 게 NVIDIA의 공식 수치고, 실측에서도 비슷한 수준의 향상이 확인되고 있어요.

Anthropic이 왜 지금 이걸 도입할까

Anthropic은 그동안 주로 AWS의 Trainium과 Google의 TPU, 그리고 NVIDIA H100을 섞어서 써왔어요. Amazon이 막대한 투자를 한 파트너이기도 하고, Google도 동시에 투자한 독특한 위치에 있죠. 그런데 모델 규모가 계속 커지고, 추론 트래픽도 폭발적으로 늘어나는 상황에서 "가장 빠른 시점에 가장 많은 연산력"을 확보해야 하는 압박이 점점 세지고 있어요. GB200 기반 인프라는 단순히 빠른 게 아니라, 랙 단위로 통합된 거대한 가상 GPU라는 점에서 차세대 모델 학습에 거의 필수적인 인프라가 되어가고 있거든요.

그리고 Colossus 2를 선택했다는 점이 흥미로워요. xAI가 운영하는 시설을 Anthropic이 쓴다는 건, 결국 AI 회사들이 "누구의 모델을 쓰느냐"에서는 경쟁자지만 "어디서 GPU를 돌리느냐"에서는 같은 인프라 풀을 공유할 수밖에 없다는 현실을 보여줘요. 실제로 GPU 확보 자체가 워낙 어려운 자원이라, 이런 식의 교차 사용이나 장기 임대 계약은 점점 더 흔해지고 있어요.

업계 흐름에서 보면

2024~2025년이 H100 시대였다면, 2026년은 본격적인 Blackwell 전환의 해예요. Microsoft는 이미 Azure에 GB200 클러스터를 대규모로 배치했고, Meta도 Llama 차기 모델 학습용으로 같은 시스템을 깔고 있어요. OpenAI는 마이크로소프트 의존도를 줄이려고 자체 데이터센터를 짓고 있는데 거기에도 GB200이 들어가요. 한편 Google은 자체 TPU v6(Trillium)와 차세대 TPU로 NVIDIA 의존을 우회하려는 전략을 강화하고 있고, AWS의 Trainium 2도 같은 길을 걸어요.

결국 큰 그림은 "NVIDIA의 GB200 라인을 얼마나 빨리, 얼마나 많이 확보하느냐"와 "자체 칩으로 NVIDIA 의존을 얼마나 줄이느냐" 사이의 줄다리기예요. Anthropic이 Colossus 2로 들어간 건 전자의 길에 한 발을 더 단단히 디딘 셈이죠.

한국 개발자에게 어떤 의미가 있을까

당장 GB200을 만져볼 수 있는 한국 개발자는 많지 않아요. 국내에서는 네이버 하이퍼클로바X나 카카오, 통신 3사의 일부 인프라가 H100 기반으로 운영되고 있고, NHN클라우드, KT 클라우드 등이 H200·B200급 GPU 도입을 발표한 단계예요. 다만 CUDA와 NCCL, NVLink 같은 소프트웨어 스택 자체는 큰 변화가 없어서, H100 환경에서 분산 학습을 잘 다뤄본 경험은 그대로 이전 가능해요.

실무 측면에서 더 중요한 건 추론 비용의 구조예요. GB200 기반 인프라가 본격적으로 깔리면 대형 모델의 토큰당 비용이 또 한 번 떨어질 가능성이 높아요. 이건 "우리 서비스에 GPT-4급 모델을 붙이는 게 비용 측면에서 합리적인가"라는 질문의 답이 바뀐다는 의미예요. RAG 파이프라인 설계나 에이전트 아키텍처를 짤 때 "1년 후 모델이 더 싸지고 빨라진다면 이 아키텍처는 어떻게 달라져야 하는가"를 미리 가정에 넣어두는 게 좋아요.

마무리

AI 모델 자체의 발전 못지않게, 그걸 떠받치는 인프라 전쟁이 본격적으로 가시화되고 있어요. 결국 AI 경쟁의 절반은 "누가 더 좋은 GPU를 더 많이 확보하느냐"의 게임이기도 하거든요. 여러분은 모델의 발전 속도와 인프라 비용 하락 속도 중, 앞으로 1~2년 동안 어느 쪽이 더 빠를 거라고 보시나요?

🔗 출처: Hacker News

이 글도 읽어보세요