스탠퍼드 CS336 - 언어 모델을 밑바닥부터 직접 만들어보는 강의

LLM을 "쓰는" 시대에서 "만드는" 법을 배우는 시대로

ChatGPT, Claude, Gemini 같은 거대 언어 모델(LLM)을 쓰는 건 이제 누구나 할 수 있는 일이 됐어요. API 키 발급받고 openai.chat.completions.create() 호출하면 끝이니까요. 그런데 그 안에서 실제로 뭐가 돌아가는지, 왜 어떤 모델은 잘 동작하고 어떤 모델은 헛소리만 하는지, 모델을 직접 학습시키려면 뭘 알아야 하는지는 또 다른 차원의 이야기예요.

스탠퍼드 대학교에서 이번에 공개한 CS336: Language Modeling from Scratch가 바로 그 영역을 다루는 강의예요. 강의 제목 그대로 언어 모델을 "바닥부터" 직접 만들어보는 게 목표인데요. PyTorch 한 줄짜리 nn.Transformer 같은 걸 갖다 쓰는 게 아니라, 토크나이저부터 어텐션 메커니즘, 분산 학습, 그리고 실제 GPU 클러스터에서 모델을 굴리는 것까지 전 과정을 직접 구현하게 시켜요.

강의가 다루는 것들

이 강의가 흥미로운 이유는 단순히 트랜스포머 이론만 가르치지 않는다는 거예요. 요즘 LLM 개발은 시스템 엔지니어링이 70%고 ML 이론이 30%라는 말이 있을 정도로 인프라 이해가 중요한데, CS336은 그 부분을 정면으로 다뤄요.

구체적으로 보면 먼저 토크나이저 단원에서 BPE(Byte-Pair Encoding) 같은 알고리즘을 직접 구현해요. 이게 뭐냐면, 컴퓨터는 "안녕하세요"라는 문장을 그대로 이해할 수 없으니까 숫자 ID로 쪼개야 하는데, 어떻게 쪼개느냐가 모델 성능에 엄청 큰 영향을 줘요. 한국어 모델이 영어 모델보다 비효율적인 이유 중 하나도 토크나이저 설계에 있거든요. 그다음 트랜스포머 아키텍처를 직접 짜면서 어텐션이 왜 "모든 단어가 모든 단어를 본다"는 식으로 동작하는지, RMSNorm이나 RoPE 같은 최신 기법들이 왜 등장했는지를 코드로 익혀요.

그 다음이 진짜 진입 장벽이 높은 영역인데, 분산 학습이에요. 7B(70억 파라미터)짜리 모델 하나도 GPU 한 장에는 절대 안 들어가요. 그래서 여러 GPU에 모델을 쪼개서 올리는 기법들 - data parallelism, tensor parallelism, pipeline parallelism, FSDP(Fully Sharded Data Parallel) - 을 배워야 하는데, CS336은 이걸 실제로 PyTorch로 구현하게 해요. 마지막에는 scaling laws, 즉 "모델 크기와 데이터 양과 학습 비용 사이에 어떤 수학적 관계가 있는가"를 다루면서, 제한된 예산으로 최적의 모델을 만드는 법을 가르쳐요.

비슷한 강의들과 비교하면

비슷한 결의 강의로는 Andrej Karpathy의 "Neural Networks: Zero to Hero" YouTube 시리즈가 유명해요. Karpathy는 OpenAI 공동 창업자였고 테슬라 AI 디렉터를 지낸 사람인데, micrograd부터 시작해서 GPT를 처음부터 만드는 과정을 영상으로 풀어줘요. 무료고 친절해서 입문용으로 정말 좋아요.

CS336은 거기서 한 발 더 나아가요. Karpathy 강의가 "개념을 이해하기 위한 최소 구현"이라면, CS336은 "실제로 production에서 쓸 수 있는 수준의 학습 파이프라인을 짜는 법"에 가까워요. 강사진도 Percy Liang, Tatsunori Hashimoto 같은 NLP 분야 거물들이고요. UC Berkeley의 CS294나 카네기멜런의 11-667 같은 강의들도 비슷한 방향인데, CS336은 자료가 모두 무료로 공개돼 있다는 게 큰 장점이에요.

한국 개발자에게 왜 중요할까?

한국에서도 네이버 HyperCLOVA X, 카카오 KoGPT, LG AI Research의 EXAONE 같은 자체 LLM을 만드는 회사가 늘고 있어요. 작은 스타트업들도 fine-tuning이나 LoRA로 도메인 특화 모델을 만들려는 수요가 큰데, 이때 단순히 Hugging Face 코드 복붙으로는 한계가 있어요. 학습이 왜 안 되는지, OOM(Out of Memory)이 왜 터지는지, loss curve가 왜 이상하게 그려지는지 디버깅하려면 내부 구조를 알아야 하거든요.

특히 GPU가 부족한 한국 환경에서는 효율적인 학습 기법을 아는 게 곧 경쟁력이에요. 같은 H100 8장으로 누구는 30B 모델을 학습시키고 누구는 7B도 못 돌리는 차이가 바로 시스템 이해도에서 나와요. CS336에서 배우는 mixed precision, gradient checkpointing, activation recomputation 같은 기법들이 그 차이를 만들어요.

그리고 솔직히 말하면, LLM 시대에 "내가 직접 트랜스포머를 짜본 적이 있다"는 경험은 면접에서도, 실무에서도 큰 무기예요. API만 호출해본 사람과 내부를 아는 사람은 문제 해결력 자체가 달라요.

마무리

LLM은 마법이 아니에요. 거대한 행렬 곱셈과 그걸 효율적으로 분산하는 시스템 엔지니어링의 결과물이거든요. CS336은 그 마법의 뚜껑을 열어 보여주는 가장 친절한 가이드 중 하나예요. 강의 자료가 모두 공개돼 있으니까 시간 내서 한 챕터씩이라도 따라가 보시는 걸 추천해요.

여러분은 LLM을 "잘 쓰는" 쪽으로 가고 싶으세요, 아니면 "잘 만드는" 쪽으로 가고 싶으세요? 그 둘 사이의 거리는 생각보다 가까울 수도, 멀 수도 있어요.

🔗 출처: Hacker News

이 글도 읽어보세요