TECH 으로 돌아가기
TECH GITHUB 오늘 10분 읽기 27 READS

[심층분석] 모델은 넘치는데 '공학'이 없다 — 하버드가 무료로 풀어버린 ML 시스템 교과서 완전 해부

왜 지금 이 교과서가 나왔을까요

요즘 AI 공부를 시작하면 대부분 비슷한 길을 걸어요. 파이썬 배우고, 파이토치 튜토리얼 따라 하고, 허깅페이스에서 모델 받아서 파인튜닝해보고요. 그런데 막상 회사에서 AI 서비스를 운영해보면 이상한 걸 깨닫게 되거든요. 모델을 만드는 일은 전체 업무의 20%도 안 되고, 나머지 80%는 데이터 파이프라인, 서빙 인프라, 모니터링, 비용 최적화 같은 '시스템' 일이라는 거예요.

문제는 이 80%를 체계적으로 가르쳐주는 곳이 거의 없었다는 점이에요. 대학은 여전히 모델과 알고리즘 중심으로 가르치고, 실무 지식은 회사에서 삽질하며 몸으로 배우는 게 현실이었죠. 하버드의 CS249r 강의에서 출발한 오픈소스 교과서 “Machine Learning Systems”는 바로 이 간극을 정면으로 겨냥한 프로젝트예요. 저자인 비제이 자나파 레디(Vijay Janapa Reddi) 교수는 AI 하드웨어 성능을 재는 표준 벤치마크 MLPerf를 이끌어온 인물인데요. 이 분이 저장소 첫머리에 쓴 문장이 꽤 도발적이에요. “세상은 AI 시스템을 만들어내는 데 급급할 뿐, 그것을 엔지니어링하고 있지는 않다.” 다들 뭔가 뚝딱뚝딱 만들고는 있는데, 다리를 짓듯 설계하고 검증하는 '공학'은 없다는 지적이죠.

더 놀라운 건 이 교과서가 2026년 MIT Press에서 종이책으로 출간될 예정인데도 전체 내용이 무료로 공개되어 있다는 점이에요. 심지어 영어, 중국어, 일본어에 이어 한국어 번역까지 제공돼요.

뜯어보기: 책 한 권이 아니라 '커리큘럼 생태계'예요

이 저장소가 특별한 이유는 단순한 PDF 모음이 아니라는 데 있어요. 저자는 “독립된 프로젝트의 모음이 아니라 하나로 통합된 커리큘럼으로 설계했다”고 밝히는데요, 크게 네 개의 기둥으로 이뤄져 있어요.

1) 교과서 (Vol I + Vol II) — 이론 담당이에요. 데이터 수집부터 학습, 최적화, 배포, 운영까지 ML 시스템의 전체 생애주기를 다뤄요.

2) TinyTorch — 파이토치의 미니 버전을 밑바닥부터 직접 만들어보는 실습이에요. 이게 뭐냐면, 우리가 평소에 loss.backward() 한 줄로 쓰는 자동 미분(모델이 얼마나 틀렸는지 계산해서 각 파라미터를 어느 방향으로 고칠지 자동으로 알려주는 기능)을 직접 코드로 구현해보는 거예요. 운전만 하다가 엔진을 직접 조립해보는 경험이라고 생각하면 돼요. 엔진을 조립해본 사람은 차에서 이상한 소리가 날 때 원인을 짚어낼 수 있잖아요.

3) 하드웨어 키트와 Labs — 라즈베리파이나 아두이노급의 작은 기기에서 실제로 모델을 돌려보는 실습이에요. 클라우드에서는 메모리가 부족하면 더 큰 인스턴스를 띄우면 그만이지만, 손바닥만 한 보드 위에서는 그런 도망갈 구멍이 없거든요. 저자는 이걸 “실제 제약과 정면으로 마주하게 만드는 장치”라고 표현해요. 제약이야말로 최고의 스승이라는 거죠.

4) MLSys·im 시뮬레이터 — GPU 클러스터는 학생이 빌리기엔 너무 비싸요. 그래서 “빌릴 수 없는 인프라에 대해 추론하는 법”을 시뮬레이터로 연습하게 해요. 비행기 조종사가 실제 비행 전에 시뮬레이터로 훈련하는 것과 같은 원리예요.

여기에 소크라테스식 문답으로 학습을 돕는 AI 튜터 SocratiQ까지 붙어 있어요. 각 조각이 따로 노는 게 아니에요. “이론만 배운 학생은 실전에서 무너지고, 실습만 한 학생은 원리를 물으면 무너지더라”는 강의 경험에서 나온 유기적 구성이라는 게 핵심이에요.

기존 학습 자료와 뭐가 다를까요

ML을 배울 자료는 이미 넘쳐나는데, 각각 커버하는 영역이 달라요.

실무 시나리오 하나만 들어볼게요. 요즘 많은 팀이 LLM API 비용 때문에 자체 서빙을 고민하는데요, 이때 필요한 지식 — 양자화(모델 숫자의 정밀도를 낮춰 크기와 속도를 개선하는 기법), 배칭 전략, GPU 메모리 계산 — 이 전부 이 교과서의 커버 범위예요. 이런 지식이 곧 월 수백만 원 단위의 인프라 비용 차이로 이어지고요.

마무리: 'AI 엔지니어링'이라는 학문의 탄생?

채용 공고를 보면 'AI 엔지니어'를 뽑는다면서 실제로 요구하는 건 모델링이 아니라 시스템 역량인 경우가 대부분이에요. 시장은 이미 알고 있는 거죠. 모델은 API로 빌려 쓸 수 있지만, 그걸 안정적이고 저렴하게 돌리는 시스템은 빌려 쓸 수 없다는 걸요. 하버드가 이 분야를 무료로, 한국어로, 실습까지 묶어서 공개한 지금이 어쩌면 가장 좋은 진입 시점일지도 몰라요.

여러분의 팀에서는 어떤가요? 모델을 만드는 시간과 시스템과 씨름하는 시간의 비율이 어느 정도인가요? 그리고 이 커리큘럼에서 가장 먼저 파보고 싶은 조각은 교과서, TinyTorch, 하드웨어 키트 중 어느 쪽인가요? 댓글로 여러분의 경험을 들려주세요.


🔗 출처: GitHub

SOURCE · GITHUB
원문 전체 보기 → https://github.com/harvard-edge/cs249r_book
SHARE
처리 중...