[심층분석] 모델은 넘치는데 '공학'이 없다 — 하버드가 무료로 풀어버린 ML 시스템 교과서 완전 해부

왜 지금 이 교과서가 나왔을까요

요즘 AI 공부를 시작하면 대부분 비슷한 길을 걸어요. 파이썬 배우고, 파이토치 튜토리얼 따라 하고, 허깅페이스에서 모델 받아서 파인튜닝해보고요. 그런데 막상 회사에서 AI 서비스를 운영해보면 이상한 걸 깨닫게 되거든요. 모델을 만드는 일은 전체 업무의 20%도 안 되고, 나머지 80%는 데이터 파이프라인, 서빙 인프라, 모니터링, 비용 최적화 같은 '시스템' 일이라는 거예요.

문제는 이 80%를 체계적으로 가르쳐주는 곳이 거의 없었다는 점이에요. 대학은 여전히 모델과 알고리즘 중심으로 가르치고, 실무 지식은 회사에서 삽질하며 몸으로 배우는 게 현실이었죠. 하버드의 CS249r 강의에서 출발한 오픈소스 교과서 “Machine Learning Systems”는 바로 이 간극을 정면으로 겨냥한 프로젝트예요. 저자인 비제이 자나파 레디(Vijay Janapa Reddi) 교수는 AI 하드웨어 성능을 재는 표준 벤치마크 MLPerf를 이끌어온 인물인데요. 이 분이 저장소 첫머리에 쓴 문장이 꽤 도발적이에요. “세상은 AI 시스템을 만들어내는 데 급급할 뿐, 그것을 엔지니어링하고 있지는 않다.” 다들 뭔가 뚝딱뚝딱 만들고는 있는데, 다리를 짓듯 설계하고 검증하는 '공학'은 없다는 지적이죠.

더 놀라운 건 이 교과서가 2026년 MIT Press에서 종이책으로 출간될 예정인데도 전체 내용이 무료로 공개되어 있다는 점이에요. 심지어 영어, 중국어, 일본어에 이어 한국어 번역까지 제공돼요.

뜯어보기: 책 한 권이 아니라 '커리큘럼 생태계'예요

이 저장소가 특별한 이유는 단순한 PDF 모음이 아니라는 데 있어요. 저자는 “독립된 프로젝트의 모음이 아니라 하나로 통합된 커리큘럼으로 설계했다”고 밝히는데요, 크게 네 개의 기둥으로 이뤄져 있어요.

1) 교과서 (Vol I + Vol II) — 이론 담당이에요. 데이터 수집부터 학습, 최적화, 배포, 운영까지 ML 시스템의 전체 생애주기를 다뤄요.

2) TinyTorch — 파이토치의 미니 버전을 밑바닥부터 직접 만들어보는 실습이에요. 이게 뭐냐면, 우리가 평소에 loss.backward() 한 줄로 쓰는 자동 미분(모델이 얼마나 틀렸는지 계산해서 각 파라미터를 어느 방향으로 고칠지 자동으로 알려주는 기능)을 직접 코드로 구현해보는 거예요. 운전만 하다가 엔진을 직접 조립해보는 경험이라고 생각하면 돼요. 엔진을 조립해본 사람은 차에서 이상한 소리가 날 때 원인을 짚어낼 수 있잖아요.

3) 하드웨어 키트와 Labs — 라즈베리파이나 아두이노급의 작은 기기에서 실제로 모델을 돌려보는 실습이에요. 클라우드에서는 메모리가 부족하면 더 큰 인스턴스를 띄우면 그만이지만, 손바닥만 한 보드 위에서는 그런 도망갈 구멍이 없거든요. 저자는 이걸 “실제 제약과 정면으로 마주하게 만드는 장치”라고 표현해요. 제약이야말로 최고의 스승이라는 거죠.

4) MLSys·im 시뮬레이터 — GPU 클러스터는 학생이 빌리기엔 너무 비싸요. 그래서 “빌릴 수 없는 인프라에 대해 추론하는 법”을 시뮬레이터로 연습하게 해요. 비행기 조종사가 실제 비행 전에 시뮬레이터로 훈련하는 것과 같은 원리예요.

여기에 소크라테스식 문답으로 학습을 돕는 AI 튜터 SocratiQ까지 붙어 있어요. 각 조각이 따로 노는 게 아니에요. “이론만 배운 학생은 실전에서 무너지고, 실습만 한 학생은 원리를 물으면 무너지더라”는 강의 경험에서 나온 유기적 구성이라는 게 핵심이에요.

기존 학습 자료와 뭐가 다를까요

ML을 배울 자료는 이미 넘쳐나는데, 각각 커버하는 영역이 달라요.

CS231n, fast.ai, 앤드류 응 강의: 모델을 '만드는' 법을 가르쳐요. 요리로 치면 레시피를 알려주는 수업이죠. 훌륭하지만, 100인분을 매일 안정적으로 내보내는 주방을 설계하는 법은 안 다뤄요.
칩 후옌(Chip Huyen)의 “Designing Machine Learning Systems”: 실무 ML 시스템 설계의 바이블로 꼽히지만, 설계 원칙과 사례 중심이라 직접 손으로 구현해보는 실습은 독자의 몫으로 남아요.
CMU의 Deep Learning Systems 강의: TinyTorch처럼 미니 딥러닝 프레임워크를 직접 구현하게 해요. 방향은 비슷한데 프레임워크 내부에 집중하는 반면, 하버드 커리큘럼은 손톱만 한 엣지 기기부터 데이터센터급 인프라까지 스펙트럼 전체를 다뤄요.
MLOps 도구 강의들(Kubeflow, MLflow 등): 도구 사용법은 빨리 익히지만, 도구는 2~3년이면 유행이 바뀌거든요. 이 교과서는 도구가 아니라 그 밑에 깔린 원리 — 왜 배치 크기가 처리량과 지연시간을 맞바꾸는지, 왜 양자화가 정확도를 깎는지 — 를 가르쳐요.

포지셔닝도 재밌어요. 이 프로젝트는 “좋은 강의 하나”가 되려는 게 아니라, 소프트웨어 공학에 SICP가 있고 시스템 프로그래밍에 CS:APP이 있듯 'AI 엔지니어링'이라는 새 분야의 정전(canon)이 되겠다는 야심을 드러내요. 올해 10만 명, 2030년까지 100만 명의 학습자를 목표로 내걸었을 정도니까요.

한국 개발자에게 주는 시사점

가장 반가운 소식부터 다시 강조할게요. 공식 한국어 번역이 있어요. 영어 스트레스 없이 바로 시작할 수 있다는 뜻이에요. 포지션별로 추천 경로를 짜보면 이래요.

주니어 / ML 입문자: Vol I을 정독하면서 TinyTorch를 병행하세요. 텐서와 자동 미분을 직접 구현해보면, 그동안 마법처럼 보이던 파이토치 에러 메시지가 읽히기 시작해요.
백엔드 개발자: 사실 여러분이 가장 유리한 위치예요. LLM 서비스 운영에서 터지는 문제 대부분(트래픽, 캐싱, 비용, 지연시간)이 이미 익숙한 문제거든요. 서빙과 최적화 챕터부터 골라 읽으면 'AI 인프라 엔지니어'로 가는 지름길이 열려요.
임베디드/IoT 개발자: Labs와 하드웨어 키트 파트가 보물창고예요. 갤럭시의 온디바이스 AI처럼 기기 안에서 직접 모델을 돌리는 흐름이 대세가 되면서, 작은 칩에 모델을 욱여넣는 기술의 몸값이 계속 오르고 있거든요.

실무 시나리오 하나만 들어볼게요. 요즘 많은 팀이 LLM API 비용 때문에 자체 서빙을 고민하는데요, 이때 필요한 지식 — 양자화(모델 숫자의 정밀도를 낮춰 크기와 속도를 개선하는 기법), 배칭 전략, GPU 메모리 계산 — 이 전부 이 교과서의 커버 범위예요. 이런 지식이 곧 월 수백만 원 단위의 인프라 비용 차이로 이어지고요.

마무리: 'AI 엔지니어링'이라는 학문의 탄생?

채용 공고를 보면 'AI 엔지니어'를 뽑는다면서 실제로 요구하는 건 모델링이 아니라 시스템 역량인 경우가 대부분이에요. 시장은 이미 알고 있는 거죠. 모델은 API로 빌려 쓸 수 있지만, 그걸 안정적이고 저렴하게 돌리는 시스템은 빌려 쓸 수 없다는 걸요. 하버드가 이 분야를 무료로, 한국어로, 실습까지 묶어서 공개한 지금이 어쩌면 가장 좋은 진입 시점일지도 몰라요.

여러분의 팀에서는 어떤가요? 모델을 만드는 시간과 시스템과 씨름하는 시간의 비율이 어느 정도인가요? 그리고 이 커리큘럼에서 가장 먼저 파보고 싶은 조각은 교과서, TinyTorch, 하드웨어 키트 중 어느 쪽인가요? 댓글로 여러분의 경험을 들려주세요.

🔗 출처: GitHub

[심층분석] 모델은 넘치는데 '공학'이 없다 — 하버드가 무료로 풀어버린 ML 시스템 교과서 완전 해부

왜 지금 이 교과서가 나왔을까요

뜯어보기: 책 한 권이 아니라 '커리큘럼 생태계'예요

기존 학습 자료와 뭐가 다를까요

한국 개발자에게 주는 시사점

마무리: 'AI 엔지니어링'이라는 학문의 탄생?

이어서 읽을 만한, 세 편.

로그인

추가 정보 입력

회원가입

수강 신청

비밀번호 찾기