
왜 지금 이 이야기가 나올까
딥러닝을 공부하다 보면 이상한 기분이 들 때가 있어요. 분명 수학으로 돌아가는 기술인데, 막상 현장에서는 "이렇게 하면 왠지 잘 되더라" 같은 경험칙이 훨씬 많거든요. 학습률을 얼마로 잡을지, 레이어를 몇 층 쌓을지, 배치 크기는 어떻게 할지 - 이런 걸 정하는 기준은 대부분 '많이 해봐서 알게 된 감'에 가깝습니다. 연구자들 사이에서 딥러닝을 '연금술(alchemy)'이라고 부르는 농담이 괜히 있는 게 아니에요.
이번에 arXiv에 올라온 논문은 이 문제를 정면으로 다룹니다. 제목부터 꽤 도발적이에요. "딥러닝에 대한 과학적 이론은 분명히 나올 것이다." 단순히 "있었으면 좋겠다"가 아니라 "반드시 나온다"는 예언에 가까운 어조죠.
핵심 주장: 지금의 딥러닝은 '뉴턴 이전의 역학'
저자가 꺼내는 비유가 재미있습니다. 지금의 딥러닝 연구 상태는 뉴턴 이전의 역학이나 맥스웰 이전의 전자기학과 비슷하다는 거예요. 그게 뭐냐면, 현상은 수없이 많이 관찰되고 있고 응용도 엄청나게 잘 되고 있는데, 정작 "왜 그렇게 되는가"를 통합해서 설명하는 근본 원리가 없는 상태를 말합니다. 케플러가 행성 운동을 수십 년간 관측 데이터로 정리했지만, 그걸 'F=ma'와 중력 법칙으로 깔끔하게 묶어낸 건 뉴턴이었잖아요.
딥러닝도 지금 '케플러의 시대'라는 거예요. 스케일링 법칙(모델이 커질수록 성능이 좋아지는 경향), 이중 하강(double descent), 그로킹(grokking, 한참 학습한 뒤 갑자기 일반화되는 현상) 같은 신기한 경험적 법칙들은 쏟아지고 있는데, 이걸 하나로 엮어줄 원리가 없는 상황이죠. 저자는 이런 고립된 관찰들이 축적되다 보면 결국 어느 시점에 통합 이론이 나올 수밖에 없다고 봅니다.
왜 아직 이론이 없을까
딥러닝 이론이 어려운 이유는 분석 대상이 너무 복잡하기 때문이에요. 수백억 개의 파라미터가 비선형적으로 얽혀 있고, 학습 과정은 고차원 공간에서 돌아가는 확률적 최적화입니다. 물리학처럼 대칭성이나 보존 법칙 같은 강력한 제약이 덜 드러나 있어요. 기존에도 뉴럴 탄젠트 커널(NTK), 평균장 이론, 정보 병목 이론 같은 시도가 있었지만, 각자 특정 조건 안에서만 작동하는 부분 이론에 머물렀죠.
저자는 이 상황이 오래 가지 않을 거라고 봅니다. 근거는 역사예요. 인류는 복잡해 보이는 자연 현상도 결국 몇 개의 방정식으로 줄여왔거든요. 딥러닝이 예외일 이유는 없다는 거죠.
업계 맥락에서 보면
흥미로운 건 이 논문이 나온 타이밍입니다. 요즘 AI 업계는 '스케일이 전부다'라는 분위기가 강해요. 데이터 더 넣고 파라미터 더 키우면 성능이 오른다는 경험적 결론이 압도적이거든요. 그런데 동시에 OpenAI, Anthropic, DeepMind 같은 곳에서는 해석가능성(interpretability) 연구에 점점 더 많은 자원을 붓고 있어요. 모델 안에서 무슨 일이 벌어지는지 이해하지 못하면 안전성도 보장할 수 없으니까요.
이 논문의 주장은 이 두 흐름 사이에 있습니다. "무작정 키우기"와 "무조건 해석하기" 사이에서, 결국 딥러닝을 지배하는 보편 원리를 찾아야 한다는 제3의 길이에요.
한국 개발자에게 주는 시사점
실무에서 당장 뭔가 바뀌진 않을 거예요. 내일 출근해서 쓸 PyTorch 코드가 달라지진 않습니다. 다만 한 가지 관점은 가져가볼 만해요. 지금 우리가 쓰는 학습 기법, 하이퍼파라미터 감, 아키텍처 선택 중 상당수는 몇 년 뒤에 "아, 그때는 그렇게 할 수밖에 없었지"라고 회고될 가능성이 있다는 점입니다. 기초 이론을 공부해둔 사람에게는 그 전환기에 유리한 포지션이 생길 거예요.
특히 ML 엔지니어로 커리어를 길게 가져가고 싶다면, 프레임워크 API만 따라가지 말고 가끔은 최적화 이론, 고차원 확률, 정보 이론 같은 기초 도구를 들여다보는 시간을 만들어두는 게 좋습니다.
마무리
딥러닝은 아직 '연금술'에서 '화학'으로 넘어가는 중이에요. 그 전환이 5년 안에 올지 50년 뒤에 올지는 아무도 모르지만, 온다면 분명히 판이 크게 흔들릴 겁니다.
여러분은 어떻게 보시나요? 딥러닝의 통합 이론이 실제로 나올 수 있을까요, 아니면 복잡계처럼 '환원할 수 없는 복잡성'으로 남을까요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공