처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.06.16 29

JEPA의 핵심 아이디어, 사실 90년 된 통계 기법이었다? — 정준상관분석(CCA) 이야기

Hacker News 원문 보기
JEPA의 핵심 아이디어, 사실 90년 된 통계 기법이었다? — 정준상관분석(CCA) 이야기

요즘 AI 학계에서 핫한 JEPA, 그 뿌리가 1936년에 있다고요?

AI 쪽 소식 챙겨보신 분이라면 JEPA라는 단어 들어보셨을 거예요. 딥러닝의 대가 얀 르쿤(Yann LeCun)이 "생성형 모델 말고 이게 진짜 미래다"라며 강하게 밀고 있는 학습 방식이에요. 그런데 어떤 분이 흥미로운 분석을 내놨어요. "JEPA의 핵심 아이디어는 사실 90년 전에 나온 통계 기법이랑 똑같다"는 거죠. 그 기법 이름이 정준상관분석, 영어로 CCA(Canonical Correlation Analysis)예요.

좀 어려워 보이지만, 하나씩 풀어보면 "어 정말 그러네?" 싶은 깔끔한 이야기라 정리해봤어요.

먼저 JEPA가 뭐냐면요

요즘 이미지 생성 AI들은 보통 픽셀을 직접 예측해요. 그림의 일부를 가린 다음 "여기 원래 무슨 색이었게?" 하고 맞히는 식으로 학습하는 거죠. 근데 이게 좀 비효율적이에요. 그림 한 장에서 풀잎 하나하나, 픽셀 하나하나를 다 정확히 복원하는 건 사실 우리가 원하는 '이해'와는 거리가 있거든요. 사람도 사진을 볼 때 픽셀을 외우진 않잖아요. "아 강아지가 잔디밭에 있네" 정도의 의미만 잡죠.

JEPA(Joint Embedding Predictive Architecture)는 바로 이 지점을 바꿨어요. 픽셀을 직접 맞히는 대신, '표현(임베딩) 공간'에서 예측해요. 임베딩이 뭐냐면, 데이터를 의미를 담은 숫자 벡터로 압축한 거예요. 그러니까 "가려진 부분의 픽셀"이 아니라 "가려진 부분의 의미 요약본"을 맞히는 거죠. 쓸데없는 디테일은 버리고 본질만 학습하자는 발상이에요.

그럼 CCA는 또 뭔데요

CCA(정준상관분석)는 통계학자 해럴드 호텔링이 1936년에 제안한 방법이에요. 거의 90년 됐죠. 아이디어는 의외로 단순해요. 서로 짝지어진 두 종류의 데이터가 있을 때(예: 같은 장면을 찍은 두 장의 사진), 각각을 잘 변환해서 둘 사이의 상관관계가 최대가 되는 방향을 찾는 것이에요.

쉽게 비유하면, 한국어 문장과 그걸 번역한 영어 문장이 잔뜩 있다고 해볼게요. CCA는 "한국어를 이렇게 요약하고, 영어를 저렇게 요약하면, 두 요약본이 거의 똑같아지는" 그런 요약 방식을 자동으로 찾아주는 거예요. 즉 서로 다른 두 시각(view)에서 공통된 알맹이만 뽑아내는 기법인 거죠.

이 둘이 왜 같은 이야기냐면

여기서 연결이 보이기 시작해요. JEPA는 같은 대상의 두 가지 모습(예: 원본 이미지와 일부 가린 이미지)을 각각 임베딩으로 만든 뒤, 한쪽 임베딩으로 다른 쪽 임베딩을 예측해요. 그런데 "A로 B를 잘 예측한다"는 건 결국 "A와 B가 강하게 상관되어 있다"는 말과 같거든요. 바로 CCA가 90년 전부터 최대화하려던 그 상관관계요.

그리고 자기지도학습에는 악명 높은 함정이 하나 있어요. 바로 붕괴(collapse) 문제예요. 모델이 꾀를 부려서 "그냥 모든 입력을 똑같은 값 하나로 뭉개버리면 예측이 100% 맞잖아?" 하고 자명한 답으로 도망가는 거죠. 이러면 상관관계는 완벽하지만 아무 의미도 못 배워요. 흥미롭게도 CCA에는 이걸 막는 장치가 처음부터 들어 있었어요. 임베딩의 분산(퍼짐 정도)을 일정하게 유지하라는 제약이 그거예요. 한 점으로 뭉치는 걸 수학적으로 금지하는 거죠. 요즘 JEPA 계열이 쓰는 정규화 기법들이 사실은 이 오래된 아이디어와 맞닿아 있다는 게 글의 핵심이에요.

다른 방식들과 비교하면

자기지도학습에는 크게 세 갈래가 있어요. 생성형(픽셀을 직접 복원하느라 디테일에 너무 집착), 대조학습(contrastive, SimCLR처럼 비슷한 건 가깝게·다른 건 멀게 배치하는데 부정 샘플이 많이 필요), 그리고 JEPA 같은 임베딩 예측 방식이에요. VICReg 같은 최신 기법들이 분산·공분산 제약으로 붕괴를 막는데, 이게 바로 CCA의 정신을 현대적으로 되살린 형태라고 볼 수 있어요.

한국 개발자에게 주는 시사점

이 이야기의 교훈은 좀 묵직해요. 최신 딥러닝 기법이라고 해서 완전히 새로운 게 아니라, 수십 년 된 통계학의 토대 위에 서 있는 경우가 많다는 거예요. 그래서 선형대수, 통계, 상관·분산 같은 기초를 탄탄히 해두면, 화려한 신기술이 나와도 "아 이거 결국 그 원리네" 하고 본질을 빠르게 꿰뚫을 수 있어요. 유행을 좇기보다 기초에 투자하는 게 길게 보면 이득이라는 거죠.

마무리

핵심 한 줄: 르쿤이 미래라고 부르는 JEPA의 심장에는, 1936년 통계학자가 고민하던 "두 시각의 공통 알맹이 찾기"라는 90년 된 아이디어가 뛰고 있어요.

여러분은 어떻게 생각하세요? 최신 AI 기법을 공부할 때, 이렇게 고전 이론으로 거슬러 올라가는 접근이 도움이 되던가요? 아니면 그냥 최신 논문만 따라가는 게 실전엔 더 빠를까요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

파이썬으로 자동화를 시작해보세요

파이썬 기초부터 자동화까지 실전 강의.

파이썬 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.