인류의 모든 요리법을 2MB로 압축한다 - 데이터 압축의 흥미로운 실험

2MB 안에 들어가는 인류의 부엌

"인류가 만든 모든 요리를 2메가바이트로 압축한다"라니, 제목부터 황당하게 들리죠? 그런데 이건 농담이 아니라 실제 학술 논문의 주장이에요. 연구자들은 전 세계 요리 데이터베이스를 모으고, 그 안의 패턴을 분석한 다음, 매우 효율적인 표현 방식으로 변환해서 결과적으로 단 2MB짜리 파일에 모든 요리 정보를 담을 수 있다는 걸 보였어요.

2MB가 어느 정도냐면, 요즘 스마트폰 사진 한 장도 안 되는 크기예요. mp3 음악 한 곡의 절반쯤이고, 이 글 정도 분량의 텍스트 파일을 압축한 것보다 그리 크지 않아요. 그 안에 김치찌개부터 부야베스, 비르야니, 파에야까지 다 들어간다는 거예요. 어떻게 그게 가능할까요?

압축의 비밀은 "구조"에 있어요

핵심 통찰은 이거예요. 요리는 보기보다 훨씬 패턴화되어 있다. 우리가 "이 요리, 저 요리" 하면서 다 다른 것 같지만, 실제로는 몇 가지 기본 단위가 조합되어 있을 뿐이거든요. 예를 들어 보면, 재료는 전 세계에서 사용되는 게 수천 가지지만 자주 쓰이는 건 백 가지 남짓이에요. 조리 동작도 "볶다, 끓이다, 굽다, 찌다, 데치다, 졸이다" 같은 몇십 개 정도로 추려져요. 도구도, 양념 조합도, 조리 시간 패턴도 다 비슷한 구조를 가져요.

연구자들이 한 일은 이걸 일종의 계층적 표현으로 바꾸는 거예요. 위 레이어에는 "국물 요리", "볶음 요리", "굽는 요리" 같은 큰 분류가 있고, 그 아래에 "한국식 국물", "태국식 국물" 같은 지역 변이가 있고, 그 아래에 구체적인 레시피가 있어요. 이렇게 트리 구조로 쪼개면, 공통된 상위 패턴은 한 번만 저장하고, 차이가 나는 부분만 작게 표현할 수 있어요. 일반 파일 압축이 "같은 글자가 반복되면 줄여라" 수준이라면, 이 접근은 "요리 자체의 의미 구조"를 이용한 압축이라 훨씬 강력해요.

또 하나의 트릭은 확률적 표현이에요. 예를 들어 "한국식 찌개"라는 카테고리에는 고추장, 된장, 김치 같은 베이스가 자주 등장하고, 두부, 호박, 양파 같은 채소가 함께 나오는 빈도가 높아요. 이런 통계적 패턴을 모델이 학습하면, 구체적인 레시피 하나를 저장할 때 "평균적인 한국 찌개에서 이 부분이 다르다" 정도만 기록해도 복원이 가능해져요. 정보 이론에서 말하는 "엔트로피 부호화(entropy coding)"의 원리를 도메인 지식과 결합한 거죠.

단순한 압축 이상의 의미

이 연구가 흥미로운 진짜 이유는 단순히 "파일 작게 만들기"가 아니에요. "인간의 활동이 얼마나 정보 이론적으로 압축 가능한가"라는 질문을 던지고 있거든요. 요리 같은 복잡해 보이는 인간 활동도 사실은 굉장히 적은 정보로 표현 가능하다는 건, 인간의 창의성이 무한히 다양해 보이지만 실제로는 좁은 가능성 공간 안에서 변주되고 있다는 걸 시사해요.

이건 LLM이 어떻게 그렇게 적은 파라미터로 인간 언어를 잘 모방하는지와도 연결돼요. 인간이 만들어내는 텍스트, 음악, 요리, 패션 같은 것들이 모두 "심층 구조"를 공유하기 때문에, 그 구조만 잘 잡아내면 표면적으로 무한해 보이는 결과물도 사실은 작은 모델로 표현 가능하다는 거예요.

비슷한 시도들

이런 "의미 기반 압축" 흐름은 여러 곳에서 일어나고 있어요. 단백질 구조를 다루는 AlphaFold는 어떤 의미에서 "단백질 폴딩 공간의 압축"이고, Stable Diffusion의 잠재 공간(latent space)은 이미지 공간의 압축이에요. 텍스트에서는 LLM 자체가 인간 언어의 엄청난 압축이라고 볼 수 있죠. GPT-4의 가중치는 수백 GB이지만, 그 안에 인터넷의 상당 부분에 해당하는 "패턴"이 들어 있어요. 이번 요리 연구는 같은 사상을 "좁고 명확한 도메인"에 적용한 사례라고 보면 좋아요.

한국 개발자에게 주는 시사점

실무에 바로 쓸 일은 적지만, 사고방식 측면에서 배울 게 많아요. 첫째, 데이터를 압축할 때 도메인 구조를 활용하는 게 가장 강력해요. gzip 같은 일반 압축은 마지막에 적용하면 되고, 진짜 큰 절감은 "내 데이터에는 어떤 의미 구조가 있는가"를 파악하는 데서 나와요. 둘째, 추천 시스템, 검색 인덱스, 임베딩 설계 같은 일에서도 비슷한 원리가 통해요. 사용자 행동도 사실 몇 가지 패턴의 조합이거든요. 셋째, AI 모델 설계할 때 "데이터가 가진 본질적 차원은 작다"는 가정이 종종 옳다는 걸 기억해두면 좋아요.