TECH 으로 돌아가기
TECH HACKER NEWS 2주 전 6분 읽기 94 READS

단백질 모양은 왜 이렇게 '재탕'이 많을까 — 자연의 비합리적인 접힘 중복성

단백질 모양은 왜 이렇게 '재탕'이 많을까 — 자연의 비합리적인 접힘 중복성

무슨 이야기냐면요

우리 몸을 포함해서 생명체를 움직이는 거의 모든 일은 단백질이 합니다. 그런데 단백질이 일을 하려면 먼저 '제대로 된 모양'으로 접혀야 해요. 이게 뭐냐면, 단백질은 처음에 아미노산이 줄줄이 이어진 긴 끈 같은 형태로 만들어지는데요, 이 끈이 저절로 꼬이고 접혀서 입체적인 3차원 구조가 되어야 비로소 효소든 운반체든 제 역할을 합니다. 끈 상태로는 아무것도 못 해요.

이번 글의 핵심은 좀 의외의 사실이에요. 아미노산 서열은 사실상 무한에 가깝게 다양한데, 정작 단백질이 접혀서 만들어지는 '모양(fold)'의 종류는 놀랄 만큼 적다는 거예요. 서로 전혀 닮지 않은 서열들이 알고 보면 거의 똑같은 형태로 접힌다는 거죠. 자연이 모양을 엄청나게 '재탕'하고 있다는 이야기입니다.

얼마나 중복되는 거냐면

아미노산은 20종류가 있어요. 길이가 100개짜리 단백질만 해도 경우의 수가 20의 100제곱, 우주의 원자 수보다 훨씬 큰 천문학적인 숫자가 나옵니다. 상식적으로는 모양도 그만큼 다양해야 할 것 같잖아요? 그런데 실제로 분류해 보면 자연에 존재하는 기본 접힘 형태는 수천 가지 수준에 불과해요. 게다가 그중에서도 소수의 인기 있는 형태가 전체의 큰 비중을 차지합니다.

비유하자면 이런 거예요. 한글 자음·모음을 조합하면 만들 수 있는 단어가 어마어마하게 많은데, 실제로 우리가 일상에서 쓰는 단어 패턴은 몇천 개 안쪽으로 돌고 도는 것과 비슷하죠. 서열이라는 '재료'는 거의 무한한데 결과물인 '모양'은 한정된 레퍼토리 안에서 반복된다는 겁니다.

왜 이럴까요? 글에서 짚는 핵심은 안정성이에요. 아무렇게나 접힌 모양은 대부분 불안정해서 금방 풀리거나 뭉쳐버리고, 그중에서 물리적으로 튼튼하게 자기 모양을 유지할 수 있는 형태만 살아남았다는 거예요. 진화는 새 모양을 발명하기보다, 이미 잘 작동하는 검증된 모양을 가져다 서열만 살짝 바꿔서 새 기능을 붙이는 쪽을 훨씬 선호했습니다. 일종의 '코드 재사용'인 셈이죠.

개발자 관점에서 흥미로운 지점

이 이야기가 왜 우리 같은 사람들한테도 재밌냐면, 요즘 단백질 구조 예측은 AI의 핵심 무대거든요. 알파폴드(AlphaFold) 같은 모델이 서열만 넣으면 3차원 구조를 척척 맞히는데, 사실 그게 가능했던 이유 중 하나가 바로 이 '중복성'이에요. 모양의 레퍼토리가 한정돼 있으니까, 모델 입장에서는 완전히 새로운 걸 매번 발명하는 게 아니라 학습해 둔 패턴 안에서 짜맞추면 되는 거죠. 데이터에 같은 폴드가 반복적으로 등장하니 학습이 잘 되는 겁니다.

이건 우리가 머신러닝을 다룰 때 늘 마주치는 구도와도 닮았어요. 입력 공간은 사실상 무한해도, 실제 데이터가 분포하는 '의미 있는 영역'은 훨씬 좁은 저차원 공간에 몰려 있다는 것. 이른바 매니폴드 가설(manifold hypothesis)이라고 부르는 직관과 정확히 통합니다. 자연의 단백질도 결국 가능한 모양 전체가 아니라, 안정성이라는 제약이 걸러낸 좁은 부분집합 위에서만 움직이고 있었던 거예요.

한국 개발자에게 주는 시사점

바이오 쪽이 아니더라도 챙겨갈 통찰이 있어요. 거대해 보이는 가능성 공간도 실제로 의미 있는 해(解)는 한 줌에 몰려 있다는 발상이요. 추천 시스템, 임베딩 설계, 생성 모델을 만들 때 '경우의 수가 너무 많아 보인다'고 겁먹기보다, 실제 유효한 패턴이 어디에 뭉쳐 있는지를 먼저 찾는 게 본질이라는 거죠. 자연이 수십억 년의 진화로 도달한 결론이 '검증된 구조를 재사용하라'였다는 점은, 매번 새 아키텍처를 짜기보다 잘 되는 패턴을 응용하는 우리 엔지니어링 습관에도 묘한 위안을 줍니다.

마무리

한 줄로 정리하면, 자연은 모양을 새로 발명하지 않고 검증된 걸 재탕하며, 그 덕분에 AI가 단백질을 예측할 수 있게 됐다는 이야기예요. 여러분은 어떻게 보시나요? 이 '한정된 레퍼토리'가 진화가 도달할 수 있었던 최선이라고 봐야 할까요, 아니면 우리가 아직 못 본 새로운 폴드가 자연 바깥 어딘가에 잔뜩 숨어 있을까요?


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://research.ligo.bio/posts/unreasonable-redundancy-of-n...
SHARE
처리 중...