AI가 AI를 만들기 시작하면? 앤트로픽이 말하는 '재귀적 자기개선'의 현주소

무슨 이야기냐면요

앤트로픽이 재귀적 자기개선(recursive self-improvement)에 대한 자신들의 진행 상황을 공개했어요. 단어가 좀 무섭게 들리죠? 풀어서 설명할게요.

재귀적 자기개선이란 'AI가 더 나은 AI를 만드는 일을 스스로 돕고, 그렇게 더 똑똑해진 AI가 또 그다음 AI를 더 잘 만드는' 식으로 발전이 꼬리에 꼬리를 무는 걸 말해요. 마치 거울 두 개를 마주 보게 세우면 상이 끝없이 반복되는 것처럼요. 이론적으로는 이게 한번 제대로 굴러가기 시작하면 발전 속도가 폭발적으로 빨라질 수 있어서, AI 안전 연구자들이 오래전부터 주목해온 주제예요.

지금 어디까지 왔나

핵심은 이미 부분적으로 일어나고 있다는 거예요. SF 영화처럼 AI가 혼자 깨어나서 자기 코드를 고치는 그런 게 아니라, 훨씬 현실적인 모습이에요. 예를 들면 이런 거예요.

첫째, AI가 AI 연구 자체를 돕는 단계예요. 앤트로픽 같은 회사의 연구자들이 Claude를 써서 코드를 짜고, 실험을 설계하고, 결과를 분석해요. 다음 모델을 만드는 작업의 상당 부분을 현재 모델이 거들고 있는 거죠. AI가 직접 자기를 고치는 건 아니지만, '인간 연구자 + AI' 팀의 생산성이 올라가면서 발전 속도가 빨라지는 간접적인 자기개선이에요.

둘째, 학습 데이터와 평가를 AI가 만드는 거예요. 좋은 AI를 만들려면 좋은 훈련 데이터와, 모델을 채점할 정확한 시험 문제가 필요한데, 이걸 점점 AI가 생성하고 있어요. 사람이 일일이 데이터를 라벨링하던 시대에서, AI가 데이터를 만들고 거르는 시대로 넘어가는 중이에요.

셋째, 자동화된 코딩 에이전트예요. 이게 뭐냐면, 'A 기능 만들어줘'라고 하면 코드를 짜고, 테스트를 돌려보고, 안 되면 스스로 고치는 일을 반복하는 AI예요. 이런 능력이 좋아질수록 AI 개발 파이프라인의 더 많은 부분을 AI가 맡게 돼요.

왜 '안전'을 강조하나

앤트로픽이 이 글을 낸 진짜 의도는 자랑이 아니라 경고와 약속에 가까워요. 자기개선이 빨라지면 좋은 점도 많지만, 인간이 통제할 수 있는 속도를 넘어설 위험도 커지거든요. 그래서 '이 능력이 어느 수준에 도달하면 어떤 안전장치를 작동시키겠다'는 식의 단계별 기준(이걸 보통 책임 있는 스케일링 정책이라고 불러요)을 미리 정해두자는 거예요.

쉽게 비유하면, 자동차가 점점 빨라지는 걸 막을 순 없으니 속도계와 브레이크, 안전벨트를 먼저 갖추자는 이야기예요. AI가 스스로를 개선하는 능력을 측정하고, 위험한 임계점을 미리 정의해두려는 시도죠.

업계 흐름에서 보면

구글 딥마인드, OpenAI 같은 곳들도 비슷한 고민을 해요. 특히 'AI가 AI 연구를 가속한다'는 건 모든 선두 연구소의 공통된 방향이에요. 차이가 있다면 앤트로픽은 안전과 해석 가능성(AI가 왜 그런 판단을 했는지 들여다보는 연구)을 유난히 앞세운다는 점이에요. 같은 기술을 두고도 '얼마나 빨리'보다 '얼마나 통제 가능하게'에 무게를 두는 포지션이라고 보면 돼요.

한국 개발자에게는

당장 코드에 적용할 기술은 아니에요. 하지만 흐름은 분명히 봐둘 가치가 있어요. AI 코딩 에이전트가 점점 똑똑해지면서, 우리 일하는 방식도 '코드를 직접 짜는 사람'에서 '에이전트를 잘 부리고 검증하는 사람'으로 이동하고 있거든요. 재귀적 자기개선의 현실판이 바로 우리 일상의 코딩 보조 도구인 셈이에요. 그리고 AI 안전이라는 분야가 단순히 윤리 토론이 아니라, 측정 가능한 공학 문제로 다뤄지고 있다는 점도 인상적이에요.