[심층분석] Claude Fable 5와 Mythos 5: '너무 강력해서' 안전장치를 따로 단 AI가 등장했어요

들어가며: AI가 '위험할 만큼 똑똑해졌다'는 게 무슨 뜻일까요?

2026년 6월 9일, Anthropic이 새로운 모델 두 개를 동시에 발표했어요. 이름이 좀 특이한데요, 하나는 Claude Fable 5(페이블 5), 다른 하나는 Claude Mythos 5(미토스 5)예요. 그런데 발표문을 읽다 보면 좀 묘한 기분이 들거든요. 보통 회사들은 새 모델을 내면서 "역대 최강이에요, 빨리 써보세요!" 하고 자랑만 하잖아요. 그런데 이번 발표는 분위기가 달라요. "이 모델은 너무 강력해서, 그냥 풀어놓으면 위험할 수도 있어요"라는 경고가 앞부분에 떡하니 나와요.

이게 무슨 말이냐면요. Fable 5는 지금까지 Anthropic이 일반 사용자에게 공개한 모델 중에 가장 똑똑한 모델이에요. 소프트웨어 개발, 지식 노동, 이미지 분석(비전), 과학 연구 같은 거의 모든 벤치마크(성능 측정 시험이라고 보면 돼요)에서 1등을 찍었다고 해요. 특히 작업이 길고 복잡할수록 다른 모델들과의 격차가 더 벌어진대요.

문제는 이렇게 똑똑하면 좋은 일에도 쓸 수 있지만, 나쁜 일에도 쓸 수 있다는 거예요. 예를 들어 사이버 보안 쪽 능력이 너무 뛰어나면, 누군가 이걸 해킹 도구로 악용할 수도 있겠죠. 그래서 Anthropic은 고민 끝에 좀 독특한 방식을 택했어요. 바로 "같은 두뇌, 다른 안전장치" 전략이에요.

기술 분석: 같은 모델인데 왜 이름이 두 개일까요?

Fable 5 = 강력한 두뇌 + 안전벨트

Fable 5는 일반 사용자용이에요. 핵심을 쉽게 말하면, 엄청 똑똑한 모델에 안전벨트를 채워서 내보낸 버전이에요.

Anthropic은 Fable 5를 'Mythos급(Mythos-class)' 모델이라고 부르는데요, 이게 뭐냐면 원래 두뇌 자체는 Mythos 5와 똑같다는 뜻이에요. 다만 위험할 수 있는 특정 주제(예: 사이버 공격 같은)에 대해 질문이 들어오면, Fable 5가 직접 답하지 않고 한 단계 아래 모델인 Claude Opus 4.8이 대신 답하도록 우회시켜요.

비유를 들어볼게요. 회사에 엄청 유능한 신입 천재가 들어왔다고 쳐요. 이 친구는 뭐든 다 할 줄 알아요. 그런데 회사가 "위험한 작업(예: 보안 시스템 뚫기)을 시키면, 이 천재 대신 경험 많고 신중한 선배가 대신 처리하게 하자"고 규칙을 정한 거예요. 평소엔 천재가 일하다가, 위험 신호가 감지되면 자동으로 선배에게 바통을 넘기는 거죠.

그런데 이 안전장치를 좀 보수적으로(conservatively) 설정했대요. 무슨 말이냐면, 안전을 우선하다 보니 가끔은 멀쩡하고 무해한 질문까지 막아버린다는 거예요. 이걸 '거짓 양성(false positive)'이라고 불러요. 쉽게 말해 '진짜 위험이 아닌데 위험으로 잘못 판단한 경우'예요. Anthropic은 이 우회 장치가 평균적으로 전체 대화 세션의 5% 미만에서만 작동한다고 밝혔어요. 100번 대화하면 5번 정도는 한 단계 낮은 모델이 답할 수도 있다는 얘기죠. 앞으로 더 똑똑한 모델들이 나오면서 이 오작동 비율을 빠르게 줄여나가겠다고 했어요.

Mythos 5 = 안전벨트를 일부 푼 버전

반면 Mythos 5는 아무나 못 써요. 사이버 방어 전문가나 인프라 제공 업체 같은 아주 소수의 신뢰받는 그룹에게만 제공돼요. 두뇌는 Fable 5와 완전히 똑같은데, 위험 영역의 안전장치를 일부 풀어놓은 버전이에요.

Mythos 5는 처음엔 'Project Glasswing(글래스윙 프로젝트)'이라는 미국 정부와의 협업 프로젝트를 통해 배포돼요. Anthropic은 이 모델이 "세계에서 가장 강력한 사이버 보안 능력"을 갖췄다고 자신하고 있어요. 여기서 재미있는 점은, 같은 능력이라도 누가 어떤 목적으로 쓰느냐에 따라 공격 도구도 되고 방어 도구도 된다는 거예요. 그래서 방어자(cyberdefender) 손에 쥐어주면 중요한 소프트웨어를 더 안전하게 지킬 수 있다는 게 핵심 논리예요.

가격과 성능: 더 싸졌어요

흥미로운 건 가격이에요. Fable 5와 Mythos 5는 입력 100만 토큰당 $10, 출력 100만 토큰당 $50으로 책정됐어요. 토큰이라는 게 뭐냐면, AI가 글을 읽고 쓸 때 단어를 잘게 쪼갠 조각이라고 보면 돼요. 한글 한 글자나 영어 짧은 단어 하나가 대략 토큰 하나 정도예요.

이게 이전 모델인 Claude Mythos Preview에 비하면 절반도 안 되는 가격이라고 해요. 성능은 올라갔는데 가격은 떨어졌다는 거죠. 이건 AI 업계의 일반적인 흐름이기도 한데, 시간이 갈수록 '같은 돈으로 더 똑똑한 모델'을 쓸 수 있게 되고 있어요.

실제로 뭘 잘하나요? 스트라이프 사례

발표문에 인상적인 사례가 하나 나와요. 결제 회사로 유명한 Stripe(스트라이프)가 초기 테스트에서 "Fable 5가 몇 달치 엔지니어링 작업을 며칠로 압축했다"고 보고했대요.

특히 5천만 줄짜리 Ruby 코드베이스에서 좋은 성능을 보였다고 하는데요. 5천만 줄이라니 감이 잘 안 오죠? 이게 얼마나 큰 거냐면, 보통 중견 스타트업의 전체 서비스 코드가 수십만~수백만 줄 수준이에요. 5천만 줄이면 거대 기업의 핵심 시스템급이에요. 사람 개발자가 이걸 다 파악하려면 몇 년이 걸려도 모자라거든요. 그런데 AI가 이 방대한 코드를 이해하고 작업을 해냈다는 거예요.

여기서 핵심 키워드가 '오래 자율적으로 일한다(work autonomously for longer)'예요. 이게 뭐냐면, 예전 AI는 짧은 질문 하나에 답하는 건 잘했지만, "이 큰 프로젝트를 처음부터 끝까지 알아서 해줘" 같은 긴 작업은 중간에 길을 잃곤 했어요. 그런데 Fable 5는 사람이 일일이 지시하지 않아도 긴 호흡의 복잡한 작업을 스스로 끌고 나갈 수 있게 됐다는 거죠. 마치 신입에게 자잘한 일만 시키다가, 이제는 "이 프로젝트 통째로 맡아줘"라고 믿고 맡길 수 있는 시니어로 성장한 느낌이에요.

업계 맥락과 비교: 'AI 안전' 접근법의 갈림길

이번 발표가 흥미로운 이유는, AI 회사들이 '강력함'과 '안전함' 사이에서 어떻게 균형을 잡는지에 대한 서로 다른 철학을 보여주기 때문이에요.

크게 두 가지 길이 있어요.

첫 번째 길: "일단 강력한 모델을 다 풀어놓고, 문제가 생기면 그때 막자"는 접근. 빠르지만 위험할 수 있어요.
두 번째 길: "능력은 똑같이 두되, 위험한 영역만 골라서 차단하자"는 접근. Anthropic이 이번에 택한 방식이에요.

Anthropic의 방식은 일종의 '능력 분리(capability gating)' 전략이에요. 쉽게 말해, 같은 엔진을 만들어 놓고 액셀을 밟을 수 있는 사람과 못 밟는 사람을 나누는 거예요. 일반 운전자에겐 속도 제한이 걸린 차(Fable 5)를, 전문 레이서에겐 제한을 푼 차(Mythos 5)를 주는 거죠.

이 접근의 장점은, 강력한 능력을 사회적으로 이로운 곳(보안 방어, 신약 개발 등)에 빨리 투입하면서도 악용 위험은 줄일 수 있다는 거예요. 실제로 생명과학 연구에서는 이 모델들이 새로운 가설을 제시하고 신약 개발 속도를 높이고 있다고 해요.

단점도 분명해요. 앞서 말한 '거짓 양성' 문제예요. 멀쩡한 질문이 막히면 사용자 입장에선 답답하거든요. "내가 뭐 나쁜 거 물어본 것도 아닌데 왜 한 단계 낮은 모델이 답하지?" 하는 경험을 5% 확률로 겪을 수 있는 거죠. 그리고 '누가 신뢰받는 사용자인가'를 누가 정하느냐는 권력의 문제도 따라와요. Mythos 5처럼 강력한 도구를 특정 그룹에게만 준다는 건, 보안을 위해선 합리적이지만 'AI 능력의 불평등'이라는 논쟁도 부를 수 있어요.

한국 개발자에게 주는 시사점

그럼 우리는 이 소식을 어떻게 받아들이면 좋을까요? 몇 가지로 정리해볼게요.

1. '긴 작업을 맡기는' 연습을 시작하세요

Fable 5의 핵심은 긴 자율 작업 능력이에요. 지금까지 AI에게 "이 함수 하나 고쳐줘" 수준으로만 일을 시켰다면, 이제는 사고방식을 바꿔야 해요. "이 기능을 기획부터 구현, 테스트까지 통째로 진행해줘" 같은 식으로요. 예를 들어 사이드 프로젝트에서 "사용자 인증 기능을 처음부터 끝까지 만들어줘"라고 맡겨보고, AI가 어디까지 스스로 끌고 가는지 관찰해보세요. 이게 앞으로 AI를 잘 다루는 개발자와 못 다루는 개발자를 가르는 차이가 될 거예요.

2. 비용 감각을 길러두세요

입력 $10 / 출력 $50(100만 토큰당)이라는 가격은, 개인이 가볍게 쓰기엔 부담스럽지만 회사 입장에선 '사람 한 명 몫'을 생각하면 충분히 매력적이에요. 실무에서 AI를 도입할 때는 "이 작업에 토큰이 얼마나 들고, 그게 사람 시급 대비 합리적인가"를 계산하는 습관이 중요해요. 출력 토큰이 입력보다 5배 비싸니까, 불필요하게 장황한 답변을 요구하지 않도록 프롬프트를 설계하는 것도 비용 절감의 기술이에요.

3. '안전장치 우회'를 이해하고 대응하세요

만약 Fable 5를 쓰다가 답변 품질이 갑자기 떨어진 것 같으면, 5% 확률의 안전장치가 작동해 한 단계 낮은 모델이 답했을 가능성을 의심해볼 수 있어요. 보안 관련 작업(예: 모의 해킹 코드 분석)을 하는 분이라면 이런 우회가 더 자주 걸릴 수 있으니, 질문 방식을 바꾸거나 작업 맥락을 명확히 설명하는 게 도움이 돼요.

학습 로드맵 제안

지금 당장: AI에게 작은 단위가 아니라 '전체 작업'을 맡기는 연습. 에이전트(스스로 여러 단계를 처리하는 AI) 워크플로우에 익숙해지기.
이번 달 안에: 토큰 비용 계산법 익히기. 내가 쓰는 도구의 입력/출력 단가 확인하기.
꾸준히: AI 안전(Safety)과 정렬(Alignment) 개념 공부하기. 앞으로 더 강력한 모델이 나올수록 '어떻게 안전하게 쓰느냐'가 개발자의 필수 교양이 될 거예요.

마무리: 능력과 통제의 줄다리기, 그 시작점

이번 Fable 5와 Mythos 5 발표는 단순한 신모델 출시 그 이상이에요. "AI가 너무 강력해지면, 우리는 그 능력을 어떻게 나눠 가질 것인가?"라는 질문을 본격적으로 던진 사건이거든요.

같은 두뇌를 두고 '일반용'과 '전문가용'으로 나누고, 위험한 영역은 자동으로 우회시키는 이 방식이 앞으로 AI 업계의 표준이 될지, 아니면 다른 회사들이 더 개방적인 길을 택할지는 지켜봐야 해요. 분명한 건, 앞으로 몇 달 안에 더 강력한 모델들이 줄줄이 나올 거고, 그때마다 이 '능력 vs 안전'의 줄다리기는 더 팽팽해질 거라는 점이에요.

여러분은 어떻게 생각하세요? "강력한 AI의 능력을 일부 사용자에게만 제한적으로 푸는 것"이 안전을 위한 합리적인 선택일까요, 아니면 AI 능력의 새로운 불평등을 만드는 위험한 선례일까요? 그리고 만약 여러분이 Fable 5를 쓴다면, 가장 먼저 어떤 '긴 작업'을 통째로 맡겨보고 싶으신가요? 댓글로 여러분의 생각을 들려주세요!

🔗 출처: Hacker News