TECH 으로 돌아가기
TECH HACKER NEWS 1주 전 14분 읽기 206 READS

[심층분석] Claude Fable 5와 Mythos 5: '너무 강력해서' 안전장치를 따로 단 AI가 등장했어요

[심층분석] Claude Fable 5와 Mythos 5: '너무 강력해서' 안전장치를 따로 단 AI가 등장했어요

들어가며: AI가 '위험할 만큼 똑똑해졌다'는 게 무슨 뜻일까요?

2026년 6월 9일, Anthropic이 새로운 모델 두 개를 동시에 발표했어요. 이름이 좀 특이한데요, 하나는 Claude Fable 5(페이블 5), 다른 하나는 Claude Mythos 5(미토스 5)예요. 그런데 발표문을 읽다 보면 좀 묘한 기분이 들거든요. 보통 회사들은 새 모델을 내면서 "역대 최강이에요, 빨리 써보세요!" 하고 자랑만 하잖아요. 그런데 이번 발표는 분위기가 달라요. "이 모델은 너무 강력해서, 그냥 풀어놓으면 위험할 수도 있어요"라는 경고가 앞부분에 떡하니 나와요.

이게 무슨 말이냐면요. Fable 5는 지금까지 Anthropic이 일반 사용자에게 공개한 모델 중에 가장 똑똑한 모델이에요. 소프트웨어 개발, 지식 노동, 이미지 분석(비전), 과학 연구 같은 거의 모든 벤치마크(성능 측정 시험이라고 보면 돼요)에서 1등을 찍었다고 해요. 특히 작업이 길고 복잡할수록 다른 모델들과의 격차가 더 벌어진대요.

문제는 이렇게 똑똑하면 좋은 일에도 쓸 수 있지만, 나쁜 일에도 쓸 수 있다는 거예요. 예를 들어 사이버 보안 쪽 능력이 너무 뛰어나면, 누군가 이걸 해킹 도구로 악용할 수도 있겠죠. 그래서 Anthropic은 고민 끝에 좀 독특한 방식을 택했어요. 바로 "같은 두뇌, 다른 안전장치" 전략이에요.

기술 분석: 같은 모델인데 왜 이름이 두 개일까요?

Fable 5 = 강력한 두뇌 + 안전벨트

Fable 5는 일반 사용자용이에요. 핵심을 쉽게 말하면, 엄청 똑똑한 모델에 안전벨트를 채워서 내보낸 버전이에요.

Anthropic은 Fable 5를 'Mythos급(Mythos-class)' 모델이라고 부르는데요, 이게 뭐냐면 원래 두뇌 자체는 Mythos 5와 똑같다는 뜻이에요. 다만 위험할 수 있는 특정 주제(예: 사이버 공격 같은)에 대해 질문이 들어오면, Fable 5가 직접 답하지 않고 한 단계 아래 모델인 Claude Opus 4.8이 대신 답하도록 우회시켜요.

비유를 들어볼게요. 회사에 엄청 유능한 신입 천재가 들어왔다고 쳐요. 이 친구는 뭐든 다 할 줄 알아요. 그런데 회사가 "위험한 작업(예: 보안 시스템 뚫기)을 시키면, 이 천재 대신 경험 많고 신중한 선배가 대신 처리하게 하자"고 규칙을 정한 거예요. 평소엔 천재가 일하다가, 위험 신호가 감지되면 자동으로 선배에게 바통을 넘기는 거죠.

그런데 이 안전장치를 좀 보수적으로(conservatively) 설정했대요. 무슨 말이냐면, 안전을 우선하다 보니 가끔은 멀쩡하고 무해한 질문까지 막아버린다는 거예요. 이걸 '거짓 양성(false positive)'이라고 불러요. 쉽게 말해 '진짜 위험이 아닌데 위험으로 잘못 판단한 경우'예요. Anthropic은 이 우회 장치가 평균적으로 전체 대화 세션의 5% 미만에서만 작동한다고 밝혔어요. 100번 대화하면 5번 정도는 한 단계 낮은 모델이 답할 수도 있다는 얘기죠. 앞으로 더 똑똑한 모델들이 나오면서 이 오작동 비율을 빠르게 줄여나가겠다고 했어요.

Mythos 5 = 안전벨트를 일부 푼 버전

반면 Mythos 5는 아무나 못 써요. 사이버 방어 전문가나 인프라 제공 업체 같은 아주 소수의 신뢰받는 그룹에게만 제공돼요. 두뇌는 Fable 5와 완전히 똑같은데, 위험 영역의 안전장치를 일부 풀어놓은 버전이에요.

Mythos 5는 처음엔 'Project Glasswing(글래스윙 프로젝트)'이라는 미국 정부와의 협업 프로젝트를 통해 배포돼요. Anthropic은 이 모델이 "세계에서 가장 강력한 사이버 보안 능력"을 갖췄다고 자신하고 있어요. 여기서 재미있는 점은, 같은 능력이라도 누가 어떤 목적으로 쓰느냐에 따라 공격 도구도 되고 방어 도구도 된다는 거예요. 그래서 방어자(cyberdefender) 손에 쥐어주면 중요한 소프트웨어를 더 안전하게 지킬 수 있다는 게 핵심 논리예요.

가격과 성능: 더 싸졌어요

흥미로운 건 가격이에요. Fable 5와 Mythos 5는 입력 100만 토큰당 $10, 출력 100만 토큰당 $50으로 책정됐어요. 토큰이라는 게 뭐냐면, AI가 글을 읽고 쓸 때 단어를 잘게 쪼갠 조각이라고 보면 돼요. 한글 한 글자나 영어 짧은 단어 하나가 대략 토큰 하나 정도예요.

이게 이전 모델인 Claude Mythos Preview에 비하면 절반도 안 되는 가격이라고 해요. 성능은 올라갔는데 가격은 떨어졌다는 거죠. 이건 AI 업계의 일반적인 흐름이기도 한데, 시간이 갈수록 '같은 돈으로 더 똑똑한 모델'을 쓸 수 있게 되고 있어요.

실제로 뭘 잘하나요? 스트라이프 사례

발표문에 인상적인 사례가 하나 나와요. 결제 회사로 유명한 Stripe(스트라이프)가 초기 테스트에서 "Fable 5가 몇 달치 엔지니어링 작업을 며칠로 압축했다"고 보고했대요.

특히 5천만 줄짜리 Ruby 코드베이스에서 좋은 성능을 보였다고 하는데요. 5천만 줄이라니 감이 잘 안 오죠? 이게 얼마나 큰 거냐면, 보통 중견 스타트업의 전체 서비스 코드가 수십만~수백만 줄 수준이에요. 5천만 줄이면 거대 기업의 핵심 시스템급이에요. 사람 개발자가 이걸 다 파악하려면 몇 년이 걸려도 모자라거든요. 그런데 AI가 이 방대한 코드를 이해하고 작업을 해냈다는 거예요.

여기서 핵심 키워드가 '오래 자율적으로 일한다(work autonomously for longer)'예요. 이게 뭐냐면, 예전 AI는 짧은 질문 하나에 답하는 건 잘했지만, "이 큰 프로젝트를 처음부터 끝까지 알아서 해줘" 같은 긴 작업은 중간에 길을 잃곤 했어요. 그런데 Fable 5는 사람이 일일이 지시하지 않아도 긴 호흡의 복잡한 작업을 스스로 끌고 나갈 수 있게 됐다는 거죠. 마치 신입에게 자잘한 일만 시키다가, 이제는 "이 프로젝트 통째로 맡아줘"라고 믿고 맡길 수 있는 시니어로 성장한 느낌이에요.

업계 맥락과 비교: 'AI 안전' 접근법의 갈림길

이번 발표가 흥미로운 이유는, AI 회사들이 '강력함'과 '안전함' 사이에서 어떻게 균형을 잡는지에 대한 서로 다른 철학을 보여주기 때문이에요.

크게 두 가지 길이 있어요.

마무리: 능력과 통제의 줄다리기, 그 시작점

이번 Fable 5와 Mythos 5 발표는 단순한 신모델 출시 그 이상이에요. "AI가 너무 강력해지면, 우리는 그 능력을 어떻게 나눠 가질 것인가?"라는 질문을 본격적으로 던진 사건이거든요.

같은 두뇌를 두고 '일반용'과 '전문가용'으로 나누고, 위험한 영역은 자동으로 우회시키는 이 방식이 앞으로 AI 업계의 표준이 될지, 아니면 다른 회사들이 더 개방적인 길을 택할지는 지켜봐야 해요. 분명한 건, 앞으로 몇 달 안에 더 강력한 모델들이 줄줄이 나올 거고, 그때마다 이 '능력 vs 안전'의 줄다리기는 더 팽팽해질 거라는 점이에요.

여러분은 어떻게 생각하세요? "강력한 AI의 능력을 일부 사용자에게만 제한적으로 푸는 것"이 안전을 위한 합리적인 선택일까요, 아니면 AI 능력의 새로운 불평등을 만드는 위험한 선례일까요? 그리고 만약 여러분이 Fable 5를 쓴다면, 가장 먼저 어떤 '긴 작업'을 통째로 맡겨보고 싶으신가요? 댓글로 여러분의 생각을 들려주세요!


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://www.anthropic.com/news/claude-fable-5-mythos-5
SHARE
처리 중...