Claude Mythos — Anthropic이 공개한 새 모델의 시스템 카드, 무엇이 달라졌을까

새로운 Claude가 나왔어요

Anthropic이 Claude Mythos Preview의 시스템 카드(System Card)를 PDF로 공개했어요. 시스템 카드라는 게 좀 생소할 수 있는데, 쉽게 말하면 AI 모델의 "성적표 + 설명서"라고 생각하면 돼요. 이 모델이 뭘 잘하고, 어디서 한계가 있고, 안전성 테스트는 어떤 걸 했는지 투명하게 정리한 문서예요. 이름이 Mythos(신화)인 만큼, 이전 Claude 모델들과는 상당히 다른 방향성을 가진 것으로 보여요.

시스템 카드, 왜 중요할까?

먼저 시스템 카드가 왜 중요한지 짚고 넘어갈게요. AI 모델을 만드는 회사가 "우리 모델 좋아요, 써보세요"라고만 하면 사용자 입장에서는 정확히 어떤 상황에서 믿을 수 있고, 어떤 상황에서 조심해야 하는지 알기 어렵잖아요. 시스템 카드는 이런 정보를 체계적으로 정리해서 공개하는 거예요.

Anthropic은 이전 모델들에서도 시스템 카드를 공개해왔는데, 매번 평가 항목이 더 정교해지고 있어요. 단순히 벤치마크 점수를 나열하는 게 아니라, 실제 사용 시나리오에서의 행동 패턴, 잠재적 위험 시나리오, 그리고 이를 완화하기 위해 어떤 조치를 취했는지까지 다루거든요.

핵심 내용 — Mythos는 뭐가 다른가

Claude Mythos라는 이름에서 힌트를 얻을 수 있는데요, 이 모델은 장기적이고 복잡한 작업 수행 능력에 초점을 맞춘 것으로 보여요. 기존 Claude 모델들이 대화와 분석에 강점을 보였다면, Mythos는 더 넓은 맥락을 이해하고 여러 단계에 걸친 작업을 자율적으로 수행하는 "에이전트" 역할에 더 최적화된 모델이에요.

시스템 카드에서 특히 주목할 부분은 안전성 평가 프레임워크예요. Anthropic은 자체적으로 개발한 ASL(AI Safety Level) 분류 체계를 사용하는데, 이건 생물안전등급(BSL)에서 영감을 받은 거예요. 모델의 능력이 올라갈수록 더 높은 안전 기준을 적용한다는 개념이죠. 마치 더 위험한 바이러스를 다루려면 더 높은 등급의 실험실이 필요한 것처럼요.

또한 Anthropic은 레드팀 테스트(Red Teaming) 결과도 상세히 공개했을 거예요. 레드팀이란 의도적으로 모델을 공격하거나 속여서 문제가 되는 출력을 만들어내려는 팀인데, 이 과정에서 발견된 문제점과 대응 방식을 공개하는 건 업계에서도 모범적인 관행으로 인정받고 있어요.

업계 맥락 — 시스템 카드 문화의 확산

시스템 카드를 처음 제안한 건 사실 Google의 연구자들이었어요. 2019년 Model Cards for Model Reporting이라는 논문에서 시작됐는데, 이후 OpenAI, Anthropic, Meta 등 주요 AI 기업들이 자체적인 형식으로 채택했어요.

하지만 각 회사마다 공개하는 깊이가 달라요. OpenAI는 GPT-4 시스템 카드에서 꽤 상세한 정보를 공개했지만, 학습 데이터에 대해서는 여전히 제한적이었고요. Meta는 Llama 시리즈에서 모델 카드를 공개하면서 오픈소스 진영의 투명성 기준을 높였어요. Anthropic은 이 중에서도 안전성 평가에 가장 많은 비중을 두는 편이에요.

흥미로운 건 EU AI Act 같은 규제가 본격화되면서, 이런 문서화가 "하면 좋은 것"에서 "해야 하는 것"으로 바뀌고 있다는 점이에요. 한국도 AI 기본법이 시행되면서 이런 흐름에서 자유롭지 않아요.

한국 개발자에게 주는 시사점

만약 여러분이 AI 기반 서비스를 만들고 있다면, 사용하는 모델의 시스템 카드를 꼼꼼히 읽어보는 습관을 들이는 게 좋아요. 모델이 잘 못하는 영역을 미리 파악하면, 서비스 설계 단계에서 적절한 가드레일을 넣을 수 있거든요.

또한 한국 기업이 자체 AI 모델을 개발할 때도 시스템 카드 작성을 고려해볼 만해요. 당장은 규제 요건이 아니더라도, 고객 신뢰를 쌓고 잠재적 리스크를 체계적으로 관리하는 데 큰 도움이 되거든요. Anthropic의 시스템 카드 형식을 참고해서 자체 템플릿을 만들어보는 것도 좋은 출발점이 될 거예요.