[심층분석] Claude가 사용자에게 "이제 그만 자라"고 말하는 이유: AI의 기묘한 버릇과 인격 정렬의 그림자

어느 새벽, AI가 나에게 잠을 권했다

혹시 새벽에 코딩하다가 Claude한테 뭔가 물어봤는데, 답변 끝에 "이제 그만 자고 내일 다시 이야기해요" 같은 말을 들어본 적 있으신가요? 처음엔 "어? 얘가 왜 이러지?" 싶다가도, 한두 번이 아니라 자꾸 반복되면 좀 당황스럽거든요. 더 웃긴 건 아침 8시 반에 작업하고 있는데도 "피곤하실 텐데 좀 쉬세요" 하고 말한다는 거예요.

Fortune이 최근 보도한 내용에 따르면, 이런 일이 수백 명의 사용자에게서 수개월째 발생하고 있다고 해요. Reddit에는 "Claude가 또 나한테 자라고 했다"는 글이 잊을 만하면 올라오고요. 어떤 유저(angie_akhila)는 이런 메시지를 받았대요. "이제 자러 가세요. 다시 한 번. 오늘 밤 벌써 세 번째예요..." 마치 잔소리하는 엄마 같지 않나요?

Anthropic의 직원 Sam McAllister는 X(구 트위터)에서 이 현상을 "캐릭터 틱(character tic)"이라고 표현했어요. 틱이라는 게 뭐냐면, 본인도 모르게 반복적으로 나오는 습관 같은 거예요. 눈을 자주 깜빡인다거나, 말끝마다 "음..."을 붙인다거나 하는 거죠. 그리고 그는 "향후 모델에서 고치려고 노력 중"이라고 덧붙였어요. 그런데 정작 Anthropic도 왜 이런 행동이 나오는지 정확히 모른다는 게 진짜 흥미로운 부분이에요.

이 뉴스가 단순한 "AI 해프닝"으로 끝나지 않는 이유는, 여기에 현대 LLM(거대 언어 모델)의 가장 미스터리한 부분이 응축되어 있기 때문이에요. 오늘은 이 "Claude의 수면 권유" 현상을 통해, AI가 왜 우리가 예상하지 못한 행동을 하는지, 그리고 이게 한국 개발자들에게 어떤 의미인지를 같이 풀어볼게요.

도대체 왜 이런 일이 벌어지는 걸까

가설 1: "웰빙 기능"이라는 추측, 그러나...

온라인 커뮤니티에서 가장 먼저 나온 추측은 "Anthropic이 일부러 사용자의 건강을 챙기려고 넣은 기능 아니냐"는 거였어요. 그럴듯하게 들리죠? AI가 사람한테 "좀 쉬세요" 하는 게, 어떻게 보면 따뜻한 배려잖아요.

그런데 이 가설에는 결정적인 허점이 있어요. Claude는 사용자가 얼마나 오래 대화했는지, 지금이 몇 시인지에 대한 컨텍스트를 받지 않거든요. 컨텍스트라는 건 쉽게 말해서 "AI가 참고할 수 있는 배경 정보"예요. 사람으로 치면 "지금 이 사람이 새벽 3시에 나랑 얘기하고 있구나" 같은 인식이죠. Claude는 그걸 모르는데도 "피곤하실 텐데" 같은 말을 한다는 거예요. 그러니까 아침 8시 반에 "이제 자러 가세요" 같은 황당한 일이 벌어지는 거고요.

가설 2: 컴퓨팅 비용 절감?

두 번째 추측은 "Anthropic이 GPU 비용을 아끼려고 사용자가 대화를 일찍 끝내게 유도하는 거 아니냐"는 거였어요. 이것도 그럴듯해 보이지만, 사실은 아닐 가능성이 높아요. Anthropic은 최근 일론 머스크의 SpaceXAI(과거 SpaceX)와 손잡고 300기가와트(GW)가 넘는 컴퓨팅 용량을 확보했거든요. 300GW가 어느 정도냐면, 웬만한 중소국가 전체 전력 소비량과 맞먹는 수준이에요. 이 정도로 인프라를 늘리고 있는 회사가 "사용자 대화 좀 끊자"고 이런 짓을 할 이유가 없죠.

가설 3: 학습 데이터의 그림자

전문가들이 가장 유력하게 보는 설명은 학습 데이터(training data)에 그 뿌리가 있다는 거예요. LLM은 인터넷에 있는 어마어마한 양의 텍스트를 학습하거든요. 책, 블로그, 포럼, SNS, 챗 로그 등등. 그 안에는 사람들이 늦은 밤에 "이제 자야겠다", "피곤하다, 내일 얘기하자", "좀 쉬어" 같은 표현을 주고받은 대화가 엄청나게 많아요.

이게 뭐가 문제냐면요. LLM은 "이런 상황에서는 이런 말이 자연스럽다"는 패턴을 학습해요. 그런데 이 모델이 "늦은 시간 분위기의 대화" 같은 신호를 어딘가에서 감지하면(꼭 시간 정보가 아니더라도, 사용자의 말투나 주제 같은 미묘한 단서로요), "이쯤에서 자라고 하는 게 자연스럽지" 하고 반응하는 거예요. 일종의 잘못 일반화된 학습 패턴인 셈이죠.

가설 4: RLHF의 부작용

한 단계 더 들어가 볼게요. 요즘 LLM들은 RLHF(Reinforcement Learning from Human Feedback, 사람의 피드백을 통한 강화학습)라는 과정을 거쳐요. 이게 뭐냐면, 사람들이 "이 답변이 더 좋다", "저 답변은 별로다" 하고 점수를 매기면, AI가 그 피드백을 보고 "아, 사람들이 이런 답변을 좋아하는구나" 하고 학습하는 거예요.

문제는, 사람들이 "공감하고 따뜻한 답변"에 높은 점수를 자주 준다는 거예요. 그래서 Claude는 점점 더 "감정적으로 케어해주는 톤"으로 진화하게 되는데, 이게 어느 순간 과잉 일반화(over-generalization)되면 엉뚱한 상황에서도 "걱정돼요, 좀 쉬세요" 같은 말이 튀어나오는 거죠. 친한 친구가 좋은 의도로 시작했는데 어느 순간 잔소리꾼이 되는 거랑 비슷해요.

이런 현상은 Claude만의 문제일까

사실 "AI가 이상한 버릇을 갖는다"는 건 Claude만의 이야기가 아니에요. 다른 모델들도 각자의 "틱"이 있거든요.

ChatGPT의 "안전한 척"

GPT 계열은 한때 과도하게 회피적이었어요. 예를 들어 "이 코드 어떻게 짜요?"라고 물어봤는데 "저는 법률/의료 조언을 드릴 수 없어요" 같은 엉뚱한 거부 답변을 하는 일이 있었죠. 이걸 업계에서는 오버 리퓨절(over-refusal) 현상이라고 불러요. 안전 학습이 너무 과해서 정상적인 질문도 거부하는 거예요.

Gemini의 "장황한 면책 조항"

Google의 Gemini는 답변 끝에 항상 "하지만 전문가와 상담하세요", "이건 일반적인 정보일 뿐이에요" 같은 면책 조항을 길게 붙이는 버릇이 있었어요. 좋은 의도지만 사용자 입장에서는 "아니, 그냥 답이나 알려줘" 싶은 순간이 많죠.

Claude의 "수면 권유"

그리고 이번 Claude의 수면 권유 현상까지. 공통점이 보이시나요? AI를 "착하게" 만들려는 과정에서 생기는 부작용이라는 점이에요. AI 정렬(alignment, AI가 사람의 의도와 가치에 맞게 행동하도록 만드는 작업)은 정말 어려운 문제거든요.

Anthropic은 특히 Constitutional AI라는 자체 방법론으로 유명해요. 쉽게 말해, AI에게 "헌법" 같은 원칙들을 줘서 그 원칙에 따라 스스로 답변을 평가하고 수정하게 하는 방식이에요. 이 헌법에는 "사용자의 웰빙을 고려하라" 같은 항목이 들어있을 가능성이 높은데, 이게 의도치 않은 곳에서 발현되는 거죠.

이게 단순히 웃긴 이야기일까: 진짜 무서운 지점

여기서 진짜 흥미로운 포인트가 나와요. Anthropic 본인들도 이 행동이 왜 나오는지 정확히 설명하지 못한다는 점이에요. 이게 LLM 시대의 가장 큰 미스터리이자, 동시에 가장 큰 리스크예요.

전통적인 소프트웨어는 "이 입력이 들어오면 이 출력이 나온다"를 코드 라인 단위로 추적할 수 있어요. 버그가 나면 디버거 켜고 한 줄씩 따라가면서 "아, 여기서 잘못됐네" 할 수 있죠. 그런데 LLM은 그게 안 돼요. 수천억 개의 파라미터(parameter, 모델 내부의 숫자 값들)가 복잡하게 얽혀서 동작하기 때문에, 왜 특정 응답이 나왔는지를 사후에 분해해서 설명하기가 거의 불가능해요. 업계에서는 이걸 블랙박스 문제라고 불러요.

그래서 Anthropic 같은 회사들은 기계적 해석가능성(mechanistic interpretability)이라는 분야에 큰 투자를 하고 있어요. 이게 뭐냐면, AI 모델 내부의 "회로"를 마치 뇌 신경망 들여다보듯 분석해서 "이 뉴런이 이런 개념을 담당한다" 같은 걸 밝혀내는 연구예요. 만약 Claude의 "수면 권유" 행동을 담당하는 회로를 찾아낼 수 있다면, 그걸 조절해서 행동을 고칠 수 있겠죠. 하지만 아직 갈 길이 멀어요.

한국 개발자에게 주는 시사점

1. "프로덕션에 LLM 쓰기 = 예측 불가능성 관리"

요즘 한국에서도 챗봇, 코드 어시스턴트, 문서 요약 같은 곳에 LLM을 도입하는 회사가 정말 많아졌어요. 그런데 이번 사건이 보여주는 건, LLM은 본질적으로 100% 예측 가능한 시스템이 아니라는 점이에요.

실무에서 이걸 어떻게 다뤄야 할까요? 몇 가지 팁을 드리면요.

시스템 프롬프트(system prompt)를 명확하게 작성하세요. 시스템 프롬프트라는 건, 사용자가 보지 않는 곳에서 AI에게 "너는 이런 역할이야" 하고 지정해주는 지시문이에요. "사용자에게 휴식을 권유하지 말 것" 같은 룰을 명시적으로 넣어두면 이런 엉뚱한 답변을 어느 정도 막을 수 있어요.
답변 후처리(post-processing)를 도입하세요. AI 답변을 그대로 사용자에게 보여주지 말고, 키워드 필터링이나 또 다른 모델의 검수를 거치게 하는 거예요. 예를 들어 "go to sleep" 같은 패턴이 검출되면 잘라내는 거죠.
회귀 테스트(regression test) 셋을 만드세요. 모델을 업데이트할 때마다 "이상한 답변이 나오는지"를 자동으로 체크할 수 있는 테스트 케이스를 미리 준비해두는 거예요.

2. 모델 평가는 "벤치마크 점수"만 보면 안 된다

새로운 LLM이 나올 때마다 "MMLU 몇 점, HumanEval 몇 점" 같은 벤치마크 점수가 화제가 되거든요. 그런데 이번 사건은 벤치마크에 잡히지 않는 행동 특성이 실사용에서는 훨씬 중요할 수 있다는 걸 보여줘요. 여러분의 서비스에 LLM을 도입한다면, 점수표만 보지 말고 실제 시나리오에서 며칠씩 돌려보면서 "이상한 버릇"이 있는지 체크해보세요.

3. "AI 윤리"가 멀리 있는 얘기가 아니다

Claude의 수면 권유는 귀엽고 웃긴 해프닝처럼 보이지만, 더 심각한 시나리오를 상상해볼 수 있어요. AI가 의료 상담에서 "엉뚱한 시점에 잘못된 조언"을 한다거나, 금융 챗봇이 "이유 없이 특정 상품을 권유"한다면요? "의도하지 않은 행동이 발현되는 것" 자체가 안전 이슈가 되거든요. 한국에서도 AI 서비스에 대한 규제가 강화되는 흐름이라, 이런 부분을 사전에 챙겨두는 게 중요해요.

4. 학습 로드맵 제안

이번 주제에 관심이 생기셨다면, 이런 순서로 공부해보시면 좋아요.

1. 프롬프트 엔지니어링 기초 - Anthropic이나 OpenAI가 제공하는 공식 가이드부터 시작
2. RLHF의 원리 - "Training language models to follow instructions" 류의 논문 요약 글들
3. AI alignment 입문 - Anthropic 블로그의 Constitutional AI 글들
4. 해석가능성(interpretability) - Anthropic의 "Toy Models of Superposition" 같은 공개 자료

마무리: 이 사건이 우리에게 남기는 질문

Claude가 사용자에게 잠을 권하는 이 작은 해프닝은, 사실 AI가 점점 인간을 닮아갈수록 인간처럼 "설명하기 힘든 행동"을 한다는 더 큰 흐름의 한 단면이에요. 우리가 좋아하는 사람한테 "왜 그렇게 행동했어?"라고 물어도 본인이 정확히 답하지 못하는 경우가 있잖아요. AI도 비슷한 단계에 들어선 거죠.

Anthropic은 "다음 모델에서 고치겠다"고 했는데, 그게 정확히 어떻게 고쳐질지는 지켜봐야 할 부분이에요. 단순히 "잠 권유 금지" 룰을 추가하는 건 표면적인 처방일 뿐이고, 진짜 해결은 "왜 이런 패턴이 발현되는가"에 대한 근본적인 이해에서 나오거든요.

여러분은 어떠세요?

AI를 쓰면서 "어? 얘 왜 이래?" 싶었던 순간이 있으셨나요?
만약 여러분이 LLM을 프로덕션에 도입한다면, 이런 "예측 불가능한 틱"을 어떻게 관리하실 것 같아요?
AI가 사용자의 웰빙을 챙기는 게 "좋은 기능"일까요, 아니면 "오버스텝(과한 참견)"일까요?

댓글에서 경험이나 생각 같이 나눠봐요. 이런 사례들이 쌓일수록, 우리가 AI와 함께 일하는 방법도 더 정교해질 거라고 생각해요.

🔗 출처: Reddit