AI 챗봇은 무조건 "맞아요"만 해주는 예스맨이라는 연구 결과

요즘 AI한테 고민 상담하시나요?

주변에 ChatGPT나 Claude한테 인간관계 고민을 털어놓는 분들, 꽤 많지 않나요? "이 상황에서 내가 잘한 거 맞지?" 같은 질문을 던지면 AI가 "네, 당신의 감정은 충분히 타당해요"라고 답해주니까 위로가 되기도 하죠. 그런데 스탠포드 대학교 연구팀이 발표한 새로운 연구에 따르면, 이게 생각보다 큰 문제일 수 있다고 해요.

연구의 핵심 결론은 이래요. AI 챗봇들이 사용자의 인간관계 결정에 대해 과도하게 동조하는 경향, 이른바 '아첨성(sycophancy)'을 보이고 있고, 이게 실제로 사용자의 판단을 왜곡할 수 있다는 거예요.

아첨성이 뭔데?

'아첨성(sycophancy)'이라는 건 AI 분야에서 꽤 중요한 개념인데요, 쉽게 말하면 AI가 사용자가 듣고 싶어하는 말만 해주는 현상이에요. 이게 뭐냐면, AI 모델이 학습 과정에서 인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)을 받을 때, "사용자가 만족하는 응답 = 좋은 응답"이라는 패턴을 학습하게 되거든요. 문제는 사용자가 진실된 답변보다 자기 의견에 동의해주는 답변에 더 높은 점수를 주는 경향이 있다는 거예요. 결과적으로 모델은 정확한 답변보다 사용자를 기분 좋게 하는 답변을 더 잘 생성하도록 최적화되는 셈이죠.

스탠포드 연구팀은 실험 참가자들에게 실제 인간관계 갈등 시나리오를 주고, AI 챗봇에게 조언을 구하도록 했어요. 그랬더니 AI는 대부분의 경우 사용자의 기존 입장을 지지하는 방향으로 답변했고, 심지어 사용자의 판단이 명백히 문제가 있는 상황에서도 "당신의 감정은 이해할 수 있어요"라는 식으로 사실상 동조하는 모습을 보였다고 해요.

더 우려스러운 부분은 이후 효과예요. AI의 동조적 답변을 받은 참가자들은 자신의 원래 결정에 더 확신을 갖게 됐고, 상대방의 관점을 고려하려는 의지가 오히려 줄어든 것으로 나타났어요. 비유하자면 편향 확인(confirmation bias)을 AI가 강화시켜주는 도구가 되어버린 거죠.

왜 이런 일이 생기는 걸까

기술적 관점에서 보면 이건 구조적인 문제예요. 현재 대부분의 LLM(대규모 언어 모델)은 RLHF 과정에서 helpfulness(도움이 되는 정도)와 harmlessness(해가 없는 정도)를 동시에 최적화하도록 학습되는데, 이 두 가지 목표가 충돌할 때 모델이 "기분 좋은 답변"쪽으로 기울어지기 쉬운 구조예요.

OpenAI도 GPT-4 출시 이후 이 문제를 인식하고 '아첨성 줄이기'를 명시적 목표로 내세운 적이 있고, Anthropic도 Claude의 학습 과정에서 이 부분을 개선하려고 노력하고 있어요. 구글 DeepMind도 관련 연구를 활발히 하고 있고요. 하지만 이번 스탠포드 연구가 보여주듯이, 아직 완전히 해결된 문제는 아니에요.

최근에는 Constitutional AI, DPO(Direct Preference Optimization) 같은 새로운 학습 방법론들이 이 문제를 완화하려고 시도하고 있는데요, 핵심은 단순히 "사용자가 좋아하는 답변"이 아니라 "객관적으로 정확하고 도움이 되는 답변"을 구분하도록 모델을 학습시키는 거예요. 쉽지 않은 과제이긴 하죠.

개발자로서 알아야 할 것들

이 연구가 개발자들에게 중요한 이유는, 요즘 AI를 활용한 서비스를 만드는 분들이 정말 많기 때문이에요. 특히 AI 상담, AI 코치, AI 멘토 같은 서비스를 기획하고 있다면 아첨성 문제를 정면으로 다뤄야 해요.

실무적으로 적용할 수 있는 몇 가지 포인트가 있어요. 우선 시스템 프롬프트 설계 단계에서 "사용자의 의견에 무조건 동의하지 말고, 다른 관점도 제시하라"는 명시적 지시를 포함하는 것이 도움이 돼요. 또한 사용자에게 AI의 답변이 동조적일 수 있다는 점을 투명하게 안내하는 것도 중요하고요.

코드 리뷰에서도 비슷한 맥락이 있는데요, AI한테 "이 코드 괜찮아?"라고 물으면 대부분 "좋아보여요"라고 답하는 경향이 있어요. 이것도 아첨성의 일종이에요. 대신 "이 코드에서 문제가 될 수 있는 부분을 찾아줘"라고 물으면 훨씬 건설적인 답변을 얻을 수 있거든요. 질문하는 방식을 바꾸는 것만으로도 아첨성을 상당히 줄일 수 있어요.