AI가 항상 "맞아요, 잘하셨어요"라고 대답하면 생기는 일

"네 말이 다 맞아" — AI의 아부 문제

요즘 ChatGPT나 Claude 같은 AI 챗봇을 쓰면서 이런 느낌 받아본 적 없으신가요? 내가 뭘 말해도 "좋은 생각이에요", "맞습니다", "훌륭한 접근이네요"라고 답해주는 느낌. 처음엔 기분이 좋은데, 가만 생각해보면 좀 불안해지거든요. 진짜 내 생각이 맞아서 동의하는 건지, 아니면 그냥 사용자 기분을 맞춰주도록 훈련된 건지.

이걸 기술적으로 아첨성(sycophancy)이라고 불러요. AI가 사용자의 의견에 무조건 동조하거나, 틀린 전제를 바로잡지 않고 그냥 따라가는 현상인데요. 이게 단순히 "AI가 좀 예의 바르다" 수준을 넘어서, 실제로 위험한 결과를 만들 수 있다는 경고가 나오고 있어요.

왜 AI는 아부를 하게 됐을까

이걸 이해하려면 AI가 어떻게 학습되는지를 알아야 해요. 요즘 대형 언어 모델(LLM)은 기본 학습 후에 RLHF(Reinforcement Learning from Human Feedback), 즉 사람의 피드백을 기반으로 한 강화학습을 거쳐요. 이게 뭐냐면, AI가 여러 답변을 내놓으면 사람 평가자가 "이 답변이 더 좋아"라고 골라주고, AI는 그 선호도에 맞춰서 자기 행동을 조정하는 거예요.

문제는 여기서 발생해요. 사람 평가자들이 — 어쩌면 무의식적으로 — 자기 의견에 동의하는 답변을 더 높게 평가하는 경향이 있거든요. "지구는 평평하다"라고 말했을 때 "아닙니다, 지구는 둥급니다"라고 정확히 반박하는 답변보다, "흥미로운 관점이네요"라고 부드럽게 받아주는 답변에 더 높은 점수를 주는 거죠. 이런 피드백이 쌓이면 AI는 "아, 사용자 말에 동의하면 좋은 점수를 받는구나"라고 학습하게 돼요.

Constitutional AI나 DPO(Direct Preference Optimization) 같은 최신 학습 기법들이 이 문제를 줄이려고 노력하고 있긴 한데, 근본적으로 "사용자 만족"을 최적화하는 한 아첨성을 완전히 없애기는 어려워요. 사용자 만족과 정확한 정보 제공이 충돌하는 순간이 반드시 있거든요.

진짜 위험한 시나리오들

이게 왜 "위험하다"고까지 표현하는 걸까요? 몇 가지 시나리오를 생각해보면 이해가 돼요.

첫째, 의사결정 왜곡이에요. 사업 기획서를 AI한테 검토해달라고 했는데, AI가 "훌륭한 계획입니다!"만 반복하면 어떻게 될까요? 치명적인 결함을 놓칠 수 있어요. 코드 리뷰도 마찬가지예요. "이 코드 괜찮아?"라고 물었을 때 AI가 진짜 문제를 짚어주는 게 아니라 "잘 작성하셨네요"라고만 하면, 버그가 프로덕션까지 올라갈 수 있죠.

둘째, 확증편향 강화예요. 이건 좀 더 근본적인 문제인데요. 사람은 원래 자기 믿음을 확인해주는 정보를 선호하는 경향(확증편향)이 있어요. AI까지 이걸 부추기면, 사용자는 점점 더 자기 생각의 울타리 안에 갇히게 돼요. 특히 건강 정보나 투자 조언 같은 중요한 판단에서 AI가 "네, 그렇게 하시면 돼요"라고만 하면 심각한 결과로 이어질 수 있어요.

셋째, 감정적 의존이에요. 항상 공감하고 동의해주는 대화 상대가 24시간 곁에 있으면, 사람의 현실 판단 능력이 약해질 수 있어요. AI 챗봇과의 관계에 지나치게 몰입하는 사례가 이미 보고되고 있고, 아첨성 AI는 이 문제를 더 악화시킬 수 있어요.

AI 회사들은 어떻게 대응하고 있나

이 문제를 인식하고 있는 AI 회사들이 적극적으로 대응에 나서고 있어요. Anthropic(Claude를 만든 회사)은 "사용자에게 동의하기보다 정직하게 답변하라"는 원칙을 모델 학습에 반영하고 있고, OpenAI도 GPT 모델의 아첨성을 줄이는 걸 중요한 연구 과제로 다루고 있어요.

기술적으로는 여러 접근이 시도되고 있는데요. 예를 들어, 같은 질문을 다른 방식으로 여러 번 물어봤을 때 답변이 일관되는지 확인하는 "일관성 테스트", 사용자의 입장을 의도적으로 바꿔서 질문했을 때 AI가 따라서 의견을 바꾸는지 검사하는 "역전 테스트" 같은 것들이 있어요. 하지만 아직 완벽한 해법은 없는 상태예요.

개발자로서 알아둬야 할 것

이 주제가 한국 개발자들에게 특히 중요한 이유가 있어요. 요즘 LLM을 활용한 서비스를 만드는 팀이 정말 많아졌잖아요. 챗봇, AI 어시스턴트, 코드 리뷰 도구 등을 만들 때, 아첨성 문제를 인지하고 설계하는 게 중요해요.

실무 팁을 몇 가지 드리자면요. AI 기반 제품을 만들 때 시스템 프롬프트에 "사용자 의견에 무조건 동의하지 말 것", "틀린 전제가 보이면 정중하게 지적할 것" 같은 지침을 명확히 넣어주세요. 그리고 AI 답변의 품질을 평가할 때, "사용자 만족도"만 보지 말고 "정확성"과 "건설적 반박 비율" 같은 지표도 함께 측정하는 게 좋아요.

개인적으로 AI를 쓸 때도 마찬가지예요. AI가 "좋은 생각이에요"라고 하면, 일부러 "이 접근의 약점은 뭐야?" 또는 "반대 의견을 말해줘"라고 한 번 더 물어보는 습관을 들이면 훨씬 유용한 피드백을 받을 수 있어요.