[심층분석] 모든 LLM에는 '기본 목소리'가 있다 — AI가 우리의 글쓰기를 획일화하고 있는 이유

당신의 글, 정말 당신의 목소리인가요?

최근 영어권 기술 커뮤니티에서 흥미로운 관찰이 화제가 되었습니다. ChatGPT, Claude, Gemini 등 대형 언어 모델(LLM)을 활용해 글을 쓰는 사람이 폭발적으로 늘어나면서, 인터넷 전반의 글쓰기 톤이 놀라울 정도로 비슷해지고 있다는 지적입니다. 이메일, 블로그 포스트, LinkedIn 게시글, 심지어 이력서까지 — 어디서 본 듯한 매끄럽고 정제된 문장들이 범람하고 있습니다.

이 현상의 핵심에는 '기본 목소리(default voice)'라는 개념이 있습니다. 모든 LLM은 별도의 지시 없이 텍스트를 생성할 때 특정한 어조, 문체, 단어 선택 패턴을 따릅니다. 이것이 바로 기본 목소리입니다. 문제는 전 세계 수억 명의 사용자가 동일한 모델의 동일한 기본 목소리를 통해 글을 생산하고 있다는 점입니다. 결과적으로 개인의 고유한 표현 방식이 AI의 획일적인 문체로 대체되는 현상이 가속화되고 있습니다.

이 글에서는 LLM의 기본 목소리가 왜 존재하는지, 어떤 메커니즘으로 형성되는지, 그리고 이것이 커뮤니케이션 문화와 개발자 생태계에 어떤 영향을 미치는지 깊이 있게 살펴보겠습니다.

LLM의 '기본 목소리'는 어떻게 만들어지는가

사전 학습 단계: 인터넷의 평균값

LLM의 기본 목소리를 이해하려면, 이 모델들이 어떻게 훈련되는지부터 알아야 합니다. GPT-4, Claude, Gemini 같은 대형 언어 모델은 인터넷에 존재하는 방대한 텍스트 데이터를 학습합니다. 위키피디아, 뉴스 기사, 학술 논문, 블로그, 포럼 게시글, 책 등 수조 개의 토큰(단어 단위)을 소화하면서, 모델은 "이 단어 다음에 어떤 단어가 올 확률이 높은가"를 학습합니다.

이 과정에서 자연스럽게 일어나는 일이 있습니다. 모델은 학습 데이터의 통계적 평균을 내재화합니다. 수많은 작가, 기자, 블로거의 문체를 모두 흡수한 결과, 특정 개인의 독특한 목소리가 아닌 "인터넷 글쓰기의 최대공약수" 같은 스타일이 형성됩니다. 이것은 마치 수백만 명의 얼굴 사진을 평균 내면 특징 없이 매끄러운 얼굴이 나오는 것과 비슷한 원리입니다.

RLHF: 정제의 양날의 검

사전 학습만으로는 모델이 실제 서비스에 쓰기 어렵습니다. 여기서 등장하는 것이 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)입니다. RLHF는 인간 평가자가 모델의 여러 응답 중 "더 좋은" 것을 선택하고, 이 선호 데이터를 기반으로 모델을 미세 조정하는 기법입니다.

문제는 "더 좋다"의 기준이 편향될 수 있다는 것입니다. 평가자들은 대체로 다음과 같은 특성을 가진 응답을 선호하는 경향이 있습니다:

정중하고 예의 바른 톤
구조화된 답변 (번호 매기기, 불릿 포인트)
"확실히", "물론이죠", "좋은 질문입니다" 같은 긍정적 표현
단정적 표현 회피 ("~일 수 있습니다", "~하는 경향이 있습니다")
결론에서의 요약과 부연

이러한 RLHF 과정을 거치면서, 모델의 출력은 더욱 "안전하고 무난한" 방향으로 수렴합니다. 그 결과 형성된 것이 우리가 지금 경험하는 특유의 LLM 문체입니다. 영어 기준으로 보면 "Certainly!", "I'd be happy to help", "It's worth noting that", "Let's dive in" 같은 표현이 대표적이고, 한국어에서는 "물론이죠!", "좋은 질문입니다", "~에 대해 자세히 알아보겠습니다", "~라는 점에서 매우 흥미롭습니다" 같은 패턴이 반복됩니다.

시스템 프롬프트와 기본 페르소나

여기에 한 가지 레이어가 더 있습니다. 각 AI 서비스는 시스템 프롬프트(system prompt)를 통해 모델의 기본 행동 양식을 추가로 정의합니다. "당신은 도움이 되는 AI 어시스턴트입니다. 친절하고 정확하게 답변하세요"와 같은 지시가 모델의 모든 응답에 영향을 미칩니다. 이 시스템 프롬프트가 모델별로 고유하기 때문에, ChatGPT와 Claude의 기본 목소리가 미묘하게 다른 것입니다. 하지만 RLHF의 영향이 워낙 강력하다 보니, 이 차이는 생각보다 크지 않습니다.

획일화의 증거: 실제로 무슨 일이 벌어지고 있는가

"Delve" 현상

이 획일화를 가장 극적으로 보여주는 사례가 "delve" 현상입니다. 영어 단어 "delve"(깊이 파고들다)는 원래 일상적인 글쓰기에서 거의 쓰이지 않는 단어였습니다. 그런데 ChatGPT가 출시된 2022년 말 이후, 학술 논문과 온라인 글에서 이 단어의 사용 빈도가 급격하게 증가했습니다. 연구자들이 학술 논문 데이터베이스를 분석한 결과, 2023년에 "delve"의 사용 빈도가 이전 대비 수배 증가한 것으로 나타났습니다. 이는 연구자들이 논문 작성에 LLM을 활용하면서, 모델이 선호하는 특정 어휘가 인간의 글쓰기에 역류한 명백한 증거입니다.

비슷한 사례로 "utilize"(활용하다), "landscape"(생태계/환경), "navigate"(헤쳐나가다), "leverage"(활용하다), "foster"(촉진하다) 같은 단어들도 LLM 시대 이후 사용 빈도가 눈에 띄게 늘었습니다.

구조적 획일화

단어 차원을 넘어서, 글의 구조 자체도 획일화되고 있습니다. LLM으로 생성된 글은 대체로 다음과 같은 패턴을 따릅니다:

1. 도입부에서 주제를 재진술 ("오늘날의 빠르게 변화하는 디지털 환경에서...")
2. 3~5개의 번호 매겨진 포인트로 본론 전개 3. 각 포인트에 대한 균형 잡힌 설명 (장점과 단점 모두 언급)
4. "결론적으로" 또는 "요약하자면"으로 시작하는 마무리 5. 미래에 대한 낙관적 전망으로 끝맺음

이 구조가 나쁜 것은 아닙니다. 오히려 읽기 쉽고 논리적입니다. 문제는 모든 글이 이 구조를 따르면 개성이 사라진다는 것입니다. 유머러스한 에세이, 의식의 흐름을 따르는 비평, 날카로운 한 줄짜리 의견 — 이런 다양한 형식의 글이 설 자리가 좁아지고 있습니다.

감정의 획일화

더 미묘하지만 중요한 변화는 감정 표현의 획일화입니다. LLM의 기본 목소리는 대체로 중립적이고 낙관적입니다. 분노, 좌절, 냉소, 자조 같은 인간적인 감정이 걸러지고, 모든 것이 "흥미롭고" "주목할 만한" 것으로 포장됩니다. 글쓰기에서 감정은 단순한 장식이 아니라 메시지의 핵심 구성 요소인데, 이것이 체계적으로 희석되고 있는 셈입니다.

왜 이것이 단순한 문체 문제가 아닌가

신뢰의 위기

글쓰기의 획일화는 신뢰 문제로 직결됩니다. 이메일을 받았을 때, 블로그 글을 읽었을 때, 우리는 이제 "이걸 사람이 직접 썼을까, AI가 썼을까?"를 먼저 의심합니다. 특히 비즈니스 커뮤니케이션에서 이 문제는 심각합니다. 채용 담당자가 자기소개서를 읽을 때, 투자자가 사업 계획서를 읽을 때, "이것이 지원자/창업가의 진짜 생각과 역량을 반영하는가?"라는 질문이 항상 따라붙습니다.

아이러니하게도, AI로 글을 쓰지 않은 사람도 피해를 봅니다. 자연스럽게 정제된 문장을 쓰는 사람의 글이 "AI가 쓴 것 같다"는 의심을 받게 되는 것입니다. 이미 학계에서는 학생들의 과제가 AI 생성인지 아닌지를 둘러싼 분쟁이 빈번하게 발생하고 있습니다.

사고의 외주화

더 근본적인 우려는 사고 과정 자체의 외주화입니다. 글을 쓰는 행위는 단순히 생각을 텍스트로 옮기는 것이 아닙니다. 글을 쓰는 과정에서 생각이 정제되고, 논리의 허점이 드러나며, 새로운 아이디어가 떠오릅니다. 이것은 인지 과학에서 "쓰기를 통한 사고(writing-to-think)"라고 부르는 잘 알려진 현상입니다.

LLM에게 글쓰기를 전적으로 맡기면, 이 사고 과정이 생략됩니다. 사용자는 대략적인 의도를 프롬프트로 전달하고, 모델이 완성된 텍스트를 내놓으면 그것을 수용합니다. 문제는 모델이 생성한 텍스트가 사용자의 원래 의도를 정확히 반영하지 않을 수 있다는 점입니다. 모델은 통계적으로 가장 그럴듯한 텍스트를 생성할 뿐, 사용자의 고유한 관점이나 경험을 반영하지 못합니다. 시간이 지나면서 사용자는 자신의 목소리를 잃고, AI의 목소리를 자신의 것으로 내재화할 수 있습니다.

다양성의 감소와 문화적 영향

언어의 다양성은 문화의 다양성과 직결됩니다. 현재 대부분의 주요 LLM은 영어 중심으로 훈련되었고, 영어의 글쓰기 관습을 기본 목소리에 내재하고 있습니다. 한국어로 출력할 때도 이 영향은 사라지지 않습니다. 한국어 특유의 비유, 어미 변화를 통한 뉘앙스 표현, 문화적 맥락이 담긴 표현들이 영어식 구조와 톤으로 대체되는 현상이 관찰됩니다.

예를 들어, 한국어에서 "~거든요"와 "~입니다"의 차이는 단순한 종결어미의 차이가 아니라 화자와 청자 사이의 관계, 정보의 성격, 발화의 의도를 모두 담고 있습니다. 하지만 LLM은 이런 미묘한 화용론적 차이를 충분히 반영하지 못하고, 대체로 "~습니다" 체의 무난한 문체로 수렴하는 경향이 있습니다.

기술적 관점: 해결 가능한가?

프롬프트 엔지니어링의 한계

가장 쉽게 떠올릴 수 있는 대응은 프롬프트 엔지니어링입니다. "캐주얼하게 써줘", "직설적으로 써줘", "마치 친구에게 말하듯이 써줘" 같은 지시를 추가하는 것입니다. 이 방법은 어느 정도 효과가 있지만, 근본적인 한계가 있습니다.

첫째, 프롬프트로 지시한 스타일도 결국 모델의 해석을 거칩니다. "캐주얼하게"라는 지시를 받은 모델은 자신이 학습한 "캐주얼한 글"의 패턴을 재현할 뿐입니다. 이는 진짜 캐주얼한 것이 아니라, "모델이 생각하는 캐주얼"입니다.

둘째, 매번 상세한 스타일 지시를 작성하는 것은 비효율적입니다. 결국 대부분의 사용자는 기본 설정 그대로 사용하게 됩니다. 이것은 UX 디자인에서 잘 알려진 원리입니다 — 기본값(default)이 곧 대다수의 선택이 됩니다.

Custom Instructions와 메모리 기능

OpenAI의 Custom Instructions, Claude의 프로젝트 설정, 그리고 각 서비스의 메모리 기능은 이 문제를 부분적으로 해결하려는 시도입니다. 사용자가 자신의 글쓰기 스타일, 선호하는 톤, 피해야 할 표현 등을 미리 설정해두면, 모델이 이를 반영한 출력을 생성합니다.

하지만 이 기능을 적극적으로 활용하는 사용자는 전체의 극소수에 불과합니다. 대부분의 사용자는 이런 설정이 있다는 것조차 모르거나, 알더라도 설정할 동기가 부족합니다. 결과적으로 기본 목소리의 지배력은 여전합니다.

파인튜닝과 개인화 모델

더 기술적인 접근으로는 개인 데이터 기반 파인튜닝이 있습니다. 자신이 과거에 쓴 글, 이메일, 메모 등을 학습 데이터로 사용해 모델을 자신의 문체에 맞게 조정하는 것입니다. 이론적으로는 가장 효과적인 방법이지만, 현실적으로는 상당한 기술적 역량과 비용이 필요합니다.

최근에는 이 과정을 간소화하려는 스타트업들이 등장하고 있습니다. 사용자의 글쓰기 샘플을 분석해 "문체 프로필"을 생성하고, 이를 LLM 출력에 적용하는 서비스들입니다. 하지만 아직 초기 단계이며, 결과물의 품질도 일관적이지 않습니다.

한국 개발자와 기술 커뮤니티에 주는 시사점

기술 블로그 작성 시 주의할 점

한국 개발자들 사이에서도 기술 블로그 작성에 LLM을 활용하는 경우가 빠르게 늘고 있습니다. velog, tistory 등 기술 블로그 플랫폼에서 비슷한 톤과 구조의 글이 급증하고 있다는 것은 많은 개발자가 체감하고 있을 것입니다.

기술 블로그의 가치는 단순한 정보 전달이 아니라 필자의 고유한 경험과 시행착오의 공유에 있습니다. "Spring Security 설정 방법"을 LLM에게 쓰게 하면 공식 문서를 재구성한 수준의 글이 나옵니다. 하지만 "Spring Security를 도입하다가 3일 동안 삽질한 이야기"는 오직 그 개발자만 쓸 수 있습니다. 후자가 훨씬 더 가치 있는 콘텐츠입니다.

실무적 제안을 드리자면:

초안을 LLM으로 작성하더라도, 자신의 경험과 의견을 반드시 직접 추가하세요. 삽질 경험, 예상과 달랐던 점, 아직 해결하지 못한 의문 등이 글의 핵심이 되어야 합니다.
LLM이 생성한 "표준적인" 표현을 의식적으로 걸러내세요. "~에 대해 자세히 알아보겠습니다", "~라는 점에서 매우 중요합니다" 같은 상투적 표현을 자신만의 표현으로 교체하세요.
완성된 글을 LLM 감지 도구로 한번 돌려보세요. GPTZero, Originality.ai 같은 도구가 높은 AI 확률을 보인다면, 독자도 비슷하게 느낄 가능성이 높습니다.

코드 리뷰와 문서화에서의 영향

코드 리뷰 코멘트와 기술 문서화에서도 LLM의 기본 목소리가 침투하고 있습니다. PR 리뷰에서 "This is a great approach! However, it might be worth considering..."라는 패턴의 코멘트가 늘고 있다면, 이것이 리뷰어의 실제 의견인지 AI가 생성한 것인지 구분하기 어렵습니다.

코드 리뷰의 핵심은 구체적이고 실행 가능한 피드백입니다. "이 부분은 좋은 접근입니다"보다 "이 부분에서 N+1 쿼리가 발생할 수 있는데, eager loading을 고려해보세요"가 훨씬 유용합니다. LLM의 기본 목소리는 전자 스타일의 모호하고 정중한 코멘트를 생성하는 경향이 있으므로, 이를 그대로 사용하면 코드 리뷰의 질이 오히려 떨어질 수 있습니다.

채용 과정에서의 새로운 도전

한국 IT 기업의 채용 과정에서도 이 문제는 현실적인 도전이 되고 있습니다. 코딩 테스트 이후의 기술 에세이, 자기소개서, 포트폴리오 설명문 등에서 AI 생성 텍스트를 감지하기가 점점 어려워지고 있습니다. 일부 기업은 이에 대응해 라이브 코딩이나 실시간 기술 토론의 비중을 높이고 있지만, 이는 평가 비용의 증가를 의미합니다.

역으로, 이 상황은 자신만의 목소리를 가진 개발자에게 차별화 기회가 됩니다. 모든 지원자의 자기소개서가 비슷하게 정제된 문장으로 채워진 상황에서, 자신의 실제 경험과 고유한 관점이 담긴 글은 오히려 더 돋보이게 됩니다.

AI 시대의 글쓰기, 어디로 가는가

이 현상은 단기간에 해소될 문제가 아닙니다. LLM의 활용은 줄어들기보다 늘어날 것이고, 기본 목소리의 영향력도 그에 비례해 커질 것입니다. 하지만 몇 가지 방향에서 변화의 조짐이 보입니다.

첫째, AI 리터러시(AI literacy)에 대한 인식이 높아지고 있습니다. 프롬프트를 잘 쓰는 것만이 아니라, AI의 출력을 비판적으로 평가하고 자신의 목소리를 유지하는 능력이 중요한 역량으로 부상하고 있습니다.

둘째, 모델 다양화가 진행 중입니다. 오픈소스 모델(Llama, Mistral 등)의 성능이 향상되면서, 각기 다른 특성을 가진 모델들이 공존하는 생태계가 형성되고 있습니다. 모든 사람이 하나의 모델을 쓰는 것보다, 다양한 모델이 공존하는 것이 획일화를 완화하는 데 도움이 됩니다.

셋째, 개인화 기술의 발전입니다. 앞서 언급한 문체 프로필, Custom Instructions의 고도화, 그리고 더 정교한 프롬프트 기법 등을 통해 기본 목소리를 벗어나는 것이 점점 쉬워질 것입니다.

그러나 가장 중요한 것은 개인의 자각입니다. AI는 글쓰기를 도와주는 도구이지, 글쓰기를 대체하는 것이 아닙니다. 도구를 사용하되 자신의 목소리를 잃지 않는 것 — 이것이 AI 시대 글쓰기의 핵심 과제입니다.

여러분은 LLM을 글쓰기에 어떻게 활용하고 계신가요? AI가 생성한 초안을 자신의 문체로 다듬는 나만의 워크플로우가 있다면, 혹은 AI의 기본 목소리에 물들고 있다는 걸 느낀 경험이 있다면 댓글로 공유해주세요.

🔗 출처: Reddit