[심층분석] GPT한테 그림을 그려달라고 했더니… 대체 이 이미지들은 어디서 온 걸까?

들어가며: "내가 시킨 거랑 너무 다른데?"

혹시 ChatGPT한테 이미지를 그려달라고 부탁해 본 적 있으세요? 분명히 "고양이가 노트북 앞에서 코딩하는 그림" 같은 평범한 요청을 했는데, 결과물을 보면 "어? 내가 이런 걸 시켰나?" 싶을 때가 종종 있죠. 그런데 더 신기한 건요, 사람들이 똑같은 프롬프트를 넣었을 때 비슷한 분위기의, 어쩐지 "GPT스러운" 이미지가 계속 튀어나온다는 거예요.

최근 레딧에서 한 사용자가 올린 게시물이 큰 공감을 얻었는데요, 제목이 인상적이에요. "한번 해봤는데, GPT가 대체 이런 이미지들을 어디서 가져오는 건지 모르겠다". 사람들은 각자 다양한 프롬프트를 입력했는데, 결과물에서 묘하게 공통된 패턴, 색감, 구도가 발견됐다는 거예요. 마치 모든 AI 이미지가 어떤 "보이지 않는 화풍"을 공유하고 있는 것처럼요.

이 현상은 단순히 "AI 그림이 좀 이상하다" 수준의 농담거리가 아니에요. 사실 여기에는 생성형 AI(Generative AI)가 작동하는 근본 원리, 그리고 학습 데이터의 편향(bias) 이라는 아주 중요한 이야기가 숨어 있거든요. 이번 글에서는 왜 GPT 같은 모델이 "어디서 본 것 같은" 이미지를 자꾸 만들어내는지, 그 메커니즘을 차근차근 풀어볼게요.

왜 GPT 이미지는 "GPT스럽게" 생길까?

1) 학습 데이터라는 "거대한 그림책"

먼저 이걸 이해해야 해요. ChatGPT의 이미지 생성 기능(DALL·E 3나 GPT-4o의 이미지 모델)이든, Midjourney든, Stable Diffusion이든, 이런 AI들은 사람이 그림을 배우듯 학습해요. 다만 사람과 차원이 좀 다르죠. 사람은 평생 수만 장의 이미지를 보는데, AI는 수십억 장의 이미지를 봐요.

이게 뭐냐면요, 인터넷에 떠도는 거의 모든 이미지 — 구글에서 검색되는 사진, 무료 스톡 이미지 사이트의 일러스트, 아트스테이션 같은 곳의 작품, 위키피디아의 도판, 심지어 SNS의 밈까지 — 이런 걸 통째로 "먹여서" 학습시킨다는 뜻이에요. 그리고 각 이미지에는 보통 캡션(설명 텍스트) 이 붙어 있어요. "고양이가 창가에 앉아 있다" 같은 거요.

AI는 이걸 보면서 "아하, '고양이'라는 단어가 나오면 이런 시각적 패턴이 등장하는구나" 하고 학습해요. 비유하자면, 단어와 이미지를 연결하는 거대한 사전을 머릿속에 만드는 거죠.

2) 확산 모델(Diffusion Model)이라는 마법

요즘 이미지 생성 AI는 대부분 확산 모델(Diffusion Model) 이라는 방식을 써요. 이게 뭐냐면, 좀 신기한 발상인데요.

1단계: 멀쩡한 사진에 점점 노이즈(잡음, 즉 지지직거리는 화면 같은 것)를 더해서 완전히 잡음 덩어리로 만들어요.
2단계: AI한테 "이 잡음 덩어리에서 원래 사진을 복원해봐"라고 시켜요. 이걸 수억 번 반복해요.
3단계: 이렇게 훈련된 AI는 잡음에서 그림을 끄집어내는 능력을 갖게 돼요.

그러니까 우리가 "고양이 그려줘" 하면, AI는 무작위 잡음에서 시작해서 "이 잡음 속에 사실은 고양이가 숨어 있다고 가정하고, 한 단계씩 노이즈를 걷어내자" 하는 식으로 이미지를 만들어내는 거예요. 마치 안개 속에서 형체가 서서히 드러나는 것처럼요.

그런데 여기서 중요한 게, 이 "걷어내는 방향"을 결정하는 게 결국 학습 데이터의 평균적인 패턴이라는 거예요. 학습 데이터에 비슷한 구도의 이미지가 많이 있었다면, AI는 자연스럽게 그 구도로 수렴하게 돼요.

3) "GPT 룩(Look)"이 생기는 이유

자, 그럼 왜 GPT가 만든 이미지에는 일종의 "공통된 분위기"가 있을까요? 사람들이 우스갯소리로 "AI 사람 얼굴은 다 비슷하게 생겼다", "색감이 묘하게 노랗다", "배경이 항상 약간 흐릿하다" 같은 얘기를 하잖아요. 이게 우연이 아니에요.

데이터셋의 편향: AI가 학습한 이미지 중에 특정 스타일(예: 인스타그램에서 인기 있는 따뜻한 톤의 사진)이 압도적으로 많으면, 그 스타일이 "기본값"이 돼요.
RLHF의 영향: ChatGPT 같은 상용 모델은 RLHF(인간 피드백 기반 강화학습) 라는 과정을 거치는데요. 쉽게 말해, 사람들이 "이 이미지 좋아요/별로예요" 평가한 데이터로 모델을 다시 조정하는 거예요. 그런데 사람들이 보통 "예쁘다"고 느끼는 이미지는 비슷한 특징을 가져요. 채도 높고, 구도 안정적이고, 인물은 대칭이 잘 맞고. 그래서 AI는 점점 그쪽으로 쏠리게 돼요.
안전 필터(Safety Filter): 폭력적이거나 성적인 이미지, 저작권 문제가 있을 만한 이미지는 학습이나 출력에서 걸러져요. 이 과정에서 어쩔 수 없이 "무난하고 일반적인" 이미지로 수렴하는 경향이 생겨요.

결과적으로, GPT가 만든 이미지는 "가장 많은 사람이 평균적으로 좋다고 느끼는 평균치" 에 가까워요. 그래서 "어디서 본 것 같다"는 느낌이 드는 거죠.

모드 붕괴(Mode Collapse)라는 함정

다양성이 사라지는 현상

여기서 한 가지 짚고 넘어갈 개념이 있어요. 모드 붕괴(Mode Collapse) 라는 건데요, 이게 뭐냐면 AI가 다양한 결과를 만들 수 있는데도 자꾸 비슷비슷한 결과만 만들어내는 현상이에요.

예를 들어볼게요. "의사를 그려줘"라고 하면, 학습 데이터에 백인 남성 의사 사진이 압도적으로 많았기 때문에 AI는 자꾸 백인 남성 의사를 그려요. "간호사를 그려줘"라고 하면 여성을 그리고요. 이건 단순한 편향(bias) 문제이기도 하지만, 확률적으로 가장 안전한 답을 고르는 AI의 본능적인 작동 방식 이기도 해요.

사실 사람도 비슷해요. "개를 그려봐"라고 하면 대부분 옆모습에 꼬리 흔드는 그림을 그리잖아요. AI는 이걸 극단적으로 한다고 보면 돼요. 수억 장의 "개 이미지"를 평균 낸 결과물을 내놓으니까요.

그래서 사람들이 "AI 그림 같다"고 느끼는 거예요

레딧 사용자들이 "GPT가 어디서 이런 이미지를 가져오는지 모르겠다"고 한 건, 사실 굉장히 정확한 직관이에요. AI는 어디서 가져오는 게 아니라, 수많은 이미지를 압축해서 만든 "확률 분포의 평균" 에서 끄집어내는 거거든요. 그래서 어떤 특정 그림과 똑같지는 않지만, 동시에 "어디선가 본 것 같은" 느낌이 드는 거예요.

다른 이미지 생성 AI들과 비교해보면

그럼 다른 AI들은 어떻게 다를까요? 간단히 비교해볼게요.

Midjourney: "예술가" 스타일

Midjourney는 의도적으로 "예술적이고 드라마틱한" 이미지를 만들도록 튜닝됐어요. 학습 데이터에 아트스테이션, 데비안트아트 같은 작품 사이트의 이미지가 많이 들어갔고, 사용자 피드백도 "멋있는" 쪽으로 모이다 보니, 결과물이 영화 포스터 같은 느낌이 강해요.

쉬운 비유로 하자면, Midjourney는 "인스타그램 필터를 잔뜩 먹인 사진작가" 같은 친구예요.

Stable Diffusion: "오픈소스 다재다능"

Stable Diffusion은 오픈소스라서 사용자들이 직접 모델을 추가 학습(파인튜닝, fine-tuning이라고 해요. 기존 모델에 새로운 데이터로 살짝 더 학습시키는 거예요)시킬 수 있어요. 그래서 애니메이션 스타일, 사진 스타일, 픽셀아트 스타일 등 수천 가지 변종 모델이 있어요.

이건 마치 "백지에서 시작하는 화방" 같아요. 자기가 원하는 도구와 물감을 골라서 쓸 수 있죠. 다만 그만큼 사용하기 어려워요.

DALL·E 3 / GPT 이미지: "안전하고 깔끔한 친구"

OpenAI의 모델들은 안전성과 일관성을 매우 중요하게 다뤄요. 그래서 이미지가 깔끔하고, 텍스트도 비교적 잘 들어가고(다른 모델들이 글자를 못 쓰는 경우가 많거든요), 부적절한 콘텐츠는 거의 만들지 않아요.

대신 "개성"이 좀 부족하다는 평이 있어요. 사람들이 "GPT 이미지는 다 비슷하게 생겼다"고 하는 이유가 여기에 있는 거죠.

비교 요약

| 모델 | 강점 | 약점 | 분위기 |
|------|------|------|--------|
| DALL·E 3 / GPT | 안전, 텍스트 처리, 프롬프트 이해도 | 다양성 부족 | "무난하고 깔끔" |
| Midjourney | 예술적, 드라마틱 | 프롬프트 정확도 떨어질 때 있음 | "영화 같은" |
| Stable Diffusion | 자유도, 커스터마이징 | 사용 난이도 | "천차만별" |

한국 개발자에게 주는 시사점

1) 프롬프트 엔지니어링의 진짜 의미

많은 분들이 "프롬프트 엔지니어링"을 단순히 "AI한테 명령어 잘 쓰는 법" 정도로 생각하시는데요, 사실 본질은 "AI의 기본값(default)에서 벗어나는 법" 이에요.

예를 들어, "비즈니스 미팅 일러스트 그려줘"라고 하면 십중팔구 양복 입은 사람들이 회의실에 앉아 있는, 어디서 본 듯한 그림이 나와요. 왜냐하면 그게 학습 데이터의 평균이거든요. 이걸 깨려면 구체적인 디테일을 줘야 해요. "1980년대 일본 사무실, 폴라로이드 사진 느낌, 형광등 아래 흐릿한 분위기" 이런 식으로요.

실무에서 이미지 생성 AI를 쓰실 거라면, "AI가 기본적으로 어떤 이미지를 내놓는지" 를 먼저 파악하고, 그것과 다른 결과를 원할 때 어떻게 프롬프트를 짜야 하는지 연습하는 게 핵심이에요.

실무에서 AI 이미지를 쓸 때 꼭 체크하셔야 할 게요:

상업적 사용이 가능한 모델인지 (DALL·E는 OpenAI 약관상 가능, Midjourney도 유료 플랜은 가능)
회사 내부 규정상 AI 이미지 사용이 허용되는지
클라이언트가 "AI 생성물"임을 알 권리가 있는지

특히 광고, 출판, 게임 같은 분야에서는 이게 점점 더 민감해질 거예요.

3) 학습 로드맵 제안

AI 이미지 생성에 진심으로 관심이 있으시다면, 이런 순서로 공부해보시면 좋아요.

1. 기본 사용법 익히기: DALL·E, Midjourney, Stable Diffusion을 각각 한 달씩 써보세요. 같은 프롬프트로 비교해보면 차이를 몸으로 느낄 수 있어요.
2. 프롬프트 엔지니어링: "prompt engineering for images" 키워드로 무료 가이드들이 많아요. lexica.art 같은 사이트에서 다른 사람들의 프롬프트도 구경해보세요.
3. Stable Diffusion 로컬 설치: AUTOMATIC1111이나 ComfyUI 같은 도구로 직접 모델을 돌려보세요. ControlNet, LoRA 같은 개념을 익히면 훨씬 정교한 제어가 가능해져요.
4. 이론 공부: 시간이 있으시면 확산 모델 논문(DDPM, Stable Diffusion)을 훑어보세요. 수학이 어려우면 유튜브의 시각화 설명 영상으로 시작해도 좋아요.

마무리: AI 이미지의 "평균값"에서 벗어나기

GPT가 만들어내는 이미지가 "어디서 본 것 같다"는 느낌은, 사실 AI가 수억 장의 이미지에서 추출한 인류의 시각적 평균값 을 우리에게 보여주고 있기 때문이에요. 그건 신기한 일이면서도, 동시에 약간 무서운 일이기도 해요. 우리가 AI 이미지에 점점 익숙해지면, 우리의 시각적 감각도 그 "평균값"에 수렴해버릴 수 있거든요.

앞으로 AI 이미지는 더 정교해지고, 더 다양해지겠지만, "AI스러움"을 완전히 벗어나기는 쉽지 않을 거예요. 왜냐하면 모델 자체가 통계적 평균에서 작동하니까요. 그래서 진짜 차별화는 결국 "AI를 어떻게 다르게 쓰느냐" 에 달려 있을 거예요.

여러분께 묻고 싶어요

여러분이 직접 AI로 이미지를 만들어봤을 때, "이거 다른 사람이 만든 거랑 너무 비슷한데?" 싶었던 경험 있으세요?
실무에서 AI 이미지를 쓰신다면, 어떻게 "AI스러움"을 피하시나요?
앞으로 디자이너의 역할은 어떻게 바뀔까요? AI는 디자이너를 대체할까요, 아니면 새로운 도구가 될까요?

댓글로 여러분의 경험과 생각을 들려주세요. 같이 이야기 나눠봐요!

🔗 출처: Reddit