AI 이미지 생성에 글자가 깨진다고요? '밑그림' 한 장이면 해결됩니다

AI 그림에 글자만 넣으면 왜 이상해질까

Midjourney나 Stable Diffusion 같은 이미지 생성 AI 한 번이라도 써보신 분이라면 공감하실 거예요. 분위기 있는 포스터를 만들어달라고 했는데, 글자가 "COFFFE", "MOORNING" 같은 정체불명의 단어로 나오는 경험이요. 숫자도 마찬가지예요. 시계 그림을 그려달라면 12시간이 13개로 나뉘어 있거나, 가격표가 외계어로 적혀 있거나요.

이게 왜 이런 일이 벌어지냐면, 디퓨전 모델(Diffusion Model, 노이즈에서 이미지를 점점 선명하게 만들어가는 방식의 AI)은 글자를 "의미"가 아니라 "비슷한 모양의 픽셀 패턴"으로 학습했기 때문이에요. 사람이 글자를 읽을 때처럼 "C-O-F-F-E-E"라는 문자열을 이해하는 게 아니라, 그냥 "커피 가게 이미지에서 자주 보이는 둥글둥글한 검은 무늬" 정도로 인식하는 거죠. 그래서 비슷하지만 틀린 글자가 나와요.

Sam Collins라는 분이 블로그에 공유한 "underdrawings"(밑그림) 기법은 이 문제를 굉장히 단순하면서도 효과적으로 해결하는 방법이에요.

underdrawings, 그게 뭔가요

"Underdrawing"은 원래 미술 용어예요. 화가들이 본격적으로 색을 칠하기 전에 캔버스에 연필이나 목탄으로 윤곽을 잡아두는 밑그림을 말해요. 이 아이디어를 AI 이미지 생성에 그대로 가져온 거예요.

작동 방식은 이래요. 먼저 원하는 텍스트와 숫자를 정확하게 배치한 단순한 밑그림 이미지를 만들어요. 검은 배경에 흰 글씨로 "OPEN 24 HOURS"라고 또박또박 써놓는 식이죠. 폰트도 정확하고, 위치도 정확하고, 철자도 정확하게요. 이건 어떤 도구로 만들어도 돼요. 포토샵이든, 피그마든, 심지어 파워포인트든요.

그다음 이 밑그림을 디퓨전 모델의 입력 컨디셔닝(input conditioning)으로 넣어줘요. 보통은 ControlNet이나 img2img 같은 기능을 써요. AI에게 "이 밑그림의 구조와 글자는 그대로 살리되, 분위기와 스타일만 네가 채워줘"라고 지시하는 거예요. 그러면 AI는 글자 모양은 밑그림에서 그대로 가져오고, 그 위에 네온사인 효과를 입히거나, 빈티지 간판 스타일을 입히거나, 빗방울 맺힌 유리창 너머의 글씨처럼 표현해주는 거죠.

핵심은 "AI에게 글자를 생성하게 하지 말고, 글자는 미리 그려서 주고 그 위에 옷만 입히게 하라"는 발상의 전환이에요.

기존 해결책과 비교해보면

사실 이 문제를 풀기 위한 시도가 꽤 있었어요. DeepFloyd IF나 Ideogram 같은 모델은 텍스트 렌더링을 잘하도록 특별히 학습됐고, DALL·E 3도 OpenAI가 글자 처리에 신경을 많이 썼어요. 하지만 이런 모델들도 짧은 단어는 잘하지만 긴 문장이나 특정 폰트, 정확한 숫자 배열은 여전히 헷갈려해요.

또 다른 방법으로는 후처리가 있어요. AI로 이미지를 일단 뽑고, 글자 부분만 포토샵으로 덮어쓰거나 inpainting(부분 다시 그리기)으로 수정하는 거죠. 이건 결과는 정확하지만 손이 많이 가고, 특히 글자가 곡면이나 원근감 있는 표면에 있을 땐 자연스럽게 합성하기 어려워요.

Underdrawings 기법의 매력은 "AI의 표현력은 그대로 살리면서 정확성을 잡는다"는 점이에요. 글자가 휘어진 머그컵에 적혀 있어도, 빛에 비친 유리창에 있어도 AI가 그 표면 특성에 맞게 자연스럽게 글자를 변형해주거든요. 후처리로 합성한 것보다 훨씬 자연스러워요.

한국 개발자가 활용한다면

실무에서 바로 떠오르는 활용처가 많아요. 우선 광고 크리에이티브 자동 생성이요. 쇼핑몰에서 "여름 세일 30% 할인" 같은 배너를 AI로 대량 생성하고 싶을 때, 가격이나 문구가 정확해야 하잖아요. 밑그림에 정확한 텍스트를 박아두고 분위기만 AI가 다양하게 뽑아주면, 한 카피로 수십 개 베리에이션을 만들 수 있어요.

한글도 큰 이슈예요. 영문도 어려워하는 디퓨전 모델이 한글은 더 못해요. 자음·모음 조합이 깨져서 정체불명의 기호가 나오기 일쑤죠. 한글 폰트로 또박또박 쓴 밑그림을 ControlNet에 물려주면, 한국어 포스터나 인포그래픽도 깔끔하게 뽑을 수 있어요. 이건 국내 마케팅·디자인 자동화 도구를 만드는 분들한테 정말 큰 무기가 될 수 있어요.

그리고 개인 프로젝트에서도 좋아요. 블로그 썸네일, 발표 슬라이드 배경, 사이드 프로젝트의 랜딩 페이지 히어로 이미지 같은 거요. ComfyUI나 A1111 웹UI에 ControlNet 노드 하나 추가하고, 피그마에서 글자 박은 PNG 한 장 내보내면 끝이에요. 30분이면 셋업 가능해요.