ChatGPT Images 2.0, 이제 이미지 생성이 '그리기'가 아니라 '대화'가 됐어요

한 번의 프롬프트로 끝나던 시대는 지나갔어요

OpenAI가 ChatGPT Images 2.0을 공개했어요. 이름만 보면 "또 이미지 생성 모델 업데이트야?" 싶을 수 있는데요, 이번에는 결이 좀 다릅니다. 기존 DALL-E 3나 GPT-4o 이미지 생성은 기본적으로 '문장을 주면 그림이 한 장 튀어나오는' 방식이었어요. 마음에 안 들면 처음부터 다시 프롬프트를 고치고, 또 돌리고, 또 돌리고. 디자이너 분들이라면 "이럴 바엔 포토샵 켜는 게 낫겠다" 싶었던 경험이 있을 거예요.

Images 2.0은 이 흐름 자체를 바꾸려고 해요. 이미지를 편집 가능한 대화 객체로 취급한다는 게 핵심입니다. 한 장을 뽑아놓고 "이 사람 옷만 파란색으로 바꿔줘", "배경에 있는 간판 글씨 지워줘", "오른쪽 위에 햇빛 좀 더 들어오게" 같은 대화를 이어가면서 조금씩 다듬어 나갈 수 있어요. 중간중간 원본의 일관성(캐릭터 얼굴, 구도, 조명)은 유지하면서요.

기술적으로 뭐가 달라졌을까

이번 업데이트에서 눈에 띄는 지점은 크게 세 가지예요. 첫 번째는 텍스트 렌더링 품질입니다. 지금까지 생성 AI의 아킬레스건이 바로 이미지 안의 글자였어요. 간판, 포스터, UI 목업을 만들라고 하면 알아볼 수 없는 외계어가 찍혀 나오기 일쑤였거든요. Images 2.0은 한글·영문·일문 섞인 멀티링구얼 텍스트를 또박또박 써냅니다. 실제로 프레젠테이션 슬라이드나 배너 시안을 바로 쓸 수 있는 수준이라는 평이 나와요.

두 번째는 레퍼런스 이미지 기반 생성이에요. 내가 가진 캐릭터 이미지를 업로드하고 "이 캐릭터가 눈 오는 거리에서 우산 쓰고 있는 장면"이라고 말하면, 얼굴과 복장 특징을 유지한 채 새로운 장면을 그려줘요. 웹툰 작가, 게임 컨셉 아티스트, 마케팅팀에게는 작업 시간이 크게 줄어드는 기능이죠. 세 번째는 API 레벨의 편집 엔드포인트가 함께 열렸다는 점이에요. 마스크 영역을 지정해서 그 부분만 다시 그리는 인페인팅(inpainting), 이미지 밖을 확장해서 그리는 아웃페인팅(outpainting)을 프로그램으로 호출할 수 있게 됐어요.

경쟁 구도 속에서 보면

이 시장은 지금 아주 뜨거워요. 구글의 Imagen 3, Black Forest Labs의 FLUX.1, Stability AI의 Stable Diffusion 3.5, 그리고 오픈소스 진영의 다양한 파인튜닝 모델들이 각자의 강점을 내세우고 있어요. FLUX는 사진 같은 리얼리즘, Midjourney는 예술적 스타일, Stable Diffusion은 커스터마이징 자유도로 승부를 보는 중이죠.

OpenAI가 이 판에서 택한 전략은 "대화형 통합"이에요. 별도 툴을 띄우지 않고 ChatGPT 안에서 텍스트·이미지·코드를 한 맥락으로 다루는 거예요. 사실 이게 디자이너가 아닌 일반 사용자에게는 가장 강력한 무기예요. 포토샵을 배울 필요가 없거든요. 이미지 품질이 1위가 아니더라도, '쉽게 쓸 수 있다'는 것만으로 대중 시장에서 이기는 전략이죠.

한국 개발자에겐 어떤 의미일까

우선 제품에 이미지 생성 기능을 붙이려는 서비스라면 API를 다시 들여다볼 만해요. 기존에 Stable Diffusion을 자체 호스팅하던 팀들도 운영 비용과 품질을 저울질하고 있는데, OpenAI API의 편집 엔드포인트가 생기면서 선택지가 더 넓어졌어요. 이커머스의 상품 이미지 리터칭, 블로그 썸네일 자동 생성, 교육 콘텐츠 일러스트 같은 영역이 바로 떠오르는 활용처예요.

다만 조심해야 할 부분도 있어요. 한국어 텍스트 렌더링은 여전히 검증이 필요하고, 저작권·초상권 이슈는 여전히 회색지대예요. 상용 서비스에 적용할 땐 생성된 이미지의 사용 범위를 약관으로 명확히 해두는 게 좋고요, 실제 인물 사진을 레퍼런스로 쓸 때는 동의 절차가 꼭 필요합니다. 그리고 비용 모델도 꼼꼼히 봐야 해요. 편집을 여러 번 돌리는 워크플로우는 한 번 생성에 비해 API 호출이 훨씬 많아질 수 있거든요.