TECH 으로 돌아가기
TECH HACKER NEWS 2주 전 6분 읽기 90 READS

구글 Gemma 4 12B 공개 — '인코더 없는' 멀티모달, 이게 왜 중요할까

구글 Gemma 4 12B 공개 — '인코더 없는' 멀티모달, 이게 왜 중요할까

무슨 발표였냐면요

구글이 오픈 가중치(weight) 모델 라인업인 Gemma의 새 버전, Gemma 4 12B를 공개했어요. 여기서 '오픈 가중치'라는 건, 모델의 학습된 알맹이를 누구나 내려받아 자기 서버나 노트북에서 돌릴 수 있게 풀었다는 뜻이에요. ChatGPT처럼 API로만 쓰는 게 아니라요.

이번 모델의 가장 큰 키워드는 '통합되고 인코더가 없는(unified, encoder-free) 멀티모달'이에요. 멀티모달은 텍스트뿐 아니라 이미지도 함께 이해하는 모델을 말하는데요. 그 '이미지를 이해하는 방식'을 기존과 다르게 가져갔다는 게 핵심이에요.

인코더가 없다는 게 뭔 소리냐면

보통 멀티모달 모델은 두 덩어리로 나뉘어 있어요. 하나는 이미지를 숫자 벡터로 바꿔주는 비전 인코더(많이들 CLIP이라는 모델을 써요), 다른 하나는 그 벡터를 받아 글을 생성하는 언어 모델이에요. 비유하자면, 그림을 보고 설명을 받아 적는 '통역사'와 그 설명으로 글을 쓰는 '작가'가 따로 있는 구조죠.

이 방식은 잘 작동하지만 단점도 있어요. 통역사(인코더)가 미리 정해진 해상도와 방식으로만 그림을 요약하다 보니, 작가가 원본의 세세한 디테일을 못 보는 경우가 생기거든요. 두 모델을 따로 학습시키고 이어 붙이는 과정도 번거롭고요.

인코더가 없는 방식은 이 통역사를 아예 없애버려요. 대신 이미지를 작은 조각(패치)들로 잘라서, 그 픽셀 정보를 텍스트 토큰과 똑같은 자리에 그대로 흘려넣어요. 즉 하나의 트랜스포머가 글자와 그림 조각을 같은 흐름 안에서 처리하는 거예요. 그래서 '통합(unified)'이라는 말이 붙은 거고요. 이런 접근은 예전 Fuyu 같은 모델이 먼저 보여줬는데, 구글이 12B(120억 파라미터)라는 실용적인 크기에서 본격적으로 다듬어 내놓은 거예요.

장점이 뭐냐면, 임의의 해상도나 가로세로 비율의 이미지를 더 유연하게 받을 수 있고, 텍스트가 빽빽한 문서나 표, 차트처럼 디테일이 생명인 자료를 읽을 때 강점을 보여요. 구조가 단순해지니 학습과 추론 파이프라인도 깔끔해지고요.

업계 흐름 속에서 보면

12B라는 크기는 영리한 선택이에요. 요즘 오픈 모델 경쟁이 치열하잖아요. Meta의 Llama 계열, Alibaba의 Qwen, Mistral 같은 강자들이 있는데, 이들 중 상당수가 7B~14B 구간을 격전지로 삼고 있어요. 이 정도면 RTX 4090 한 장이나 적당한 양자화(quantization, 숫자 정밀도를 줄여 메모리를 아끼는 기법)를 거치면 개인 PC에서도 돌릴 만하거든요.

특히 '인코더 없는 멀티모달'을 이 크기대 오픈 모델로 밀고 나온 건 방향성이 분명해요. 거대한 폐쇄형 모델로 성능 1등을 노리기보다, 현실적인 하드웨어에서 굴러가면서도 이미지까지 이해하는 실용 모델 시장을 잡겠다는 거죠.

한국 개발자에게는

온프레미스(자체 서버)나 사내망 안에서 AI를 돌려야 하는 팀에게 특히 의미가 커요. 보안 때문에 외부 API로 데이터를 못 보내는 금융·공공·의료 쪽이 대표적이죠. 오픈 가중치 모델이면 우리 서버 안에서만 이미지+텍스트 처리를 끝낼 수 있으니까요.

문서 OCR, 영수증·청구서 파싱, 차트 읽기 같은 업무에 멀티모달 모델을 붙여보려던 분들은 한 번 테스트해볼 가치가 충분해요. 인코더 없는 구조 덕에 한글이 빽빽한 문서에서도 디테일을 더 잘 잡아줄 가능성이 있고요. 다만 라이선스 조건(상업적 사용 범위)은 도입 전에 꼭 확인하세요. Gemma 라이선스는 완전한 오픈소스가 아니라 일부 제약이 있는 편이거든요.

정리하면

Gemma 4 12B는 '비전 인코더를 떼어내고 하나의 모델로 글과 그림을 함께 본다'는 단순하지만 강력한 아이디어를, 개인도 굴릴 만한 크기로 구현한 모델이에요.

여러분은 이미지를 다루는 AI 작업, 외부 API로 처리하세요 아니면 자체 모델을 띄우는 쪽이세요? 사내에서 멀티모달 모델을 돌려본 경험이 있다면 어떤 작업에 써봤는지 공유해주세요.


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://blog.google/innovation-and-ai/technology/developers-...
SHARE
처리 중...