구글, Gemma 4 오픈 모델 공개 — 멀티모달과 긴 컨텍스트를 품은 오픈웨이트의 새 기준

무슨 일이 있었나요?

구글 딥마인드가 Gemma 시리즈의 최신 버전인 Gemma 4를 공개했어요. Gemma는 구글이 자사의 대형 모델 Gemini에서 기술을 가져와 만든 오픈웨이트(open-weight) 모델인데요, 쉽게 말해 모델의 가중치(학습된 파라미터)를 누구나 다운로드해서 자기 환경에서 돌릴 수 있는 모델이에요. 이번 Gemma 4는 단순한 텍스트 모델을 넘어서, 이미지까지 이해하는 멀티모달 능력과 훨씬 길어진 컨텍스트 윈도우를 갖추고 나왔어요.

이전 세대인 Gemma 2가 텍스트 중심의 언어 모델이었다면, Gemma 4는 "보고 읽고 이해하는" 모델로 크게 진화한 거예요. 특히 오픈 모델 진영에서 멀티모달 지원이 본격화되고 있다는 점에서, 이번 발표는 꽤 의미가 커요.

핵심 내용: 뭐가 달라졌을까?

멀티모달 지원

Gemma 4의 가장 큰 변화는 비전(vision) 기능이 기본 탑재되었다는 거예요. 이전까지 Gemma 시리즈는 텍스트만 처리할 수 있었는데, 이제 이미지를 입력으로 받아서 분석하고 설명할 수 있게 됐어요. 예를 들어 스크린샷을 넣고 "이 UI에서 문제점을 찾아줘"라고 하거나, 차트 이미지를 넣고 데이터를 해석해달라고 할 수 있는 거죠.

이게 뭐냐면, 기존에 텍스트 LLM과 별도의 비전 모델을 파이프라인으로 연결해서 쓰던 구조를 하나의 모델로 통합할 수 있다는 뜻이에요. 인프라가 단순해지고, 멀티모달 간의 맥락 이해도 훨씬 자연스러워지거든요.

긴 컨텍스트 윈도우

Gemma 4는 컨텍스트 윈도우도 대폭 늘어났어요. 컨텍스트 윈도우란 모델이 한 번에 "기억하면서" 처리할 수 있는 텍스트의 양을 말하는데요, 이게 길어지면 긴 문서 전체를 한 번에 넣고 질문하거나, 긴 대화 기록을 유지하면서 대화할 수 있어요. 코드 리뷰처럼 여러 파일에 걸친 맥락을 이해해야 하는 작업에서 특히 유리해요.

다양한 크기 옵션

Gemma 4는 여러 파라미터 크기로 제공돼요. 가벼운 모델은 노트북이나 모바일에서도 돌릴 수 있고, 큰 모델은 서버급 GPU에서 더 높은 성능을 뽑아낼 수 있어요. 이런 크기 다양성은 실무에서 굉장히 중요한데, 프로토타입은 작은 모델로 빠르게 만들고, 프로덕션에서는 큰 모델로 품질을 높이는 전략을 쓸 수 있거든요.

업계 맥락: 오픈 모델 경쟁이 뜨겁다

지금 오픈웨이트 모델 시장은 그야말로 전쟁터예요. Meta의 Llama 시리즈가 오랫동안 오픈 모델의 대표주자 역할을 해왔고, 최근에는 중국의 Qwen 시리즈와 DeepSeek이 놀라운 성능으로 치고 올라왔어요. 여기에 프랑스 Mistral의 모델들까지 가세하면서, 선택지가 정말 많아졌죠.

이런 상황에서 구글이 Gemma 4로 멀티모달과 긴 컨텍스트를 들고 나온 건 "오픈 모델도 상용 모델 못지않은 기능을 갖출 수 있다"는 메시지를 업계에 보내는 거예요. 특히 구글은 자사의 클라우드 인프라(Vertex AI, GCP)와의 통합 이점이 있어서, 단순히 모델만 공개하는 것이 아니라 생태계 전체로 개발자를 끌어오려는 전략이 읽혀요.

Llama와 비교하면, Gemma는 상대적으로 작은 크기에서 효율적인 성능을 내는 데 강점이 있었어요. 이번 4 버전에서 멀티모달까지 추가되면서, "가볍지만 다재다능한 모델"이라는 포지셔닝이 더 뚜렷해진 느낌이에요.

한국 개발자에게 주는 시사점

당장 실무에서 실험해볼 수 있어요. Hugging Face나 Kaggle에서 모델 가중치를 바로 받을 수 있고, Ollama 같은 로컬 실행 도구로도 돌려볼 수 있을 거예요. 특히 한국어 성능이 어느 정도인지 직접 테스트해보는 게 중요해요. 구글 모델 특성상 다국어 지원이 나쁘지 않은 편이거든요.

온디바이스 AI를 고민하는 팀이라면 주목할 만해요. 모바일이나 엣지 디바이스에서 멀티모달 AI를 돌려야 하는 경우, 작은 Gemma 4 모델이 좋은 출발점이 될 수 있어요. 예를 들어 제조 현장에서 불량품 이미지를 실시간으로 판별하거나, 매장에서 상품 사진을 분석하는 앱을 만들 때 활용 가능하죠.

파인튜닝 베이스 모델로도 고려해볼 만해요. 오픈웨이트라서 특정 도메인에 맞게 추가 학습(파인튜닝)을 시킬 수 있거든요. 의료, 법률, 금융 같은 한국 특화 도메인 데이터로 미세 조정하면 꽤 쓸 만한 전문 모델을 만들 수 있을 거예요.