Gemini API의 File Search가 멀티모달 지원, 이제 이미지·영상도 RAG로 검색한다

RAG가 텍스트 너머로 확장됩니다

요즘 LLM 애플리케이션을 만든다고 하면 거의 빠지지 않는 게 RAG(Retrieval-Augmented Generation) 예요. 이게 뭐냐면, LLM한테 질문할 때 그냥 묻는 게 아니라 "관련 문서를 먼저 찾아서 같이 던져주는" 방식이에요. 모델이 학습 시점에 알지 못했던 회사 내부 문서나 최신 정보까지 답변할 수 있게 만들어주는 핵심 기술이죠. 사내 챗봇, 고객 지원 봇, 문서 검색 시스템 대부분이 이 방식으로 돌아갑니다.

그런데 지금까지 RAG는 거의 텍스트 전용 이었어요. PDF에서 텍스트만 뽑아내고, 이미지나 표는 그냥 무시하거나 OCR로 어설프게 변환하는 게 일반적이었죠. Google이 이번에 Gemini API의 File Search 기능을 멀티모달(multimodal) 로 확장한다고 발표했습니다. 이제 이미지, 다이어그램, 스캔된 문서, 심지어 영상까지 검색 대상에 포함되는 거예요.

File Search가 정확히 뭘 해주는 건가

Gemini API File Search는 Google이 제공하는 관리형 RAG 솔루션 이에요. 직접 임베딩 모델을 고르고, 벡터 DB를 띄우고, 청킹 전략을 짜는 그 모든 번거로운 작업을 Google이 알아서 해줍니다. 개발자는 그냥 파일을 업로드하고 "이 자료에서 답을 찾아줘" 라고 요청하면 끝이에요.

기존 텍스트 기반 RAG는 이런 흐름이었어요. 문서를 일정 크기로 잘라(chunking) 각각을 벡터로 변환(embedding)한 다음 벡터 DB에 저장하고, 사용자 질문도 벡터로 바꿔서 가장 비슷한 청크들을 찾아오는 거죠. 그런데 PDF 안에 차트나 그림이 있으면 어떻게 할까요? 보통은 그냥 버려졌어요. 표는 텍스트로 변환되면 구조가 깨져서 의미가 사라지고, 다이어그램은 "그림 1" 같은 캡션만 남기 일쑤였죠.

멀티모달 File Search는 이걸 해결합니다. PDF 안의 이미지, 차트, 표를 별도로 인식해서 시각적 의미를 보존한 채로 임베딩 해요. 예를 들어 "3분기 매출 그래프" 라고 질문하면, 텍스트로는 "3분기 매출" 이라는 단어가 없어도 그래프 이미지 자체를 찾아서 LLM에 전달할 수 있는 거죠. Gemini의 비전 능력이 그 이미지를 해석해서 자연스럽게 답변을 생성합니다.

어떻게 동작할까

기술적으로는 멀티모달 임베딩 모델 이 핵심이에요. 텍스트와 이미지를 같은 벡터 공간에 매핑해서, "빨간 자동차 사진" 과 "red car" 라는 텍스트가 비슷한 위치에 놓이도록 학습된 모델이죠. CLIP 같은 모델이 원조 격이고, Google은 자체 모델을 사용합니다.

사용 흐름은 단순해요. 개발자가 PDF, 이미지, 비디오 파일을 File Search API에 업로드하면, Google이 내부적으로 콘텐츠를 분석해서 텍스트 청크와 시각 청크로 나누고 각각 임베딩을 만듭니다. 사용자 질문이 들어오면 두 종류의 청크를 모두 검색해서 관련도 높은 것들을 가져오고, Gemini 모델이 그걸 바탕으로 답변을 생성하는 거죠. 인용(citation) 정보도 자동으로 붙어서, "이 답변은 문서 5페이지의 차트에서 가져왔습니다" 같은 출처 표시가 가능합니다.

비디오 지원도 흥미로워요. 영상에서 특정 장면이나 발언을 찾을 수 있다는 뜻이거든요. 회의 녹화본 100시간에서 "우리가 환불 정책 얘기한 부분 찾아줘" 같은 질문이 가능해지는 거죠.

경쟁 구도와 업계 흐름

관리형 RAG 시장은 생각보다 경쟁이 치열해요. OpenAI 도 Assistants API를 통해 비슷한 파일 검색 기능을 제공하고 있고, 최근에는 멀티모달 검색 쪽도 강화하고 있죠. Anthropic 의 Claude는 기본적으로 PDF 안의 이미지까지 함께 처리하는 능력이 강해요. AWS 는 Bedrock Knowledge Bases, Azure 는 AI Search라는 형태로 같은 영역을 공략하고 있고요.

오픈소스 진영에서는 LlamaIndex, LangChain 이 멀티모달 RAG 파이프라인을 직접 구성할 수 있는 도구를 제공하고, 벡터 DB로는 Pinecone, Weaviate, Qdrant 같은 선택지가 있죠. ColPali 같은 새로운 멀티모달 검색 모델도 활발하게 연구되고 있어요.

Google의 강점은 올인원 통합 이에요. 임베딩, 벡터 DB, LLM, 멀티모달 처리를 모두 한 API로 묶어서 제공하니까, 직접 인프라를 짜기 부담스러운 팀에게 매력적이죠. 단점은 벤더 락인(lock-in) 이에요. 한 번 Gemini 생태계에 들어가면 다른 클라우드로 옮기기 어려워집니다.

한국 개발자에게 주는 시사점

사내 문서 검색 시스템이나 챗봇을 만드는 팀이라면 이 기능을 진지하게 검토해볼 만해요. 한국 기업의 자료는 PPT, PDF, 한글 파일에 표와 차트가 잔뜩 박혀 있는 경우가 많거든요. 텍스트 추출만으로는 정보의 절반이 날아가는 상황이 흔한데, 멀티모달 RAG가 이걸 해결해줄 가능성이 높아요.

다만 몇 가지 현실적인 고려사항이 있어요. 비용 측면에서, 멀티모달 처리는 텍스트보다 훨씬 비쌉니다. 이미지 토큰 단가가 높고 영상은 더 비싸요. 사내 자료 전체를 인덱싱하기 전에 비용 시뮬레이션을 꼭 해봐야 합니다. 데이터 보안 도 중요한데, 외부 API에 회사 자료를 업로드하는 게 정책상 허용되는지 사전에 확인이 필요해요. 한국어 처리 품질도 영어만큼은 안 될 수 있으니 작은 데이터셋으로 먼저 PoC를 돌려보는 게 안전합니다.