처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.05.22 69

맥북 한 대로 1년치 영상을 다 색인했다고? - Gemma 3 27B와 50GB 스왑의 무모한 도전

Hacker News 원문 보기

로컬에서 영상 검색 엔진을 만든 사람 이야기

Simbastack 블로그를 운영하는 어떤 개발자가 정말 흥미로운 실험을 공개했어요. 2021년형 맥북 한 대로 1년치 개인 영상 아카이브를 전부 색인해서 검색 가능하게 만든 거예요. 사용한 모델은 구글이 공개한 오픈 모델 Gemma 3 27B(글 제목엔 "Gemma4-31B"라고 적혀 있지만 본문 맥락상 멀티모달 Gemma 3 계열을 의미해요), 그리고 부족한 메모리를 메우려고 50GB짜리 스왑(swap)을 잡았다고 해요.

왜 이게 신기하냐면, 보통 이런 멀티모달 영상 분석은 클라우드 GPU 클러스터가 필요하다고 여겨졌거든요. "개인이 가진 노트북으론 절대 못 한다"가 상식이었는데, 그걸 뒤집은 거죠. 물론 빠르지는 않아요. 다만 "가능하다"는 게 핵심이에요.

어떻게 동작하는지

전체 파이프라인을 풀어볼게요. 먼저 영상에서 일정 간격으로 프레임을 추출해요. 1초에 한 장씩 뽑거나, 장면이 바뀔 때마다 뽑는 식이에요. 1년치 영상이면 프레임만 수십만 장이 나와요. 여기까지는 FFmpeg 같은 도구로 어렵지 않게 할 수 있어요.

다음 단계가 핵심이에요. 각 프레임을 Gemma 3 멀티모달 모델에 넣어서 자연어 설명을 만들어내요. 예를 들어 "부엌에서 빨간 셔츠를 입은 남자가 칼로 양파를 썰고 있다" 같은 식이죠. 이 텍스트 설명을 임베딩(embedding) 으로 바꿔서 벡터 DB에 저장해요. 임베딩이 뭐냐면, 텍스트의 의미를 숫자 배열로 압축한 거예요. 비슷한 의미일수록 숫자 거리가 가까워요.

이렇게 색인이 끝나면 검색이 자연어로 가능해져요. "우리 강아지가 산책하는 장면"이라고 검색하면, 임베딩 유사도를 계산해서 그 장면이 들어 있는 영상의 정확한 시점을 돌려줘요. 마치 구글 포토의 "강아지" 검색이랑 비슷한데, 모든 게 로컬에서 외부 서버 없이 돌아간다는 게 결정적 차이예요.

50GB 스왑이라는 무모함

Gemma 3 27B는 풀 프리시전(full precision)으로 돌리면 60GB 이상의 RAM이 필요해요. 양자화(quantization)를 강하게 해도 16GB는 우습게 넘어가요. 2021 맥북의 RAM이 16GB 또는 32GB 수준인데 어떻게 돌린 거냐면, 디스크 일부를 가상의 RAM처럼 쓰는 스왑 영역을 50GB로 잡았어요.

양자화에 대해 잠깐 설명하면요, 모델의 가중치 숫자를 원래 16비트나 32비트로 저장하던 걸 4비트, 8비트 같은 더 작은 단위로 압축하는 기법이에요. 모델 정확도는 좀 떨어지지만 크기와 속도에서 큰 이득이 있어요.

스왑을 그렇게 크게 잡으면 SSD가 RAM 역할을 하니까 엄청나게 느려져요. 추론 한 번에 수 분이 걸릴 수도 있어요. 게다가 SSD에 끊임없이 쓰기/읽기가 일어나서 수명 단축 우려도 있어요. 그래서 저자도 "속도는 포기했다"고 솔직히 말해요. 배치(batch)로 밤새 돌리고 아침에 결과를 확인하는 식이에요.

업계 흐름에서 보면

이 실험은 로컬 LLM(on-device LLM) 흐름의 한 단면을 보여줘요. 작년부터 llama.cpp, Ollama, MLX(애플 실리콘 최적화 프레임워크) 같은 도구들 덕분에 개인 컴퓨터에서 큰 모델을 돌리는 게 점점 현실이 되고 있어요. 특히 애플 실리콘은 통합 메모리(Unified Memory) 구조 덕분에 GPU와 CPU가 같은 메모리를 공유해서, 같은 가격의 윈도우/리눅스 PC보다 큰 모델 돌리기에 유리해요.

비슷한 방향의 프로젝트들도 많아요. 마이크로소프트의 Recall(스크린샷을 자동 색인해서 검색 가능하게 하는 윈도우 기능)이나 Rewind.ai(맥에서 비슷한 일을 하는 앱) 같은 게 있어요. 이런 도구들의 공통점은 "내 데이터는 내 컴퓨터 안에 둔다"예요. 클라우드에 올리지 않아도 AI의 혜택을 누리는 거죠.

또한 CLIP, SigLIP 같은 이미지-텍스트 임베딩 모델만 써도 비슷한 영상 검색이 가능해요. Gemma 3는 자연어 설명을 풍부하게 만들 수 있다는 장점이 있지만, 더 가볍게 가려면 CLIP 계열로도 충분히 실용적이에요. 트레이드오프를 어디서 잡느냐의 문제죠.

한국 개발자에게 주는 시사점

첫째, 개인 데이터 검색은 새로운 사이드 프로젝트 영역이에요. 1인 크리에이터, 영상 제작자, 강의 만드는 분들에게 "내 영상 라이브러리를 자연어로 검색"하는 도구는 진짜 가치 있는 기능이에요. 한국어 자막이 있는 영상이면 그것까지 함께 색인하면 정확도가 더 올라가요.

둘째, 로컬 LLM 스택을 한 번 깔아보는 게 큰 공부가 돼요. Ollama로 시작해서 모델을 다운받고, llama.cpp로 양자화 옵션 조절해보고, MLX로 애플 실리콘 최적화 돌려보는 과정에서 "모델을 어떻게 굴리는지"에 대한 감이 잡혀요. 회사 워크로드를 클라우드 LLM에 다 맡기는 것보다, 로컬 옵션을 알아두면 비용과 보안 양쪽에서 큰 선택지가 생겨요.

셋째, "속도 vs 비용 vs 프라이버시"의 트레이드오프를 새로 생각해볼 수 있어요. 50GB 스왑은 분명 무모하지만, 그 무모함이 보여주는 건 "느려도 내가 통제할 수 있는 시스템"이 가진 가치예요. 모든 게 외부 API에 의존하는 시대에 이건 꽤 중요한 관점이에요.

넷째, 실제로 시도해볼 거면 Apple Silicon M2 Pro 이상 + 32GB RAM이 현실적인 최소 사양이에요. 그 이하에선 정말 인내심이 필요해요.

마무리

이 실험의 진짜 메시지는 "맥북으로도 가능하다"가 아니라 "AI 인프라의 권력이 분산되고 있다"예요. 거대한 데이터센터 없이도 개인이 의미 있는 AI 시스템을 운영할 수 있는 시대로 가고 있어요.

여러분도 한 번 상상해보세요. 내 컴퓨터에 쌓인 사진, 영상, 문서를 자연어로 검색할 수 있다면 어떤 게 가장 먼저 찾고 싶어질까요? 그 답이 여러분의 다음 사이드 프로젝트가 될 수도 있어요.


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.