Hacker News 2026.07.03 36

종이 잡지를 검색창에 넣다 — 빈티지 잡지 아카이브로 배우는 나만의 검색엔진 만들기

개발자들의 사이드 프로젝트 중에는 '내가 좋아하는 취미를 기술로 파고든' 것들이 유독 매력적인데요, 오늘 소개할 Cyclearchive.com이 딱 그런 경우예요. 빈티지 사이클링 잡지, 그러니까 수십 년 전에 종이로 발행됐던 자전거 잡지들을 모아서 내용을 통째로 검색할 수 있게 만든 사이트거든요. 옛날 잡지 속 정보는 구글에 없어요. 스캔본이 어딘가 돌아다닌다 해도 그건 그냥 이미지 파일일 뿐이라, '1980년대에 나온 그 프레임 리뷰'를 찾으려면 결국 사람이 한 장 한 장 넘겨봐야 했죠. 이걸 검색창에 키워드 하나 넣으면 찾아지게 만든 거예요.

자전거에 관심 없는 분들도 잠깐만요. 이 프로젝트가 재미있는 건 자전거 때문이 아니라, '아날로그 아카이브를 검색 가능하게 만드는' 과정 전체가 개발자에게 좋은 교과서이기 때문이거든요.

종이 잡지가 검색창에 들어가기까지

이런 서비스의 파이프라인을 뜯어보면 대략 이런 단계를 거쳐요. 먼저 잡지를 스캔해서 이미지로 만들고, 그다음 OCR을 돌려요. OCR이 뭐냐면 이미지 속 글자를 컴퓨터가 읽을 수 있는 텍스트로 바꿔주는 기술이에요. 말은 간단한데 옛날 잡지가 상대라면 난도가 확 올라가요. 요즘 문서처럼 깔끔한 단일 컬럼이 아니라 기사가 여러 단으로 나뉘어 있고, 사진 사이사이에 캡션이 끼어 있고, 지금은 안 쓰는 서체에 종이는 누렇게 바래 있거든요. 어느 글자가 어느 기사에 속하는지, 문단 순서를 올바르게 복원하는 것부터가 일이에요.

텍스트를 얻었으면 다음은 인덱싱, 그러니까 검색용 색인을 만드는 단계예요. 검색엔진의 심장인 역색인(inverted index)이 뭐냐면, 책 맨 뒤에 있는 '찾아보기' 페이지랑 똑같아요. '이 단어가 몇 페이지에 나온다'를 미리 정리해두는 거죠. 검색할 때 문서를 처음부터 읽는 게 아니라 단어에서 문서로 거꾸로 찾아가니까, 수만 페이지 분량에서도 순식간에 결과가 나오는 거예요. 그리고 검색 결과를 보여줄 때 텍스트만 던져주는 게 아니라 원본 스캔 페이지를 함께 보여주는 게 이런 아카이브 서비스의 묘미인데, 그러려면 OCR 단계에서 각 단어가 페이지의 어느 좌표에 있었는지까지 같이 저장해둬야 해요. 이런 디테일이 쌓여서 서비스의 완성도가 갈리는 거죠.

원래는 거인들의 영역이었어요

이런 대규모 아카이브 디지털화는 원래 Google Books나 Internet Archive처럼 자본과 인력이 있는 조직의 영역이었어요. 우리나라로 치면 네이버 뉴스 라이브러리가 비슷한 사례죠. 수십 년치 옛날 신문을 스캔하고 OCR을 돌려서 검색 가능하게 만들어놨잖아요. 그런데 지난 몇 년 사이에 판이 바뀌었어요. Tesseract 같은 오픈소스 OCR에 클라우드 OCR API, 최근에는 이미지를 통째로 이해하는 멀티모달 AI까지 개인이 쓸 수 있는 도구가 넘쳐나고요, 검색엔진도 무거운 Elasticsearch만 있는 게 아니라 Meilisearch나 Typesense처럼 서버 한 대에 가볍게 띄울 수 있는 선택지가 생겼거든요. 혼자서도 '나만의 구글 북스'를 만들 수 있는 시대가 된 거예요. 물론 절판된 잡지라고 해서 저작권이 소멸된 건 아니라서, 이런 프로젝트에는 권리 문제라는 회색지대가 항상 따라붙는다는 점은 꼭 짚어둘게요.

한국 개발자에게는

이 공식, 그대로 한국에 가져올 수 있어요. 옛날 게임 잡지나 절판된 기술 서적, 오래된 동호회 회지처럼 '그리워하는 팬은 있는데 검색은 안 되는' 아카이브가 우리 주변에도 정말 많거든요. 다만 한국어 옛 인쇄물은 OCR 난도가 한 단계 더 높아요. 세로쓰기에 한자 혼용까지 섞여 있으면 기성 OCR이 잘 못 읽어내는데, 오히려 이 지점이 기술적으로 파볼 만한 재미있는 문제가 돼요. 그리고 이런 프로젝트는 데이터 수집부터 전처리, 인덱싱, 검색 품질 평가까지 데이터 엔지니어링의 축소판이라서, 취미와 실력을 동시에 챙기는 포트폴리오용 사이드 프로젝트로도 꽤 훌륭하고요.