Hacker News 2026.04.08 158

AI로 1만 장의 역사 사진을 지도 위에 되살리다 — OldNYC 프로젝트 이야기

오래된 사진 수만 장, 지도 위에 올리는 프로젝트가 있어요

OldNYC라는 프로젝트를 들어보신 적 있나요? 뉴욕 공공도서관(NYPL)이 소장하고 있는 수십 년 전 뉴욕 거리 사진들을 디지털화해서 지도 위에 핀으로 찍어주는 웹사이트인데요. 사용자가 지도에서 아무 거리나 클릭하면 그 장소의 1940년대, 1950년대 사진을 바로 볼 수 있는 식이에요. "우리 동네가 50년 전에는 이렇게 생겼구나" 하고 볼 수 있는 일종의 타임머신 같은 프로젝트죠.

그런데 이 프로젝트에 최근 AI를 활용해서 무려 1만 장 이상의 사진을 새로 추가했다는 소식이 나왔어요. 원래도 사진이 꽤 많았지만, 이번 업데이트로 콘텐츠 양이 크게 늘어난 거예요. 단순히 사진을 업로드한 게 아니라, AI가 핵심적인 역할을 해서 가능했던 작업이라 개발자 입장에서 살펴볼 포인트가 많아요.

AI가 정확히 어떤 일을 했을까

사진을 지도 위에 올리려면 가장 중요한 게 뭘까요? 바로 "이 사진이 어디에서 찍혔는지" 알아내는 거예요. 도서관에 있는 오래된 사진들은 대부분 메타데이터가 엉망이거든요. 카탈로그 카드에 손글씨로 적힌 주소 정보가 전부인 경우가 많아요. 어떤 건 "브로드웨이 근처"처럼 애매하게 적혀 있고, 어떤 건 아예 위치 정보가 없기도 하고요.

이전에는 이 작업을 사람이 직접 했어요. 손글씨를 읽고, 주소를 파악하고, 좌표로 변환하고. 엄청나게 노동 집약적인 작업이었죠. 그런데 이번에는 AI 모델을 활용해서 이 파이프라인을 자동화한 거예요. 구체적으로는 OCR(광학 문자 인식)과 LLM을 조합해서 카탈로그 카드의 손글씨를 읽어내고, 그 텍스트에서 주소 정보를 추출한 다음, 지오코딩(주소를 위도·경도 좌표로 바꾸는 것)까지 자동으로 처리한 거예요.

이게 뭐가 대단하냐면, 손글씨 OCR은 원래 까다로운 문제거든요. 특히 수십 년 전에 쓰인 손글씨는 지금 사람이 봐도 읽기 어려운 경우가 많아요. 그런데 최근 멀티모달 AI 모델들의 성능이 좋아지면서, 이런 역사 자료의 손글씨도 상당히 정확하게 읽어낼 수 있게 된 거죠. 프로젝트 개발자인 Dan Vanderkam은 이전에는 도저히 처리할 수 없었던 사진들을 이번에 AI 덕분에 대량으로 처리할 수 있었다고 해요.

단순한 OCR이 아니라 맥락을 이해하는 처리

여기서 흥미로운 점은 단순히 글자를 읽는 것에서 끝나지 않는다는 거예요. 카탈로그 카드에는 주소 외에도 사진 설명, 날짜, 사진가 이름 등 여러 정보가 섞여 있거든요. AI가 이 중에서 "위치 정보"만 골라내야 하고, 때로는 불완전한 주소를 뉴욕이라는 맥락 안에서 해석해야 해요. 예를 들어 "5th Ave & 42nd" 같은 약어를 "뉴욕 맨해튼 5번가와 42번가 교차로"로 이해하는 거죠.

LLM의 강점이 바로 이런 맥락 이해에 있어요. 규칙 기반 파서로는 처리하기 어려운 다양한 표기 방식, 약어, 오타까지 LLM이 유연하게 처리할 수 있었던 거예요. 이런 접근 방식은 사실 역사 자료 디지털화뿐 아니라 우리 주변의 많은 "비정형 텍스트 처리" 문제에 적용할 수 있어요.

비슷한 프로젝트들과 비교해보면

역사 자료를 AI로 디지털화하는 프로젝트는 전 세계적으로 늘어나고 있어요. 유럽의 Europeana 프로젝트는 유럽 각국 박물관·도서관 소장품을 디지털 아카이브로 만들고 있고, 일본에서도 국립국회도서관이 고문서 OCR에 AI를 적극 도입하고 있죠. 한국에서도 국립중앙도서관이나 한국학중앙연구원 등에서 고문서 디지털화 작업을 진행하고 있는데요.

OldNYC가 특별한 건 이게 오픈소스 개인 프로젝트라는 점이에요. 거대한 기관이 아니라 개인 개발자가 공공 데이터를 활용해서 만든 프로젝트이고, AI를 도입하면서 한 사람이 처리할 수 있는 작업의 규모가 극적으로 커진 거예요. 예전에는 자원봉사자 수십 명이 몇 달 걸릴 작업을 AI 파이프라인으로 훨씬 빠르게 해낸 셈이죠.

한국 개발자에게 주는 시사점

이 프로젝트에서 배울 수 있는 건 크게 두 가지예요. 첫째, AI를 활용한 "비정형 데이터 처리 파이프라인" 설계예요. 손글씨 인식 → 정보 추출 → 지오코딩이라는 단계별 파이프라인을 구성하고, 각 단계에서 AI 모델을 적절히 활용한 아키텍처는 다른 프로젝트에도 충분히 응용할 수 있어요. 예를 들어 한국의 오래된 부동산 등기부 문서를 디지털화한다거나, 옛날 신문 기사를 지역별로 분류하는 작업 같은 데 비슷한 접근을 쓸 수 있겠죠.

둘째, 공공 데이터와 AI의 조합이에요. 한국에도 공공데이터포털(data.go.kr)에 활용 가능한 데이터가 정말 많은데요. 이런 데이터에 AI를 붙여서 새로운 가치를 만드는 사이드 프로젝트를 해보면 포트폴리오로도 좋고, 실제로 사회에 기여하는 프로젝트가 될 수 있어요.

정리하자면

AI 덕분에 개인 개발자 한 명이 1만 장의 역사 사진을 지도 위에 되살릴 수 있었어요. 멀티모달 AI와 LLM이 만나 비정형 데이터 처리의 문턱을 확 낮춘 좋은 사례죠. 여러분이라면 한국의 어떤 공공 데이터에 AI를 붙여보고 싶으세요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 구글마저 현금이 마른다 — AI 인프라 투자가 빅테크 재무를 뒤흔드는 중

Hacker News IntelliJ 없이 Scala·Kotlin 개발하기 — Emacs와 LSP가 바꾸는 개발 환경 지형

원문 보기 (Hacker News)

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기

비전공자도 6개월이면 첫 수익
20년 경력 개발자 직강
자동화 프로그램 + 소스코드 제공

이전 글 Google, AI 에이전트 오케스트레이션 테스트베드 'Scion' 오픈소스로 공개 다음 글 AI 시대에 '안목'이 더 중요해진 이유 — 코드를 잘 짜는 것만으로는 부족해요

목록으로

로그인

추가 정보 입력

회원가입

비밀번호 찾기

AI로 1만 장의 역사 사진을 지도 위에 되살리다 — OldNYC 프로젝트 이야기

오래된 사진 수만 장, 지도 위에 올리는 프로젝트가 있어요

AI가 정확히 어떤 일을 했을까

단순한 OCR이 아니라 맥락을 이해하는 처리

비슷한 프로젝트들과 비교해보면

한국 개발자에게 주는 시사점

정리하자면

AI 도구, 직접 활용해보세요

매일 AI·개발 뉴스를 받아보세요

관련 뉴스

구글마저 현금이 마른다 — AI 인프라 투자가 빅테크 재무를 뒤흔드는 중

IntelliJ 없이 Scala·Kotlin 개발하기 — Emacs와 LSP가 바꾸는 개발 환경 지형

유니티, 드디어 공식 CLI를 내놨어요 — 에디터 설치부터 빌드 자동화까지 터미널에서

Bun의 심장이었던 Zig 코드, 커뮤니티 프로젝트 'Cruller'로 최신 Zig 0.16 위에서 계속된다

1995년, 전 세계 사람들이 인터넷으로 함께 가꾼 진짜 정원 — 텔레가든 이야기

'메타버스'를 만든 작가 닐 스티븐슨이 아직도 만년필로 글을 쓰는 이유

잠깐, 이런 뉴스도 있어요!