사라질 뻔한 데이터 저널리즘의 보고, 누군가 통째로 되살렸다

데이터 저널리즘의 상징이 사라질 뻔한 이야기

혹시 FiveThirtyEight라는 이름 들어보셨나요? 미국의 통계 전문가 네이트 실버(Nate Silver) 가 만든 데이터 저널리즘 사이트인데요. 이게 뭐냐면, 보통 신문 기사가 "이번 선거는 A 후보가 유리합니다" 정도로 끝낸다면, FiveThirtyEight는 수백 개의 여론조사 데이터를 다 끌어모아서 통계 모델을 돌리고 "A 후보가 이길 확률은 73.4%" 같은 식으로 정량적인 결론을 내는 곳이었어요. 야구에서 출루율 같은 숫자로 선수를 평가하는 세이버메트릭스 방식을 정치, 스포츠, 경제 보도에 본격적으로 끌어다 쓴 거의 첫 사례라고 보면 됩니다.

그런데 작년에 모회사인 ABC뉴스가 운영 비용 문제로 사이트를 닫겠다고 발표했어요. 단순히 "기사가 사라진다" 정도가 아니라, 이 사이트가 그동안 공개해온 데이터셋과 분석 코드까지 함께 증발할 위험이 있었던 거죠. 데이터 분석을 공부하는 사람들 사이에선 거의 교과서처럼 쓰이던 자료가 통째로 날아갈 판이었던 거예요.

한 명의 개발자가 만든 보존 아카이브

이번에 공개된 fivethirtyeightindex.com은 그 위기에 대응해 누군가가 사이트 전체를 인터넷 아카이브(Internet Archive)와 자체 인덱스 기반으로 다시 살려낸 결과물입니다. 단순히 페이지를 크롤링해서 박제한 게 아니라, 카테고리별·연도별로 기사를 다시 색인해서 검색 가능한 형태로 재구성했다는 점이 핵심이에요. 정치 예측 모델 글, 스포츠 분석, 코로나19 데이터 추적 같은 시계열 기사들을 주제별로 따라 읽을 수 있게 만들어둔 거죠.

기술적으로 보면 정적 사이트 생성기 기반으로 가볍게 굴러가는 구조라서 호스팅 비용도 거의 들지 않아요. 원본 콘텐츠 자체는 인터넷 아카이브에 의존하지만, 인덱스와 메타데이터를 별도로 들고 있어서 "검색은 빠르고, 본문은 아카이브에서 가져오는" 분리된 구조를 띱니다. 이런 방식은 저작권 이슈를 피하면서도 자료 접근성을 살리는 영리한 절충안이에요.

디지털 자료 보존이라는 더 큰 흐름

사실 이런 사례가 처음은 아닙니다. 구글이 닫아버린 수많은 서비스들, 트위터 API 폐쇄로 사라진 학술 데이터셋, 갑자기 종료된 미디어 사이트들… 인터넷에서 한 번 사라진 콘텐츠는 정말로 영영 사라지는 경우가 많아요. Archive Team이나 Internet Archive 같은 단체들이 이런 자료를 백업해두고 있긴 하지만, 검색 가능한 형태로 살려두려면 결국 누군가가 손으로 인덱싱을 다시 해야 합니다.

비슷한 프로젝트로는 Gwern.net의 링크 아카이브 시스템, archive.today, 그리고 최근 화제가 된 Common Crawl 데이터셋 활용 사례들이 있어요. 차이라면 이번 FiveThirtyEight 아카이브는 단일 출처의 콘텐츠를 깊이 있게 보존한다는 점인데, 데이터 저널리즘처럼 맥락과 시계열이 중요한 콘텐츠에는 이런 접근이 더 잘 맞습니다.

한국 개발자에게 주는 시사점

우리도 비슷한 고민을 해볼 수 있어요. 예전에 잘 쓰던 한글 기술 블로그, 사라진 네이버 카페, 폐쇄된 다음 뷰의 글들… 한번 사라지면 구글링으로도 안 잡히죠. 사이드 프로젝트로 "내가 좋아하던 콘텐츠 아카이브"를 만들어보는 것도 의미 있는 작업이 될 수 있고, 데이터 분석 공부할 사람이라면 FiveThirtyEight의 GitHub 저장소(여전히 살아있어요)에서 raw 데이터를 받아 직접 모델을 돌려보는 것도 좋은 학습 자료가 됩니다.

핵심은 하나예요. "중요한 자료는 누가 지켜주지 않으면 사라진다." 여러분이 쓰는 글, 만드는 데이터셋도 마찬가지고요. 여러분이 사라지면 아쉬울 것 같은 한국 IT 콘텐츠는 어떤 게 있나요? 한번 댓글로 같이 얘기해봐요.

🔗 출처: Hacker News

이 글도 읽어보세요