처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.04.22 29

100년 넘은 백과사전을 21세기 웹사이트로 되살리다 - Britannica11.org

Hacker News 원문 보기
100년 넘은 백과사전을 21세기 웹사이트로 되살리다 - Britannica11.org

위키피디아가 세상에 나오기 전, 권위 있는 지식의 대명사는 브리태니커 백과사전이었어요. 1768년에 처음 나왔으니까 무려 250년 넘은 백과사전이에요. 그중에서도 학계에서 유독 특별하게 평가받는 판본이 있어요. 바로 1911년에 나온 제11판이에요. 이걸 현대적인 웹사이트로 다시 펴낸 프로젝트가 britannica11.org인데, 한 번 들여다볼 가치가 충분해요.

왜 하필 1911년판이냐면요

당시 막 대학들이 전문 연구자들을 쏟아내기 시작했고, 그 정점에 있던 학자들이 대거 기고자로 참여했거든요. 토머스 헉슬리, 알프레드 노스 화이트헤드 같은 거물들이 직접 표제어를 썼어요. 그래서 이 판을 "서구 학문이 거의 모든 분야에서 정점을 찍었던 시기의 지식 지도"라고 부르기도 해요. 물론 시대적 한계로 인종관이나 식민지에 대한 서술에 문제가 많다는 비판도 있긴 해요. 역사적 텍스트로 읽되, 당대 맥락을 항상 감안해야 한다는 전제가 붙어요.

발행된 지 95년이 지난 저작물은 미국 저작권법상 퍼블릭 도메인이에요. 그래서 이 브리태니커 11판은 이미 프로젝트 구텐베르크나 인터넷 아카이브에 원문이 올라가 있어요. 근데 문제는 이게 검색하기도 읽기도 엄청 불편하다는 거예요. 스캔 이미지에 OCR로 텍스트를 뽑아놨으니까 오탈자도 많고, 항목 간 연결도 안 되어 있고요.

어떻게 되살렸나

Britannica11.org는 이걸 제대로 풀어보겠다는 프로젝트예요. 40,000개가 넘는 표제어를 구조화된 데이터로 정리하고, 인명이나 지명 같은 핵심 엔티티를 자동으로 링크하고, 원본 스캔 이미지도 같이 볼 수 있게 했어요. 깔끔한 타이포그래피로 읽기 편하게 디자인했고, 전체가 정적 사이트로 빠르게 로드돼요.

이런 프로젝트는 겉으론 단순해 보여도 실제로는 만만치 않아요. OCR로 뽑아낸 원시 텍스트에는 페이지 번호, 이미지 캡션, 잘못 인식된 글자들이 엄청 섞여 있거든요. 이걸 정제해서 표제어 단위로 쪼개고, 항목 안의 참조("See also: MATHEMATICS")를 자동으로 하이퍼링크로 변환하는 파이프라인이 필요해요. 요즘 같은 시대에는 LLM이 이런 작업에서 큰 역할을 해요. 오탈자 교정, 엔티티 추출, 의미적 연결 제안 같은 것들이 예전에는 사람이 수년간 해야 할 일이었는데 지금은 배치로 돌릴 수 있거든요.

비슷한 디지털 인문학 프로젝트들

이 계열에 관심 있다면 꼭 알아둘 프로젝트들이 있어요. Standard Ebooks는 퍼블릭 도메인 책을 전자책으로 아름답게 재조판하는 자원봉사 프로젝트예요. 타이포그래피, 메타데이터, 검증까지 책 하나당 수십 시간을 들여요. The Public Domain Review는 퍼블릭 도메인 자료에서 흥미로운 이야기를 큐레이션해 에세이로 엮는 매거진이고요. 다들 "이미 공개된 자료를 어떻게 현대 독자에게 전달할까"라는 문제에 각자의 답을 내놓은 거예요.

한국 개발자에게

우리나라도 조선왕조실록, 승정원일기 같은 훌륭한 디지털 아카이브가 있죠. 국사편찬위원회에서 운영하는데, 원문 데이터 품질은 세계 최고 수준이에요. 근데 UI가 예전 느낌이라 일반 사용자가 접근하기 어렵다는 지적이 꾸준히 있었어요. Britannica11처럼 기존 고품질 데이터를 현대적 웹 경험으로 재포장하는 사이드 프로젝트는 진짜 가치 있는 일이에요.

한국학 자료로 뭔가 만들어보고 싶은 분들이 있다면 이 프로젝트 구조를 참고할 만해요. 정적 사이트 생성기 + 구조화된 JSON/YAML 데이터 + LLM 기반 보정 파이프라인 조합이면 혼자서도 충분히 시작할 수 있어요. 포트폴리오용으로도 훌륭하고, 공공 기관 제안서로 발전시킬 수도 있고요.

마무리: 퍼블릭 도메인은 자원이 아니라 재료다. 누가 어떻게 가공하느냐에 따라 가치가 전혀 달라지거든요. 여러분이라면 어떤 공공 데이터를 다시 태어나게 하고 싶으세요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.