1930년 이전 책으로만 학습한 13B 모델 'Talkie' - 시간을 거슬러 만든 LLM

거꾸로 가는 LLM

요즘 LLM(거대 언어 모델) 얘기 들으면 GPT-5, Claude, Gemini, 죄다 최신 인터넷 데이터로 훈련해서 "어제 나온 뉴스도 알 정도"라는 게 자랑이잖아요. 그런데 일부러 거꾸로 가는 프로젝트가 등장했어요. Talkie라는 이름의 13B(130억 파라미터) 모델인데요, 1930년 이전에 출판된 텍스트만으로 훈련됐다고 해요. 그래서 인터넷도 모르고, 컴퓨터도 모르고, 2차 세계대전조차 일어나지 않은 세계관을 가진 AI가 됐어요. 한마디로 "1929년의 도서관 사서" 같은 모델이에요.

무엇이 다른가요

이게 왜 흥미롭냐면, 우리가 현대 LLM에 너무 익숙해진 나머지 잊고 있던 사실이 있거든요. 모델은 데이터의 거울이라는 점이에요. 1920년대 신문, 소설, 잡지, 백과사전, 정부 문서로만 토큰을 학습시키면 그 시대의 언어 스타일, 가치관, 지식의 한계를 그대로 흡수해요. 우리가 보통 "AI가 편향됐다"고 비판할 때 비판 대상이 되는 그 메커니즘을, 이 프로젝트는 의도적으로 시대를 통제하는 도구로 거꾸로 사용한 셈이에요.

기술적으로는 LLaMA 계열의 13B 트랜스포머 아키텍처를 베이스로 쓰면서, 데이터셋을 "1930년 이전 발간물"로 엄격히 필터링했어요. Project Gutenberg, Internet Archive, 미국 의회도서관의 디지털화 자료가 주된 소스고요. 토크나이저(글을 작은 단위로 쪼개는 도구)도 현대 영어가 아니라 당시 자주 쓰이던 어휘 분포에 맞춰 다시 학습시켰어요. 그래서 "thou", "shall not"처럼 지금은 잘 안 쓰는 표현이 자연스럽게 나오고, 반대로 "internet", "smartphone" 같은 단어를 물어보면 정말로 모르거나 엉뚱하게 해석한다고 해요.

흥미로운 평가 결과가 있어요. 1930년 시점의 화학 지식을 물어보면 핵분열을 모르는 답을 하고, 의학을 물어보면 페니실린이 아직 발견되지 않은 시대의 답을 해요. 역사적 인물을 물어보면 "현재 살아 있는 인물"로 답하는 식이고요. 그러니까 사실 정확도(accuracy)로 평가하면 처참하지만, 시대 정합성(temporal coherence)으로 보면 굉장히 일관된 모델인 거죠. 새로운 평가 기준이 필요해지는 모델이에요.

업계 맥락에서 보면

사실 비슷한 시도들이 조용히 있어왔어요. Stanford의 HAI 그룹은 18~19세기 미국 신문으로 학습한 모델로 당시 대중 정서를 분석하기도 했고, "Time-stamped LM" 연구는 모델이 학습 시점을 인지하도록 만드는 데 초점을 맞췄거든요. Talkie의 차별점은 "역사 시뮬레이터"로서의 활용을 정면으로 내세웠다는 점이에요.

생각해보면 이건 데이터 큐레이션의 극단적 사례이기도 해요. 최근 LLM 분야에서 "데이터의 시간"이 중요한 변수로 떠오르고 있거든요. 학습 시점 이후에 일어난 일을 모르는 cut-off 문제, 모델이 자기가 만든 답변을 다시 학습하는 모델 붕괴(model collapse) 문제, 그리고 저작권 분쟁까지 - Talkie는 1930년 이전 자료라 이미 퍼블릭 도메인이라 저작권에서 자유롭다는 부수 효과까지 있어요. 요즘 NYT 대 OpenAI 소송 같은 걸 생각하면, 이런 "법적 청정 데이터"의 가치가 점점 올라가고 있어요.

한국 개발자에게 주는 시사점

당장 실무에 쓸 일은 없을 수도 있어요. 하지만 두 가지 관점에서 배울 점이 있어요.

첫째, 도메인 특화 LLM을 만들 때 "데이터 시점 컨트롤"이 얼마나 중요한지 보여주는 사례예요. 의료, 법률, 금융 등에서 특정 시기의 규정에 맞춰 답해야 하는 경우, 우리는 보통 RAG(검색 증강 생성)로 해결하는데요. Talkie처럼 아예 학습 데이터에서 시점을 제한하는 건 또 다른 접근법이에요. 특히 "이 모델은 2024년 11월 1일 시점 법령만 안다" 같은 강한 보장이 필요한 도메인에서는 RAG보다 더 강력해요.

둘째, 한국에도 조선왕조실록, 승정원일기, 근대 신문 아카이브처럼 풍부한 시대별 텍스트 자료가 있어요. "조선시대 LLM"이나 "1900년대 경성 LLM" 같은 시도가 한국어로도 충분히 가능하다는 거죠. 사극 시나리오 작가, 역사 교육, 문화 콘텐츠, 박물관 전시 인터랙션, AI NPC까지 응용할 여지가 많아 보여요. 국립중앙도서관 디지털 자료실에 잠자고 있는 텍스트가 LLM 시대에 새로운 가치를 가질 수 있다는 거예요.