CrossCanon은 성경 전체를 RAG(검색 증강 생성)의 데이터 소스로 삼은 프로젝트입니다. 핵심 아이디어는 단순합니다. 수천 개의 구절을 임베딩으로 벡터화하고, 사용자의 질문과 의미적으로 가장 가까운 구절을 찾아 LLM이 답변의 근거로 삼게 하는 것이죠. 흥미로운 점은 성경이 RAG에 의외로 이상적인 데이터셋이라는 사실입니다. 구절마다 장·절 번호라는 명확한 청크 단위가 이미 존재하고, 수백 년간 축적된 상호참조(cross-reference)는 그 자체로 잘 만들어진 지식 그래프이기 때문입니다. 한국 IT 종사자에게 주는 인사이트는 분명합니다. RAG 품질은 모델이 아니라 데이터 구조와 청킹 전략에서 갈린다는 것. 잘 정제된 도메인 텍스트, 명확한 단위 분할, 풍부한 참조 관계가 있다면 환각을 줄이고 출처를 명확히 제시하는 RAG를 만들 수 있습니다. 사내 위키, 법률 문서, 기술 매뉴얼 등 구조화된 데이터에 그대로 응용할 수 있는 접근법입니다.