Hacker News 2026.03.23 108

폰트 인식 모델을 밑바닥부터 학습시키며 배운 것들

이미지 속 폰트를 알아내는 문제

디자인 작업을 하다 보면 한 번쯤은 이런 경험이 있을 겁니다. 어떤 웹사이트나 포스터에서 마음에 드는 글꼴을 발견했는데, 그 폰트가 뭔지 알 수 없는 상황. WhatTheFont 같은 서비스를 써보기도 하지만 결과가 정확하지 않거나, 비슷하지만 다른 폰트를 추천하는 경우가 많습니다. Mixfont 팀은 바로 이 문제를 해결하기 위해 폰트 인식 딥러닝 모델을 처음부터 직접 학습시키는 도전을 했고, 그 과정에서 얻은 실전 교훈들을 공유했습니다.

이 프로젝트가 흥미로운 이유는 단순히 "AI로 폰트를 인식한다"는 결과가 아니라, 규모가 크지 않은 팀이 특정 도메인의 이미지 분류 모델을 밑바닥부터 구축하는 전체 과정을 투명하게 보여준다는 점입니다. 대규모 사전 학습 모델을 파인튜닝하는 것이 일반적인 접근인 요즘, 처음부터 학습시키는(from scratch) 접근에서 배울 수 있는 것들이 많습니다.

데이터 생성이라는 첫 번째 관문

폰트 인식 모델을 학습시키려면 "이 이미지에 사용된 폰트는 X이다"라는 레이블이 붙은 대량의 학습 데이터가 필요합니다. 문제는 이런 데이터셋이 공개적으로 존재하지 않는다는 것입니다. 실제 웹사이트나 디자인에서 폰트를 수작업으로 레이블링하는 것은 비현실적이죠.

Mixfont 팀이 선택한 접근은 합성 데이터(synthetic data) 생성이었습니다. 폰트 파일을 직접 사용해서 다양한 텍스트를 렌더링하고, 여기에 현실적인 노이즈를 추가하는 방식입니다. 배경 색상, 텍스트 크기, 회전, 블러, 압축 아티팩트 등 실제 환경에서 발생하는 다양한 변형을 적용해서 학습 데이터를 만들었습니다.

합성 데이터 접근법의 장점은 무한에 가까운 양의 학습 데이터를 생성할 수 있다는 것이고, 단점은 합성 데이터와 실제 데이터 사이의 도메인 갭(domain gap)입니다. 아무리 현실적으로 만들어도 실제 사진에서 캡처한 텍스트와는 차이가 있습니다. 이 갭을 줄이기 위해 얼마나 다양하고 현실적인 증강(augmentation)을 적용하느냐가 모델 성능을 크게 좌우합니다.

모델 아키텍처 선택과 학습 전략

이미지 분류 문제에서 가장 먼저 고려하는 것은 어떤 모델 아키텍처를 사용할 것인가입니다. 최근에는 Vision Transformer(ViT)가 많은 벤치마크에서 CNN 기반 모델을 앞서고 있지만, 학습 데이터가 충분하지 않거나 컴퓨팅 리소스가 제한적일 때는 CNN 기반 아키텍처가 더 효율적인 경우가 많습니다.

폰트 인식은 일반적인 이미지 분류와 성격이 다릅니다. 전체 이미지의 맥락이 아니라 글자의 세부적인 형태 — 세리프의 유무, 획의 굵기 변화, 글자 간격, 곡선의 미묘한 차이 — 를 구별해야 합니다. 이런 세밀한 시각적 차이를 포착하는 것은 fine-grained visual recognition이라고 불리는 분야로, 새 종류 구별이나 자동차 모델 인식과 유사한 도전을 가집니다.

학습 과정에서의 중요한 교훈 중 하나는 클래스 수의 문제입니다. 세상에 존재하는 폰트는 수만 종에 달합니다. 이 모든 폰트를 하나의 분류 모델로 다루면 클래스 수가 너무 많아져서 학습이 어려워집니다. 시각적으로 거의 구별할 수 없을 정도로 비슷한 폰트 쌍도 존재하기 때문에, 모델이 학습하기에 근본적으로 어려운 케이스가 많습니다. 이를 해결하기 위해 유사한 폰트를 그룹핑하거나, 계층적 분류(hierarchical classification) 접근을 사용하는 등의 전략이 필요합니다.

평가의 어려움: "정답"이 하나가 아닌 문제

폰트 인식에서 독특한 도전 중 하나는 평가 지표를 정의하기가 까다롭다는 것입니다. 일반적인 이미지 분류에서는 정답이 명확합니다. 고양이 사진이면 "고양이"가 정답이죠. 하지만 폰트 인식에서는 정답이 아닌 폰트를 예측했더라도, 그 폰트가 시각적으로 매우 유사하다면 사용자 입장에서는 충분히 유용한 결과일 수 있습니다.

따라서 단순 정확도(accuracy)만으로는 모델의 실용적 성능을 판단하기 어렵습니다. Top-5 정확도를 함께 보거나, 시각적 유사도를 고려한 커스텀 메트릭을 설계하는 것이 더 의미 있는 평가 방법이 됩니다. 이런 도메인 특화 평가 지표의 설계는 머신러닝 프로젝트에서 흔히 간과되지만, 실제로는 모델 성능 개선의 방향을 결정짓는 핵심 요소입니다.

한국 개발자에게 주는 시사점

이 프로젝트는 몇 가지 실무적 교훈을 줍니다. 첫째, 합성 데이터 생성은 레이블된 데이터를 구하기 어려운 많은 도메인에서 유효한 전략입니다. 한국어 OCR, 간판 인식, 제품 분류 등 국내에서도 레이블링 비용이 높은 문제에 적용할 수 있는 접근법입니다.

둘째, 대규모 사전 학습 모델이 만능은 아닙니다. 특정 도메인에서는 도메인 지식을 반영한 데이터 파이프라인과 평가 체계를 갖춘 작은 모델이 범용 모델보다 더 좋은 성능을 낼 수 있습니다. 특히 추론 비용과 응답 속도가 중요한 서비스에서는 경량 모델의 가치가 큽니다.

셋째, 한글 폰트 인식은 영문보다 훨씬 더 도전적인 문제입니다. 한글은 자모 조합으로 구성되는 음절 문자 체계이기 때문에, 영문 알파벳 26자와는 비교할 수 없을 정도로 다양한 글리프(glyph)를 처리해야 합니다. 이 분야에 관심이 있는 개발자라면 이 사례를 참고해서 한글 특화 모델을 시도해볼 수 있을 것입니다.

마무리

거대 모델의 시대에 특정 도메인의 문제를 처음부터 직접 풀어보는 경험은 머신러닝의 기본기를 다지는 데 큰 도움이 됩니다. 데이터 수집, 전처리, 모델 선택, 학습, 평가의 전체 파이프라인을 직접 구축해본 경험은 사전 학습 모델을 활용할 때도 더 나은 판단을 내리게 해줍니다.

여러분은 합성 데이터로 모델을 학습시켜본 경험이 있으신가요? 도메인 갭을 줄이기 위해 어떤 전략을 사용하셨나요?

🔗 출처: Hacker News

이 글도 읽어보세요