Meta, 1,600개 언어를 지원하는 기계 번역 모델 공개 — 저자원 언어의 벽을 넘다

전 세계 언어의 20%만 커버하던 기계 번역의 한계

현재 Google 번역, DeepL 등 주요 기계 번역 서비스가 지원하는 언어는 100~200개 수준입니다. 전 세계에는 약 7,000개의 살아 있는 언어가 있으니, 대부분의 언어가 기계 번역의 혜택을 받지 못하고 있는 셈입니다. Meta AI가 이 격차를 극적으로 줄이기 위한 연구 결과를 발표했습니다. "Omnilingual MT"라는 이름의 이 기계 번역 시스템은 무려 1,600개 언어를 지원합니다.

이전에 Meta는 NLLB(No Language Left Behind) 프로젝트를 통해 200개 언어를 지원하는 번역 모델을 공개한 바 있습니다. Omnilingual MT는 그 후속 연구로, 지원 언어 수를 8배로 확장한 것입니다. 단순히 숫자만 늘린 것이 아니라, 저자원 언어(low-resource language)를 위한 새로운 학습 기법을 도입했다는 점에서 기술적으로 의미가 큽니다.

저자원 언어 번역이 어려운 이유

기계 번역 모델을 학습시키려면 병렬 코퍼스(parallel corpus)가 필요합니다. 즉, 같은 내용이 두 개 이상의 언어로 번역되어 있는 대량의 텍스트 데이터입니다. 영어-한국어, 영어-일본어 같은 주요 언어 쌍은 UN 문서, 뉴스 기사, 위키백과 등에서 방대한 병렬 데이터를 확보할 수 있습니다. 하지만 아프리카, 동남아시아, 태평양 섬 지역 등의 소수 언어는 디지털화된 텍스트 자체가 극히 적고, 병렬 코퍼스는 거의 존재하지 않습니다.

이런 저자원 언어를 위해 기존에 시도되었던 방법으로는 전이 학습(transfer learning)이 있습니다. 고자원 언어로 학습된 모델의 지식을 저자원 언어에 전이하는 방식인데, 언어 간 유사성이 낮을수록 효과가 제한적이었습니다. 또한 다국어 모델(multilingual model)을 통해 여러 언어를 동시에 학습시키면 언어 간 지식 공유가 일어나지만, 지원 언어 수가 늘어날수록 각 언어의 성능이 떨어지는 용량 병목(capacity bottleneck) 문제가 있었습니다.

Omnilingual MT의 기술적 접근

Meta의 연구팀은 이 문제를 해결하기 위해 몇 가지 핵심 기법을 도입했습니다.

첫째, 대규모 다국어 사전 학습입니다. 1,600개 언어의 단일 언어 텍스트(monolingual data)를 수집하여 모델에 각 언어의 기본적인 문법과 어휘 구조를 학습시킵니다. 병렬 코퍼스가 없어도 단일 언어 텍스트는 종교 문서, 정부 발행물, 커뮤니티 위키 등에서 상대적으로 구할 수 있습니다.

둘째, 언어 간 표현 정렬(cross-lingual representation alignment)을 통해 서로 다른 언어의 유사한 의미를 가진 문장을 동일한 벡터 공간에 매핑합니다. 이를 통해 데이터가 풍부한 고자원 언어의 학습 결과가 저자원 언어에도 효과적으로 전이됩니다.

셋째, 모델 아키텍처 측면에서 언어별 전문가 모듈(language-specific expert modules)을 Mixture of Experts(MoE) 구조와 결합하여, 전체 모델 크기를 키우지 않으면서도 각 언어에 특화된 처리가 가능하도록 설계했습니다. MoE는 입력에 따라 모델의 일부 파라미터만 활성화하는 기법으로, 1,600개 언어를 모두 처리하면서도 추론 비용을 합리적으로 유지할 수 있게 합니다.

기존 연구와의 비교

Google의 다국어 번역 연구도 주목할 만합니다. Google은 2023년에 1,000개 이상의 언어를 지원하는 모델을 발표한 바 있지만, 이는 주로 언어 식별과 기본적인 번역에 초점을 맞춘 것이었습니다. Meta의 Omnilingual MT는 실제 번역 품질 측면에서 더 높은 수준을 목표로 하고 있으며, 특히 저자원 언어 쌍에서의 품질 개선에 집중하고 있습니다.

NLLB 프로젝트와 비교하면, 지원 언어 수가 200개에서 1,600개로 늘어났지만 고자원 언어의 번역 품질은 유지하면서 저자원 언어의 성능을 끌어올렸다는 점이 핵심적인 기술 진보입니다.

한국 개발자에게 주는 시사점

한국어는 기계 번역에서 비교적 잘 지원되는 고자원 언어에 속합니다. 그래서 이 연구가 한국어 번역 품질에 직접적인 영향을 줄 가능성은 크지 않습니다. 하지만 몇 가지 실무적 시사점이 있습니다.

첫째, 다국어 서비스를 개발하는 경우 저자원 언어 지원이 훨씬 수월해질 수 있습니다. 글로벌 서비스를 운영하면서 동남아시아 소수 언어나 아프리카 언어를 지원해야 한다면, 이런 모델의 발전은 직접적인 비용 절감으로 이어집니다.

둘째, MoE 아키텍처의 실용적 활용 측면에서 참고할 만합니다. 1,600개 언어를 단일 모델로 처리하기 위해 사용된 MoE 접근법은 다중 도메인이나 다중 태스크를 처리해야 하는 다른 ML 프로젝트에도 적용할 수 있는 패턴입니다.

셋째, 이 연구는 AI의 포용성(inclusivity) 문제와도 연결됩니다. 기계 번역의 언어 격차는 곧 디지털 정보 접근의 격차이며, 전 세계 수억 명이 모국어로 된 디지털 서비스를 이용하지 못하고 있습니다. 기술이 이 격차를 줄이는 방향으로 발전하고 있다는 점은 개발자로서 인지하고 있을 가치가 있습니다.

마무리

Meta의 Omnilingual MT는 기계 번역이 소수의 주요 언어를 넘어 전 세계 언어로 확장될 수 있음을 보여주는 연구입니다. 기술적으로는 MoE 구조와 크로스링구얼 전이 학습의 조합이 핵심이며, 실용적으로는 글로벌 서비스의 다국어 지원 전략에 영향을 줄 수 있습니다. 여러분이 만드는 서비스에서 다국어 지원은 어떤 위치에 있으신가요? 저자원 언어까지 고려해본 적이 있으신지 궁금합니다.

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News Tailwind를 떠나며: CSS를 다시 배우기로 한 어느 개발자의 고백

Hacker News 전 국민에게 ChatGPT Plus를? OpenAI와 몰타 정부의 흥미로운 실험

원문 보기 (Hacker News)

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요