TECH 으로 돌아가기
TECH HACKER NEWS 오늘 2분 읽기 38 READS

아랍어를 몰라도 '비스밀라'를 해독하는 법: 유니코드 탐정기

프로그래머 Mark Dominus가 아랍어를 전혀 모르는 상태에서 이슬람의 첫 구절 '바스말라(비스밀라)'를 글자 단위로 해독해 나간 과정을 담은 글입니다. 핵심은 언어 지식이 아니라 유니코드와 텍스트 인코딩에 대한 이해만으로 낯선 문자열을 분석할 수 있다는 점입니다. 그는 각 아랍 문자의 코드포인트를 찾아내고, 글자가 단어 안 위치(처음·중간·끝)에 따라 모양이 바뀌는 '연결형(contextual forms)', 모음을 나타내는 발음 기호(diacritics), 그리고 여러 글자가 하나로 합쳐지는 합자(ligature)를 하나씩 풀어냅니다. 특히 바스말라 전체가 단 하나의 유니코드 글자 U+FDFD(﷽)로 존재한다는 사실이 흥미롭습니다. 한국 개발자에게는 i18n과 다국어 처리, 폰트 렌더링이 왜 까다로운지를 실감하게 해주는 사례입니다. RTL 문자, 정규화, 글자 결합 같은 문제는 한글 조합형 처리와도 닮아 있어, 익숙한 ASCII 너머의 텍스트 세계를 마치 추리 게임처럼 즐기게 만드는 글입니다.

SOURCE · HACKER NEWS
원문 전체 보기 → https://blog.plover.com/lang/bismillah.html
SHARE
처리 중...