처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
GitHub 2026.06.06 114

[심층분석] PDF랑 이미지를 AI가 읽을 수 있는 데이터로 바꿔주는 PaddleOCR, 도대체 뭐가 다를까?

GitHub 원문 보기

요즘 왜 다들 'OCR'을 다시 보기 시작했을까요?

혹시 이런 경험 있으세요? 스캔한 PDF 계약서를 받았는데, 분명 글자가 보이는데도 복사가 안 돼요. 마우스로 드래그하면 글자가 잡히는 게 아니라 그냥 사진 한 장이 통째로 잡히죠. 컴퓨터 입장에서 그 PDF는 '글자'가 아니라 '그림'이거든요. 사람 눈에는 글자로 보이지만, 컴퓨터한테는 그냥 색깔 점들이 모인 이미지일 뿐이에요.

이 그림 속 글자를 컴퓨터가 읽을 수 있는 진짜 텍스트로 바꿔주는 기술이 바로 OCR(Optical Character Recognition, 광학 문자 인식) 이에요. 말 그대로 '광학(눈으로 보는)' 정보를 '문자'로 '인식'하는 거죠. 사실 OCR 자체는 수십 년 된 오래된 기술이에요. 그런데 요즘 갑자기 다시 뜨거운 주제가 됐어요. 왜냐면 LLM(대규모 언어모델, 쉽게 말해 ChatGPT 같은 AI) 때문이거든요.

요즘 회사들이 사내 문서를 AI한테 학습시켜서 "우리 계약서 조항 중에 위약금 관련 내용 찾아줘" 같은 질문에 답하게 만들고 싶어 해요. 이걸 RAG(검색 증강 생성) 라고 부르는데, 이게 뭐냐면 AI가 답을 지어내지 않고 '진짜 우리 문서'를 뒤져서 근거를 가지고 답하게 만드는 기술이에요. 그런데 여기엔 큰 함정이 하나 있어요. AI한테 문서를 먹이려면 그 문서가 깔끔한 '텍스트'여야 한다는 거죠. PDF가 죄다 스캔 이미지라면? AI는 한 글자도 못 읽어요. 바로 이 지점에서 OCR이 'AI 시대의 입구'가 된 거예요.

오늘 살펴볼 PaddleOCR은 바로 이 입구를 책임지는 도구 중에서도 가장 주목받는 오픈소스예요. 중국 바이두(Baidu)가 만든 딥러닝 프레임워크 '파들파들(PaddlePaddle)' 생태계에서 나온 OCR 툴킷이죠.

PaddleOCR이 정확히 뭘 해주는 건데요?

예전 OCR은 딱 한 가지만 했어요. "이미지에서 글자만 뽑아줘." 그래서 결과물이 그냥 줄줄이 늘어선 텍스트 덩어리였어요. 표가 있어도 표인 줄 모르고, 제목인지 본문인지 구분도 안 됐죠.

PaddleOCR은 여기서 한 발 더 나갔어요. 단순히 글자만 뽑는 게 아니라 문서의 '구조'까지 이해해요. 이게 핵심이에요.

쉽게 비유하자면, 예전 OCR이 "책을 읽고 모든 단어를 받아 적는 사람"이라면, PaddleOCR은 "책을 읽고 '여기는 제목이고, 여기는 표이고, 이 칸이랑 저 칸이 한 줄이고, 이건 각주야'라고 정리해서 깔끔한 노트로 만들어주는 사람"이에요. 후자가 훨씬 똑똑하죠.

구체적으로 PaddleOCR은 PDF나 이미지를 받아서 Markdown이나 JSON 형태로 바꿔줘요. 이 두 형식이 왜 중요하냐면요:

  • Markdown: 사람이 읽기 좋고, 제목·목록·표 같은 구조가 살아있는 텍스트 형식이에요. AI한테 먹이기에 딱 좋죠.
  • JSON: 프로그램이 다루기 좋은 구조화된 데이터예요. "이 표의 3행 2열 값은 1,200원"처럼 정확한 위치 정보까지 담을 수 있어요.
  • 그러니까 PaddleOCR의 한 줄 요약은 이거예요. "지저분한 PDF·이미지를, AI가 바로 먹을 수 있는 깔끔한 데이터로 바꿔준다."

    핵심 엔진 두 개: PaddleOCR-VL과 PP-StructureV3

    PaddleOCR 안에는 성격이 다른 두 가지 엔진이 들어있어요. 이걸 이해하면 이 도구의 설계 철학이 보여요.

    1) PaddleOCR-VL — 똑똑하지만 가벼운 'AI 눈'

    첫 번째는 PaddleOCR-VL이에요. 여기서 VL은 Vision-Language(비전-언어) 의 약자예요. 이게 뭐냐면, 이미지(비전)도 보고 글자(언어)도 동시에 이해하는 AI 모델이에요. 우리가 흔히 아는 멀티모달 AI(이미지+텍스트를 같이 처리하는 AI)의 문서 특화 버전이라고 보면 돼요.

    놀라운 점은 모델 크기가 0.9B(약 9억 개 파라미터) 밖에 안 된다는 거예요. 요즘 GPT 같은 모델이 수천억~수조 개 파라미터인 걸 생각하면, 이건 정말 '경량급'이에요. 파라미터가 뭐냐면, 쉽게 말해 AI의 '뇌세포 개수' 같은 거예요. 보통 많을수록 똑똑하지만 그만큼 무겁고 비싸요. 그런데 PaddleOCR-VL은 작은 뇌로도 OmniDocBench v1.6이라는 문서 인식 평가 시험에서 96.3% 정확도를 찍었어요. 작은 고추가 맵다는 게 이런 거죠.

    특히 인상적인 건 옛 문서, 희귀 한자, 도장(인장), 차트 같은 까다로운 것들도 잘 읽는다는 점이에요. 한국 개발자 입장에서 보면 한자 섞인 옛날 등기부등본이나 고문서 처리할 때 쓸모가 있겠죠.

    2) PP-StructureV3 — 좌표까지 챙기는 '정밀 측량사'

    두 번째는 PP-StructureV3예요. 이건 VL 모델과 결이 좀 달라요. VL이 '똑똑한 이해'에 강하다면, 이 친구는 '정밀한 좌표' 에 강해요.

    무슨 말이냐면, 표를 인식할 때 "이 셀(칸)이 정확히 이미지의 어느 위치(x, y 좌표)에 있다"까지 알려줘요. 텍스트 한 줄 한 줄의 위치도 픽셀 단위로 짚어주죠. 이게 왜 필요할까요?

    예를 들어 영수증을 자동 처리하는 시스템을 만든다고 해봐요. 단순히 글자만 뽑으면 '커피 4500'이 어느 항목인지 헷갈릴 수 있어요. 그런데 좌표가 있으면 "금액은 항상 오른쪽 끝에 있다" 같은 규칙을 만들어서 훨씬 정확하게 분류할 수 있거든요. 그래서 PP-StructureV3는 표 데이터를 정밀하게 추출해야 하는 업무용 시스템에 잘 맞아요.

    정리하면 이런 선택지가 생기는 거예요:

  • 빠르고 똑똑한 이해가 필요해요 → PaddleOCR-VL
  • 셀 좌표까지 정밀하게 뽑아야 해요 → PP-StructureV3

다른 OCR 도구들과 비교하면 어때요?

OCR 도구는 PaddleOCR만 있는 게 아니에요. 대표 선수들과 비교해볼게요.

Tesseract는 OCR계의 터줏대감이에요. 구글이 오래 관리해온 오픈소스인데, 무료에 가볍지만 '글자만' 뽑아줘요. 문서 구조는 거의 못 챙기죠. 비유하자면 수동 카메라 같아요. 싸고 튼튼하지만 모든 설정을 직접 해야 하고, 복잡한 표나 레이아웃 앞에선 약해요.

클라우드 OCR(구글 Document AI, AWS Textract, Azure) 은 성능이 정말 좋아요. 하지만 두 가지 부담이 있어요. 첫째, 돈이 들어요 — 문서 장수만큼 과금되거든요. 둘째, 내 문서를 외부 서버에 보내야 해요. 계약서나 의료 기록처럼 민감한 문서라면 이게 큰 걸림돌이에요.

바로 여기서 PaddleOCR의 매력이 나와요. 오픈소스라 무료고, 내 서버(혹은 내 노트북)에서 돌릴 수 있어요. 문서가 밖으로 안 나가니까 보안 걱정이 확 줄죠. 게다가 모델이 가벼워서 비싼 GPU 없이도 어느 정도 굴러가요. 비유하자면 클라우드 OCR이 비싼 택시라면, PaddleOCR은 내가 직접 모는 자가용이에요. 운전(설정)은 좀 해야 하지만, 어디든 마음대로 가고 요금 걱정이 없죠.

또 하나 주목할 건 PaddleOCR이 Dify, RAGFlow, Cherry Studio 같은 인기 AI 도구들의 'OCR 엔진'으로 채택됐다는 점이에요. 이게 뭘 의미하냐면, 실제 현장에서 검증된 신뢰도가 있다는 거예요. 그리고 100개 이상의 언어를 지원하니, 한국어는 당연히 포함이고요.

한국 개발자에게 이게 왜 중요할까요?

구체적인 시나리오로 풀어볼게요.

시나리오 1: 사내 문서 챗봇 만들기 회사에 쌓인 PDF 매뉴얼 수백 개를 AI 챗봇에 연결하고 싶다고 해봐요. 그런데 그 PDF가 스캔본이면 AI가 한 글자도 못 읽어요. PaddleOCR을 앞단에 두면, 스캔 PDF → Markdown 변환 → AI 학습이라는 파이프라인이 완성돼요. 클라우드 OCR API 비용을 매달 내지 않아도 되고요.

시나리오 2: 영수증·계약서 자동 처리 경리팀이 매달 영수증 수백 장을 수기로 입력하고 있다면, PP-StructureV3로 표와 금액을 좌표까지 정확히 뽑아서 자동 입력 시스템을 만들 수 있어요. 민감한 금융 정보가 외부로 안 나가는 것도 큰 장점이죠.

도입할 때 고려할 점도 솔직히 짚어볼게요. PaddleOCR은 바이두의 PaddlePaddle 프레임워크 위에서 돌아가요. PyTorch에 익숙한 분들은 처음에 설치나 환경 설정에서 살짝 낯설 수 있어요. 또 한국어 인식 품질은 문서 종류(손글씨냐 인쇄냐, 글꼴이 뭐냐)에 따라 편차가 있으니, 도입 전에 꼭 우리 회사 실제 문서 샘플로 테스트해보는 걸 추천해요.

학습 로드맵은 이렇게 잡아보세요. ① 먼저 pip install로 기본 OCR을 깔고 이미지 한 장 인식해보기 → ② PP-StructureV3로 표가 있는 PDF를 Markdown으로 바꿔보기 → ③ 그 결과를 RAG 파이프라인(예: LangChain)에 연결해보기. 단계마다 하루씩만 투자해도 일주일이면 감을 잡을 수 있어요.

앞으로 어떤 변화가 올까요?

PaddleOCR 같은 도구가 중요한 이유는, '문서를 AI가 읽는 일'이 점점 공짜에 가까워지고 있다는 신호이기 때문이에요. 예전엔 OCR이 비싸고 어려운 전문 영역이었는데, 이제는 작은 모델로도 SOTA(State-of-the-art, 최고 수준) 성능을 내면서 누구나 자기 서버에서 돌릴 수 있게 됐죠.

이건 곧 "세상의 모든 종이 문서가 AI의 먹잇감이 된다" 는 뜻이에요. 도서관의 고문서, 병원의 진료 기록, 법원의 판례, 회사 캐비닛 속 계약서까지 — 그동안 '그림'으로만 잠들어 있던 엄청난 양의 지식이 깨어나기 시작하는 거예요.

여러분은 어떠세요? 지금 다루고 있는 데이터 중에 'PDF나 이미지라서 활용을 못 하고 있던' 자료가 있나요? 만약 사내 문서 챗봇이나 자동화 시스템을 만든다면, 클라우드 OCR과 PaddleOCR 같은 자체 호스팅 도구 중 어떤 걸 고르시겠어요? 보안과 비용, 그리고 설정의 편의성 사이에서 여러분의 우선순위가 궁금하네요. 댓글로 각자의 상황을 나눠봐요!


🔗 출처: GitHub

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

파이썬으로 자동화를 시작해보세요

파이썬 기초부터 자동화까지 실전 강의.

파이썬 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.