DeepSeek v4 등장, 중국산 오픈 LLM이 또 한 번 판을 흔든다

또 터진 DeepSeek, 이번엔 v4예요

중국 항저우에 본사를 둔 AI 랩 DeepSeek이 차세대 모델인 DeepSeek v4를 공식 API 문서에 올리면서 업계가 술렁이고 있어요. DeepSeek이라는 이름이 낯선 분들을 위해 먼저 짧게 설명드리면요, 이 팀은 작년에 v3와 R1(추론 특화 모델)을 연달아 내놓으면서 "오픈 가중치 모델인데 GPT-4급 성능을 낸다"는 걸 실제로 증명해 보인 곳이거든요. 특히 학습 비용을 기존의 1/10 수준으로 낮췄다는 발표가 한 번 나오면서 엔비디아 주가까지 출렁였던 그 사건의 주인공이기도 합니다.

이번 v4는 그 연장선에 있는 모델인데, API 문서 기준으로 보면 컨텍스트 윈도우가 크게 늘었고, 추론(reasoning) 모드와 일반 채팅 모드를 하나의 모델 안에서 스위칭할 수 있도록 통합된 게 가장 큰 변화예요. 쉽게 말해 예전에는 "깊게 생각하는 버전"과 "빠르게 답하는 버전"이 따로 있어서 개발자가 둘을 골라 써야 했는데, 이제 파라미터 하나로 "이 질문은 고민해서 답해줘", "이건 바로 답해줘"를 지시할 수 있게 된 거죠.

기술적으로 뭐가 달라졌나요

DeepSeek 계열의 핵심은 MoE(Mixture of Experts) 아키텍처예요. 이게 뭐냐면, 모델 전체 파라미터는 수천억 개지만 질문 하나를 처리할 때는 그중 일부 "전문가" 네트워크만 활성화시키는 방식이거든요. 비유하자면 종합병원에 의사 100명이 있어도 감기 환자가 오면 내과 의사 몇 명만 움직이는 것과 비슷해요. 덕분에 전체 지식량은 유지하면서도 추론 속도와 비용을 크게 줄일 수 있어요.

v4에서는 여기에 더해 멀티 토큰 예측(MTP) 과 FP8 학습 같은 기법이 한층 정교해졌다고 해요. FP8이라는 건 숫자를 8비트로 표현해서 메모리와 연산량을 절반으로 줄이는 방식인데, 예전에는 정밀도가 떨어져서 학습이 잘 안 된다고 알려져 있었거든요. DeepSeek은 이걸 실전에서 안정적으로 돌리는 노하우를 공개해 왔고, v4에서는 그게 더 다듬어진 형태로 들어갔어요. API 가격도 여전히 공격적으로 책정돼서, 입력 토큰 기준으로 보면 GPT-4 계열의 수십 분의 1 수준이에요.

코드 예시로 보면 사용법은 아주 단순한데요, OpenAI SDK와 호환되는 인터페이스를 그대로 쓰기 때문에 base_url만 DeepSeek 엔드포인트로 바꾸고 model="deepseek-chat" 또는 "deepseek-reasoner"로 지정하면 바로 붙여볼 수 있어요. 기존 OpenAI 기반으로 만들어둔 프로젝트라면 코드 몇 줄만 바꿔서 A/B 테스트가 가능하다는 뜻이에요.

업계 흐름 속 위치

지금 오픈 가중치 LLM 씬은 Meta의 Llama 계열, Alibaba의 Qwen, Mistral, 그리고 DeepSeek이 각축을 벌이고 있어요. 그 사이에서 DeepSeek이 주목받는 이유는 두 가지인데요. 하나는 비용 효율이에요. 같은 벤치마크 점수를 훨씬 적은 GPU로 달성한다는 걸 논문과 기술 보고서로 계속 증명해 왔거든요. 다른 하나는 추론 능력이에요. OpenAI의 o 시리즈, Google의 Gemini Thinking처럼 "생각하는" 모델이 대세가 되고 있는데, DeepSeek은 오픈 진영에서 이 흐름을 가장 빠르게 따라잡은 팀이에요.

반면 한계도 분명해요. 중국 본토에서 운영되는 API다 보니 데이터 주권이나 규제 이슈에 민감한 기업은 쓰기 어렵고, 민감한 정치·역사 주제에서 답변이 제한되는 부분도 있어요. 그래서 많은 개발자들이 오픈 가중치를 다운로드해서 자체 인프라에 올려 쓰는 쪽을 택하고 있고, 실제로 허깅페이스 기준 다운로드 수도 꾸준히 상위권이에요.

한국 개발자에게 의미

실무 관점에서 보면 선택지가 하나 더 늘었다는 게 제일 큽니다. 사내 챗봇이나 RAG 파이프라인을 만들 때 비용이 늘 고민이잖아요. OpenAI는 품질은 좋지만 월말 청구서가 무섭고, 오픈소스 직접 서빙은 GPU 운영이 부담이고요. DeepSeek v4는 이 중간 지점에서 "일단 API로 붙여서 PoC 돌려보고, 규모 커지면 오픈 가중치로 셀프 호스팅 전환"이라는 시나리오를 현실적으로 만들어줘요.

다만 기업 환경에서 바로 붙이기 전에 사내 보안 정책, 개인정보 처리 방침과 꼭 맞춰보셔야 해요. 그리고 한국어 성능은 직접 테스트해봐야 하는데, 이전 버전에서도 한국어는 나쁘지 않지만 GPT-4 계열보다 존댓말·맥락 처리에서 어색한 부분이 있었거든요. v4에서 이게 얼마나 개선됐는지 커뮤니티 벤치마크를 지켜볼 만해요.