처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.04.28 27

Mercor에서 4만 명의 음성 4TB가 새어나갔다 — AI 데이터 공급망의 그늘

Hacker News 원문 보기
Mercor에서 4만 명의 음성 4TB가 새어나갔다 — AI 데이터 공급망의 그늘

바꿀 수 없는 것이 새어나간 사건

Mercor라는 이름이 AI 업계에서 빠르게 떠오르고 있어요. 모델 훈련에 필요한 사람-라벨링 데이터, 평가 데이터, 음성 데이터를 컨트랙터를 통해 공급하는 회사인데, 최근 4만 명에 달하는 컨트랙터들의 음성 샘플 4TB가 외부로 유출됐다는 보고가 나왔어요. 단순한 개인정보 유출이 아니라, AI 시대에 새로 등장한 "내 목소리가 학습 데이터로 떠돌아다닐 수 있다"는 두려움을 현실로 만든 사건이라 무게감이 큽니다.

무엇이, 어떻게 유출됐을까

보고서에 따르면 유출된 데이터는 컨트랙터들이 음성 모델 훈련을 위해 녹음한 발화 샘플, 메타데이터(이름·이메일·인구통계 정보 등), 그리고 일부의 경우 신원 확인용 영상까지 포함돼 있어요. 4TB라는 규모는 4만 명 기준 한 사람당 수십 분 분량의 깨끗한 음성이 수집됐다는 뜻이에요. 이 정도 양이면 현대 음성 합성 모델로 그 사람의 목소리를 거의 완벽하게 클로닝할 수 있는 수준입니다.

기술적인 원인은 클라우드 스토리지 버킷의 권한 설정 문제로 추정돼요(흔한 패턴이죠). 정확한 침해 경로는 내부 조사 중인데, 컨트랙터들이 받은 통지서에는 "데이터가 외부로 노출됐고, 일부 데이터셋이 다크웹에서 거래되는 정황이 확인됐다"는 내용이 담긴 것으로 알려졌어요.

왜 음성 데이터 유출이 더 무서운가

비밀번호가 새면 비밀번호를 바꾸면 돼요. 이메일이 새면 새 이메일을 만들면 되고요. 그런데 목소리는 못 바꾸잖아요. 그게 핵심이에요.

지금의 음성 합성 기술은 이미 5초 분량의 샘플로도 그럴듯한 클로닝을 만들어낼 수 있는 수준이에요. ElevenLabs, OpenAI Voice Engine, Meta Voicebox 같은 도구들이 보여주듯이, 깨끗한 30분짜리 음성 데이터가 손에 들어오면 거의 분간이 안 가는 합성 음성을 만드는 게 어렵지 않거든요. 이걸로 가족에게 전화해 "엄마, 나 사고 났어, 돈 좀 보내줘" 같은 보이스피싱을 만들거나, 회사 임원의 목소리로 직원에게 송금을 지시하는 BEC(Business Email Compromise)의 음성 버전을 만들 수도 있어요. 실제로 이런 류의 사기가 최근 몇 년 사이 급증하고 있고요.

AI 데이터 공급망의 구조적 그늘

Mercor는 Scale AI, Surge AI, Toloka 같은 데이터 라벨링/공급 회사들과 같은 카테고리에 있어요. 이런 회사들은 본질적으로 "수만~수십만 명의 컨트랙터를 모아 그들의 인지 노동을 AI 회사에 판매하는" 비즈니스인데, 그 과정에서 막대한 양의 개인 데이터를 다루게 돼요. 음성, 영상, 손글씨, 의료 정보 같은 매우 민감한 모달리티의 데이터가 한 곳에 집중되는 구조죠.

문제는 이런 회사들의 보안 인프라가 데이터의 민감도에 비해 충분히 성숙하지 않은 경우가 많다는 거예요. 빠르게 성장하면서 컨트랙터 수가 폭발적으로 늘어나는데, 보안과 컴플라이언스는 보통 후순위로 밀리거든요. Mercor 사건은 그 우려가 현실화된 첫 대형 사례라고 볼 수 있어요.

한국 개발자·기획자에게 주는 시사점

직접적으로는, AI 모델 학습이나 평가를 위해 외부 데이터 공급 업체와 계약할 때 보안 실사(due diligence)를 훨씬 빡세게 해야 한다는 거예요. SOC 2, ISO 27001 같은 인증을 가진 업체인지, 데이터 암호화 키 관리 방식, 컨트랙터 데이터의 접근 통제와 보존 기한, 침해 시 통지 의무가 계약서에 명시돼 있는지 꼭 확인해야 합니다.

조금 더 넓은 시각에서는, 우리 서비스가 음성 인증을 본인 확인 수단으로 쓰고 있다면 재고할 시점이라는 거예요. 은행 콜센터의 음성 인증, 일부 보안 제품의 화자 인증 같은 게 있는데, 음성 클로닝이 보편화된 시대에는 이게 더 이상 강한 인증 수단이 아니거든요. 다른 요소와 결합한 다단계 인증으로 반드시 보강해야 합니다.

마무리

비밀번호는 바꿀 수 있지만 목소리는 못 바꾼다는 것, 이게 음성 데이터 유출이 특별히 무서운 이유예요. 여러분이 AI 학습용 음성을 녹음한 적이 있다면, 혹은 우리 서비스가 사용자 음성을 수집하고 있다면, 지금의 보호 수준은 정말 충분한가요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.