
AI가 만든 글에 보이지 않는 도장을 찍는다
요즘 AI로 생성한 텍스트가 넘쳐나면서, "이게 사람이 쓴 건지 AI가 쓴 건지" 구별하는 문제가 점점 중요해지고 있어요. 구글 딥마인드에서는 이 문제를 해결하기 위해 SynthID라는 기술을 만들었는데요, 쉽게 말하면 AI가 텍스트를 생성할 때 눈에 보이지 않는 워터마크를 몰래 심어놓는 거예요.
이미지 워터마크는 많이 들어보셨을 텐데요, 텍스트 워터마크는 좀 다른 방식으로 동작해요. 이미지는 픽셀 값을 살짝 바꾸는 건데, 텍스트는 글자 자체를 바꿀 수는 없잖아요. 그래서 SynthID는 토큰 선택 확률을 미세하게 조정하는 방식을 써요. 이게 뭐냐면, AI가 다음 단어를 고를 때 여러 후보 중에서 특정 패턴에 맞는 단어를 살짝 더 선호하게 만드는 거예요. 읽는 사람 눈에는 전혀 차이가 없는데, 통계적으로 분석하면 "아, 이건 워터마크가 있구나" 하고 알 수 있는 거죠.
워터마크를 역추적하고 제거하는 연구
그런데 최근 이 SynthID의 워터마크를 탐지하고 제거하는 오픈소스 연구가 공개됐어요. "reverse-SynthID"라는 프로젝트인데요, 이 연구에서는 크게 세 가지를 해요.
첫째, 워터마크의 존재를 탐지해요. SynthID가 토큰 선택에 남기는 통계적 편향을 분석해서, 이 텍스트에 워터마크가 있는지 없는지를 판별하는 거예요. 특정 토큰 조합이 자연스러운 확률보다 더 자주 나타나는지를 통계 검정으로 확인하는 방식이에요.
둘째, 워터마크의 패턴을 역추적해요. 어떤 규칙으로 토큰을 편향시켰는지를 알아내는 건데, 이건 꽤 어려운 작업이에요. 충분한 양의 워터마크된 텍스트를 모아서 패턴을 추출하는 방식으로 접근해요.
셋째, 워터마크를 선택적으로 제거해요. "surgically removing"이라고 표현한 것처럼, 텍스트의 의미는 유지하면서 워터마크만 깔끔하게 지우는 거예요. 편향된 토큰만 골라서 동의어나 재구성된 표현으로 바꾸는 식이죠.
왜 이런 연구가 중요할까
이런 연구를 보면 "워터마크 우회를 도와주는 거 아냐?" 하고 걱정될 수 있는데요, 사실 보안 분야에서는 이런 종류의 연구가 매우 중요해요. 방어 기술의 약점을 미리 파악해야 더 강력한 방어를 만들 수 있으니까요. 자물쇠 회사가 자기 제품의 취약점을 연구하는 것과 비슷하다고 보시면 돼요.
AI 워터마킹 기술은 아직 초기 단계예요. 구글의 SynthID 외에도 다양한 접근 방식이 연구되고 있는데요, 대표적으로 메릴랜드 대학의 워터마킹 연구, OpenAI의 텍스트 분류기 시도 등이 있어요. 하지만 모든 방식에 공통적인 한계가 있는데, 텍스트를 패러프레이징(같은 뜻으로 다시 쓰기)하면 워터마크가 깨질 수 있다는 거예요. 이번 연구는 그보다 더 정교한 방법으로 제거가 가능하다는 걸 보여준 셈이에요.
개발자 입장에서 알아둘 점
AI 콘텐츠 탐지는 앞으로 규제와도 밀접하게 연결될 주제예요. EU AI Act에서는 AI 생성 콘텐츠에 라벨링을 요구하고 있고, 한국에서도 AI 생성 콘텐츠 표시 관련 논의가 진행 중이거든요.
AI 서비스를 개발하는 분들이라면, 워터마킹이 만능이 아니라는 점을 인식해둘 필요가 있어요. 워터마킹은 하나의 도구일 뿐이고, 메타데이터 기록, 출처 추적 시스템, C2PA 같은 콘텐츠 인증 표준 등 여러 방법을 함께 써야 해요.
또한 이 분야는 공격과 방어가 계속 진화하는 "군비 경쟁" 같은 영역이에요. 한 번 만들어서 끝나는 게 아니라 지속적으로 업데이트해야 하는 기술이라는 뜻이죠. AI 보안에 관심 있는 분들에게는 깊이 파볼 만한 주제예요.
정리하자면
AI 텍스트 워터마크는 AI 생성 콘텐츠를 추적하는 유망한 기술이지만, 아직 완벽하지는 않다는 게 이번 연구의 핵심 메시지예요. 방어 기술과 우회 기술이 함께 발전해야 더 강력한 시스템이 나올 수 있어요.
여러분은 AI 생성 콘텐츠 표시가 의무화되어야 한다고 생각하시나요? 그리고 워터마킹 같은 기술적 접근이 현실적으로 가능하다고 보시나요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공