
무슨 일이 있었냐면요
혹시 'sonder'라는 단어 들어보셨어요? 길에서 스쳐 지나가는 모든 사람에게도 나만큼 생생한 인생이 있다는 걸 문득 깨닫는 순간의 감정을 가리키는 말인데요. 이 단어는 존 케니그(John Koenig)라는 작가가 만든 '잘 알려지지 않은 슬픔들의 사전(The Dictionary of Obscure Sorrows)'이라는 창작 프로젝트에서 나왔어요. 마땅한 이름이 없던 미묘한 감정들에 새 단어를 붙여주는, 시 같은 작업이었죠. 수년에 걸쳐 만든 이 작업이 책으로도 나왔고 많은 사랑을 받았어요.
그런데 한 기술 블로거가 이 창작물이 '통째로' 표절당하고 있다는 사실을 추적해 정리했어요. 단어 몇 개를 슬쩍한 정도가 아니라, 정의와 문장을 거의 그대로 베껴서 다른 책이나 콘텐츠로 팔리고 퍼지고 있었던 거예요. 원작자 이름은 쏙 빠진 채로요.
왜 이런 일이 쉬워졌냐면
주니어 분들은 '표절이야 옛날부터 있던 거 아닌가?' 싶을 텐데, 지금 문제는 '규모'와 '속도'예요. 예전엔 남의 글을 베껴서 책으로 내려면 출판사를 통하는 번거로운 과정이 있었어요. 그런데 요즘은 누구나 주문형 인쇄(print-on-demand)로 아마존 같은 데 책을 즉석에서 올릴 수 있고, 생성형 AI로 텍스트를 대량으로 찍어낼 수도 있어요. 그러다 보니 원작을 긁어다가(스크래핑) 살짝 비틀어 수십, 수백 개의 '짝퉁 콘텐츠'를 자동으로 만들어 파는 게 기술적으로 너무 쉬워졌어요.
여기서 개발자가 주목할 포인트가 있어요. 생성형 AI는 인터넷의 글을 잔뜩 학습해서 문장을 만들어내잖아요. 그런데 'sonder' 같은 단어는 원래 사전에 없던, 한 사람이 창작한 신조어예요. 이런 게 AI 모델 안에 학습되면, 모델은 그게 누군가의 창작물인 줄 모르고 '원래 있던 단어'처럼 술술 뱉어내요. 출처도, 만든 사람도 사라진 채로요. 창작물이 '학습 데이터'라는 거대한 믹서기에 들어가 출처가 지워지는 거예요.
업계 맥락에서 보면
이건 단발성 가십이 아니라 지금 테크 업계의 큰 논쟁과 정확히 맞닿아 있어요. 뉴스 기사, 코드, 그림, 글을 AI가 학습하는 게 정당한가를 두고 곳곳에서 소송이 벌어지고 있죠. 'sonder 사전' 사건은 그중에서도 가장 알기 쉬운 축소판이에요. 누가 봐도 한 사람이 공들여 만든 독창적 결과물인데, 그게 출처 없이 복제되고 재판매되는 과정을 눈으로 확인할 수 있으니까요. AI가 만든 콘텐츠 농장(content farm)이 검색 결과와 온라인 서점을 오염시키는 더 큰 흐름의 단면이기도 하고요.
한국 개발자에게는
남 일이 아니에요. 우리가 만드는 서비스도 외부 콘텐츠를 긁어와 보여주거나, AI로 글을 생성하는 기능을 붙이는 경우가 많잖아요. 이럴 때 몇 가지를 챙기면 좋아요. 첫째, 출처와 라이선스 표기를 기능 설계 단계부터 넣어두세요. 나중에 붙이려면 훨씬 어려워요. 둘째, AI로 생성한 콘텐츠가 특정 원작을 거의 그대로 복제하지 않는지 점검하는 절차를 두는 게 안전해요. 셋째, 내가 만든 창작물·코드·글을 지키는 입장에서도, 라이선스를 명확히 걸어두는 습관이 필요해요. 결국 '원작자를 기억하게 만드는 장치'를 코드와 데이터 파이프라인 안에 심는 게 개발자의 몫이 되어가고 있어요.
마무리
핵심은 이거예요. 창작물을 통째로 베끼는 일이 기술 덕분에 너무 쉬워졌고, AI는 그 과정에서 출처를 지워버린다. 여러분이 만드는 서비스는 외부 콘텐츠의 '출처'를 얼마나 성실히 지키고 있나요? 그리고 AI 학습 데이터 속에서 원작자의 권리는 어떻게 보호되어야 할까요?
🔗 출처: Hacker News