AI는 결국 거대한 무단 표절기인가? 한 개발자의 도발적인 문제 제기

다시 불붙은 'AI = 표절' 논쟁

요즘 ChatGPT, Claude, Copilot 같은 도구 없이 일하는 개발자를 찾기가 더 어려워졌어요. 그런데 이런 분위기 속에서 "잠깐, 이거 사실은 그냥 거대한 표절 기계 아닌가?"라고 정면으로 묻는 글이 나왔습니다. axelk.ee의 글쓴이는 단도직입적으로 말해요. "AI는 더 큰 규모로 행해지는 무단 표절일 뿐"이라고요.

이 주장이 왜 지금 다시 주목받느냐면, 그동안 OpenAI, Google, Anthropic 같은 회사들이 "우리 모델은 단순히 데이터를 외워서 뱉는 게 아니라 학습한 패턴을 일반화한다"고 강조해왔거든요. 그런데 최근 뉴욕타임스 소송, 디스코드 소스코드 유출 의혹, GitHub Copilot 집단 소송 등이 이어지면서 "진짜 그런 게 맞아?"라는 의심이 점점 커지고 있어요.

글쓴이의 핵심 주장

글쓴이가 풀어놓는 논리는 이래요. 만약 제가 누군가의 블로그 글을 그대로 베껴서 제 블로그에 올리면 표절이잖아요. 그런데 제가 그 블로그 글을 살짝 바꿔서 단어 몇 개 교체하고 문장 순서 바꿔서 올리면? 그래도 표절이에요. 그러면 1억 개의 글을 통째로 학습한 다음 통계적으로 비슷한 글을 생성하는 건? 글쓴이는 "본질적으로 똑같은데, 단지 규모가 너무 커서 추적이 안 될 뿐"이라고 봐요.

또 하나 흥미로운 지점은 재현성(reproducibility) 이야기예요. 연구자들이 특정 프롬프트를 넣으면 AI가 원본 텍스트를 거의 그대로 뱉어내는 경우를 발견하고 있어요. 이게 뭐냐면, AI가 학습 데이터를 '이해'한 게 아니라 그냥 '저장'한 거에 가깝다는 증거가 될 수 있다는 거죠. 만약 AI가 정말 패턴만 학습했다면, 원본을 그대로 복원하는 건 불가능해야 하니까요.

반대 진영의 논리도 만만치 않다

그렇다고 "AI = 표절"이라는 결론이 깔끔하게 떨어지진 않아요. 반대편 입장도 들어볼 가치가 있거든요. AI 옹호 진영에서는 "인간의 학습과 뭐가 다른가" 라는 반론을 자주 합니다. 우리도 결국 다른 사람의 책, 코드, 그림을 보면서 배우잖아요. 화가가 미술관에서 명화를 감상하고 자기 스타일을 만들어가는 것과, AI가 이미지 데이터셋을 학습하는 게 본질적으로 다르냐는 거죠.

또 미국에서는 공정 이용(fair use) 이라는 법적 개념이 있어요. 저작물을 변형적(transformative)으로 사용하면 저작권 침해가 아닐 수 있다는 거예요. 구글이 도서 전체를 스캔해서 검색 가능하게 만든 'Google Books' 사건에서 법원은 이걸 공정 이용으로 봤거든요. AI 학습도 같은 논리로 보호받을 수 있다는 주장이에요.

한국 개발자에게 주는 의미

이 논쟁이 우리한테 왜 중요하냐면, 두 가지 측면에서 그래요. 첫째는 윤리적 판단의 문제예요. 회사에서 AI 도구를 도입할 때, "이게 법적으로 문제가 없을까?"를 넘어 "우리가 이걸 써도 떳떳한가?"를 한 번쯤 고민해볼 필요가 있어요. 특히 오픈소스 라이선스 위반 이슈는 GitHub Copilot이 GPL 코드를 그대로 뱉어내는 사례가 보고되면서 실무에서도 골치 아픈 문제가 됐거든요.

둘째는 법적 리스크 측면이에요. 한국도 저작권법 개정 논의가 진행 중이에요. 만약 "AI 학습용 데이터도 저작권 보호 대상"이라는 방향으로 법이 바뀌면, AI로 생성한 코드를 상용 제품에 쓰는 회사들은 일정 부분 리스크를 떠안게 될 수 있어요. 그래서 요즘 큰 회사들은 사내에서 AI 사용 가이드라인을 만들고 있고, AI 생성 코드는 별도로 표시하거나 검수 프로세스를 두는 곳도 늘고 있어요.

개인적으로는 "AI는 표절"이라는 단정도, "AI는 학습"이라는 단정도 둘 다 너무 단순한 답인 것 같아요. 기술이 사회 제도보다 빠르게 발전할 때 항상 이런 회색지대가 생기거든요. 자동차가 처음 나왔을 때도 "이게 마차의 권리를 침해하는가"라는 논쟁이 있었고, 결국 새로운 교통 법규가 만들어졌잖아요. AI도 결국 비슷한 과정을 거칠 거예요.