
AI가 코드를 쓰는 시대, 라이선스가 흔들리고 있어요
요즘 GitHub에 올라오는 코드 중에 사람이 직접 한 글자 한 글자 친 코드가 얼마나 될까요? 정확한 통계는 없지만, GitHub Copilot이나 Cursor, Claude Code 같은 AI 도구들이 일상화되면서 이제는 "이 코드, 누가 썼지?"라는 질문 자체가 묘하게 애매해졌거든요. 그런 흐름 한가운데에서 등장한 게 바로 Human Source License(HSL) 라는 흥미로운 시도예요. 이름에서부터 느껴지죠? "사람이 작성한 소스코드만"이라는 메시지를요.
HSL은 기존 오픈소스 라이선스와는 좀 다른 결을 가져요. MIT나 Apache 2.0 같은 라이선스가 "누구든 어떻게 써도 좋다"에 가깝다면, HSL은 한 가지 강한 조건을 답니다. 이 코드를 사용하거나 수정할 때, 그 작업을 하는 주체가 사람이어야 한다는 거예요. AI 에이전트가 자동으로 가져다가 학습하거나, 자동 코드 생성에 쓰거나, 혹은 사람의 개입 없이 수정해서 다시 배포하는 걸 명시적으로 금지하는 라이선스인 거죠.
왜 이런 라이선스가 나왔을까요
사실 이 문제, 작년부터 계속 불거져 왔어요. GitHub Copilot이 GPL 코드를 학습 데이터로 썼다고 해서 집단소송이 걸린 일도 있었고요(이게 뭐냐면, GPL은 "이 코드를 쓰면 너의 코드도 공개해야 한다"는 강한 조건이 붙은 라이선스인데, AI가 학습해서 비슷한 코드를 뱉어낼 때 그 조건이 지켜지냐는 논쟁이었죠). 또 Stack Overflow가 자기네 데이터로 AI 학습하는 걸 허용했다가 사용자들이 격분한 일도 있었고요.
그러니까 개발자 커뮤니티 안에는 "내가 오픈소스로 푼 건 사람이 배우고 사람이 쓰라고 푼 거지, 거대 AI 회사가 학습 데이터로 빨아들이라고 푼 게 아니다"라는 정서가 꽤 깊게 깔려있어요. HSL은 그 정서를 라이선스라는 법적 도구로 풀어보려는 시도인 셈이죠.
실제로 어떻게 동작할까
라이선스 텍스트를 살펴보면 핵심 조항은 대략 이래요. 첫째, 이 소프트웨어를 사용하거나 수정하는 모든 행위는 자연인(natural person) 이 수행해야 한다. 둘째, AI 시스템이 이 코드를 학습 데이터로 사용하는 것을 금지한다. 셋째, AI가 생성한 코드를 이 코드와 결합해 배포하는 것도 제한한다는 식이에요.
물론 현실에서 이걸 어떻게 강제할 거냐는 또 다른 문제예요. AI가 학습한 모델 안에 내 코드 한 줄이 녹아 있는지 누가 어떻게 증명하죠? 그리고 "사람이 Copilot을 띄워놓고 탭 키를 눌러 자동완성을 받았다"면 이건 사람이 쓴 건가요, AI가 쓴 건가요? 경계가 굉장히 모호해요. 그래서 HSL을 비판하는 쪽에서는 "좋은 의도지만 실효성이 약하다"고 지적하고, 옹호하는 쪽에서는 "법적 강제보다 의사 표현 자체가 의미 있다"고 보는 거예요.
비슷한 시도들과 비교해 보면
HSL만 이런 고민을 하는 건 아니에요. Anti-Capitalist Software License처럼 특정 주체(영리 법인)의 사용을 제한하는 라이선스도 있었고, JSON License의 그 유명한 "악(Evil)을 위해 사용하지 말 것" 조항처럼 윤리적 제약을 거는 라이선스도 있었거든요. 또 최근에는 BUSL(Business Source License) 처럼 "클라우드 호스팅 사업자는 못 쓴다"고 명시한 라이선스도 인기를 끌고 있고요.
공통점은 다 비슷해요. 기존 OSI(Open Source Initiative)가 정의하는 "진짜 오픈소스"의 기준에서는 벗어나지만, 만든 사람들의 의도를 더 정교하게 반영하려는 시도라는 거죠. HSL도 엄밀히 말하면 OSI 기준에서는 오픈소스가 아니에요. 사용 주체에 차별을 두는 순간 "누구나 어떤 목적으로든 쓸 수 있어야 한다"는 오픈소스 정의를 위반하거든요. 그래서 정확히는 소스 공개 라이선스(source-available license) 라고 불러야 맞아요.
한국 개발자 입장에서 어떻게 봐야 할까
당장 우리 회사 사이드 프로젝트에 HSL을 붙일까 말까 하는 결정보다 더 중요한 건, 이 흐름이 어디로 가고 있는지를 읽는 일이라고 생각해요. 지금 한국에서도 사내 코드 베이스에 AI 도구를 어디까지 허용할지 정책을 세우는 회사가 많거든요. 외부 라이브러리를 가져다 쓸 때도 "이 라이브러리 라이선스에 AI 관련 조항이 있나?"를 확인해야 하는 시대가 머지않아 올 거예요.
그리고 개인 개발자 입장에서도 한 번쯤 생각해볼 거리가 돼요. 내가 GitHub에 올린 토이 프로젝트들이 누군가의 학습 데이터가 되고 있다는 사실, 그게 괜찮은지 불편한지에 대한 자기만의 답을 가지고 있어야 하는 거죠. 라이선스를 바꿀지, 아니면 그냥 두고 흐름에 맡길지는 각자의 선택이지만, 적어도 "내가 무엇에 동의하고 있는지" 정도는 알고 있어야 하니까요.
마무리
HSL은 완벽한 답이라기보다는, AI 시대에 오픈소스 정신을 어떻게 다시 정의할지 묻는 하나의 질문에 가까워요. 강제력이 약하다는 한계는 분명하지만, 그래서 더 많은 논의가 필요한 주제이기도 하고요.
여러분은 어떻게 생각하세요? 본인이 작성한 코드가 AI 학습에 쓰이는 게 괜찮으신가요, 아니면 명시적으로 거부하고 싶으신가요? 그리고 만약 거부하고 싶다면, HSL 같은 라이선스가 실효성 있는 도구라고 보시나요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공