보안 연구자들이 화났다 — AI의 안전장치는 어디까지가 보호이고 어디부터가 방해일까

무슨 논쟁이냐면요

AI 모델에는 '가드레일(guardrail)'이라는 게 있어요. 위험하거나 해로운 요청은 거절하도록 만들어 둔 안전장치예요. 폭탄 제조법이나 악성코드를 그냥 뱉지 않게 막는 거죠. 그런데 이번엔 한 AI 제품에 걸린 가드레일을 두고 보안 연구자들이 단단히 화가 났다는 이야기예요. 이유는 '안전하게 만든다더니, 우리 일까지 못 하게 막아버렸다'는 거였어요.

이게 왜 미묘한 문제냐면, 보안 연구자들이 하는 일 자체가 '공격 기법을 다루는 일'이기 때문이에요. 취약점을 찾으려면 익스플로잇(취약점을 파고드는 공격 코드)을 짜봐야 하고, 멀웨어를 막으려면 멀웨어를 분석해야 하거든요. 그런데 AI가 '이건 위험한 요청이네요' 하면서 정당한 방어 연구까지 싸잡아 거절해버리면, 정작 좋은 일 하는 사람들이 손발이 묶이는 상황이 돼요.

핵심 쟁점: 거짓 양성과 이중 용도

기술적으로 보면 이건 거짓 양성(false positive) 문제예요. 보안 분야의 거의 모든 지식은 이중 용도(dual-use)거든요. 같은 포트 스캔 기술이 해커한테는 침투 도구이고, 방어자한테는 자기 시스템 점검 도구예요. 같은 버퍼 오버플로우 분석이 공격에도 방어에도 쓰여요. AI가 이 둘을 키워드만 보고 구분하려 하면, 악용 의도가 전혀 없는 합법적 보안 작업까지 과하게 막아버리는 일이 생겨요.

연구자들의 불만은 크게 두 갈래예요. 하나는 '과잉 차단', 즉 너무 조심스럽게 만들어서 멀쩡한 분석 요청까지 거절당하니 도구로서 쓸모가 떨어진다는 거고요. 다른 하나는 '불투명함'이에요. 어디까지 되고 어디부터 막히는지 기준이 안 보이니까, 연구가 자꾸 끊기고 예측이 안 된다는 거죠. 게다가 가드레일이 빡빡할수록 사람들이 우회 프롬프트(탈옥, jailbreak)를 찾아내게 되는데, 그러면 정작 진짜 악용자만 우회법을 알고 일반 연구자는 손해 보는 역설도 생겨요.

반대편 논리도 들어볼 만해요. 모델 제공사 입장에선 악용 가능성을 0으로 만들 수 없으니 보수적으로 걸 수밖에 없다는 거예요. 정교한 익스플로잇을 술술 만들어주는 AI가 풀리면 공격자의 진입장벽이 확 낮아지니까요. 결국 '안전'과 '유용성' 사이 어디에 선을 그을 것인가, 그 줄다리기예요.

업계 맥락에서 보면

이건 특정 한 제품만의 일이 아니에요. ChatGPT, Gemini 등 거의 모든 주요 모델이 같은 딜레마를 안고 있어요. 그래서 업계는 절충안을 실험 중이에요. 신원이 검증된 보안 연구자에게는 제한을 풀어주는 등급제 접근, 위험 행위만 골라 막는 세밀한 정책, 그리고 무엇을 왜 막았는지 알려주는 투명성 리포트 같은 것들이죠. 핵심은 '전부 막거나 전부 열거나'의 이분법에서 벗어나는 거예요.

한국 개발자에게 주는 시사점

첫째, AI를 보안 업무 워크플로에 넣을 땐 가드레일의 한계를 미리 셈해야 해요. CTF 풀이나 침투 테스트 자동화에 AI를 쓰려다 갑자기 거절당해 막히는 경우가 실제로 많거든요. 어떤 작업이 막히는지 미리 테스트하고 대안을 마련해 두세요.

둘째, 여러분이 AI 기능을 만드는 입장이라면 이 사례가 좋은 교훈이에요. 안전 필터를 둘 때 '키워드 차단'처럼 거칠게 만들면 진짜 사용자가 떠나요. 사용 맥락과 의도를 보는 정교한 정책, 그리고 '왜 막혔는지' 설명해주는 UX가 결국 신뢰를 만들어요.