취약한 앱 만들어놓고 1,500달러 써서 'LLM이 진짜 해킹하나' 실험해봤더니

무슨 실험이냐면요

한 개발자가 좀 재미있는 실험을 했어요. 일부러 보안 구멍이 뚫린 웹 앱을 직접 만들어 놓고, 요즘 잘나가는 대형 언어 모델(LLM)들한테 "이거 한번 해킹해봐"라고 시켜본 거예요. 여기에 API 사용료로 약 1,500달러를 썼고요. 'AI가 해커를 대체한다'거나 'AI 때문에 보안이 무너진다'는 말은 많은데, 정작 진짜로 시켜보면 어떤지 데이터로 확인해보고 싶었던 거죠.

이게 지금 중요한 이유가 있어요. 최근 들어 LLM이 코드를 읽고 추론하는 능력이 확 좋아지면서, 보안 쪽에서도 "이걸로 자동 침투 테스트를 할 수 있지 않을까" 하는 기대와, 반대로 "공격자가 이걸 악용하면 어쩌나" 하는 공포가 동시에 커지고 있거든요. 그래서 이런 실증 실험이 의미가 있어요.

어떻게 실험했냐면

핵심 아이디어는 통제된 환경을 만든 거예요. 진짜 남의 서버를 공격하면 불법이니까, 자기가 직접 흔한 취약점들을 심어둔 연습용 앱을 띄워놓는 거죠. 여기서 말하는 취약점이란 게 뭐냐면, 예를 들어 SQL 인젝션(입력창에 DB 명령어를 끼워 넣어 데이터를 빼내는 공격), 인증 우회(로그인 안 하고 남의 계정에 접근), 권한 상승(일반 사용자가 관리자 권한을 얻는 것) 같은 교과서적인 보안 결함들이에요.

그다음 LLM을 단순히 한 번 질문하고 끝내는 게 아니라, 에이전트 형태로 돌렸어요. 이게 뭐냐면, AI에게 "공격해"라는 목표만 주고, AI가 스스로 요청을 보내고 → 응답을 보고 → 다음 행동을 정하는 걸 반복하게 만드는 구조예요. 사람 해커가 이것저것 찔러보면서 길을 찾아가는 과정을 흉내 내게 한 거죠. 비용 1,500달러의 상당 부분이 이 '반복해서 시도하는' 토큰 값에서 나온 거고요.

결과가 흥미로워요

결론부터 말하면 "되는 것도 있고 안 되는 것도 있다"였어요. 패턴이 뻔하고 교과서적인 취약점, 그러니까 입력값 한두 개 바꿔서 바로 터지는 종류는 LLM이 꽤 잘 찾아냈어요. 마치 보안 체크리스트를 빠르게 훑는 부지런한 주니어처럼요. 반면 여러 단계를 거쳐야 하거나, 앱의 비즈니스 로직을 깊이 이해해야 풀리는 복잡한 공격에서는 자주 헤맸어요. 엉뚱한 곳을 계속 파거나, 한 번 막히면 같은 시도를 반복하면서 돈만 태우는 모습도 나왔고요.

또 하나 중요한 발견은 모델과 프롬프트, 그리고 도구 설계에 따라 결과가 크게 갈렸다는 점이에요. 같은 취약점이라도 AI에게 어떤 정보를 주고 어떤 행동을 허용하느냐에 따라 성공률이 확 달라졌어요. 즉 'AI 자체가 해커다'라기보다는, AI를 어떻게 부려먹느냐가 절반 이상을 차지한다는 거죠.

업계 맥락에서 보면

이 흐름은 이미 보안 업계의 큰 화두예요. 자동으로 코드 취약점을 찾아주는 AI 도구들이 쏟아지고 있고, 반대로 방어 쪽에서도 AI로 로그를 분석하고 이상 징후를 잡는 시도가 활발하거든요. 이번 실험이 주는 메시지는 균형 잡혀 있어요. "AI가 모든 해킹을 자동화한다"는 과장도, "AI는 보안엔 쓸모없다"는 무시도 둘 다 틀렸다는 거예요. 현실은 반복적이고 표준적인 작업을 싸고 빠르게 처리해주는 보조 도구에 가까워요.

한국 개발자에게는

실무적으로 당장 써볼 만한 게 있어요. 본인이 만든 서비스에 AI 기반 보안 스캐너를 붙여서, 흔한 취약점이 있나 1차로 훑게 하는 거예요. 사람이 일일이 보기 전에 명백한 구멍을 걸러주는 용도로는 가성비가 좋아요. 다만 "AI가 통과시켰으니 안전하다"고 믿으면 절대 안 돼요. 복잡한 로직 취약점은 여전히 사람 눈이 필요하거든요.

그리고 반대 입장도 생각해야 해요. 공격자도 똑같은 도구를 쓸 수 있으니, 교과서적인 취약점은 이제 정말 빠르게 발견될 거라는 거예요. 기본적인 입력 검증, 인증/인가 처리 같은 '당연한 보안'을 소홀히 하면 그 어느 때보다 빨리 털릴 수 있다는 경고로 받아들이면 좋겠어요.

한 줄 정리

LLM은 부지런하지만 아직 어설픈 보안 인턴이에요 — 뻔한 건 잘 잡고, 깊은 건 못 잡아요. 여러분은 AI 보안 도구를 실제 프로젝트에 붙여보실 생각이 있으세요? 붙인다면 방어용으로, 어디까지 믿고 맡기시겠어요?

🔗 출처: Hacker News

취약한 앱 만들어놓고 1,500달러 써서 'LLM이 진짜 해킹하나' 실험해봤더니

무슨 실험이냐면요

어떻게 실험했냐면

결과가 흥미로워요

업계 맥락에서 보면

한국 개발자에게는

한 줄 정리

이어서 읽을 만한, 세 편.

로그인

추가 정보 입력

회원가입

수강 신청

비밀번호 찾기