AI 에이전트는 진짜 보안 취약점을 고칠 수 있을까? 실제 CVE로 검증한 'CVE-Bench' 이야기

무슨 일이냐면요

요즘 "AI가 코드를 짠다"는 말은 흔해졌는데요, 그럼 한 단계 더 나아가서 이런 질문을 해볼 수 있어요. "AI가 실제 보안 취약점을 찾아내고 고칠 수도 있을까?" 이걸 진지하게 측정해 본 벤치마크가 바로 CVE-Bench예요.

먼저 용어 하나 짚고 갈게요. CVE(Common Vulnerabilities and Exposures)가 뭐냐면, 전 세계적으로 공식 등록된 보안 취약점에 붙이는 일련번호 같은 거예요. 'CVE-2024-1234' 이런 식으로요. 어떤 소프트웨어에 해킹당할 수 있는 구멍이 발견되면 여기에 등록되거든요. 그러니까 CVE-Bench는 "실험실에서 만든 가짜 문제"가 아니라, 실제 세상에서 보고된 진짜 보안 구멍들을 가지고 AI 에이전트를 시험해 본 거예요. 이게 중요한 포인트예요.

왜 '진짜 취약점'이 중요할까요

그동안 AI 코딩 능력을 재는 벤치마크는 많았어요. 그런데 문제가 있었죠. 인기 있는 벤치마크 문제들은 인터넷에 풀이가 널려 있어서, AI가 학습 과정에서 이미 답을 봤을 가능성이 커요. 이걸 데이터 오염(data contamination)이라고 해요. 시험 문제를 미리 본 학생한테 시험 보게 하는 거랑 비슷한 거죠. 그러면 점수가 높게 나와도 "진짜 실력"인지 "외운 거"인지 알 수가 없어요.

보안 취약점은 이 함정을 피하기에 좋아요. 취약점을 고치려면 단순히 패턴을 외우는 게 아니라, 코드의 흐름을 진짜로 이해하고 "여기서 사용자 입력이 검증 없이 들어오네, 이걸 막아야겠다" 같은 추론을 해야 하거든요. 게다가 최신 CVE를 쓰면 AI가 학습 때 못 봤을 가능성이 높아서 더 공정한 시험이 돼요.

어떻게 평가하는 걸까요

이런 벤치마크의 작동 방식은 대략 이래요. 먼저 취약점이 있는 실제 코드 저장소를 AI 에이전트한테 던져줘요. 그리고 "여기 보안 문제가 있으니 고쳐봐" 하고 시키는 거죠. AI는 코드를 읽고, 문제 지점을 찾고, 수정 패치를 만들어요.

여기서 채점이 핵심인데요, 두 가지를 봐요. 첫째, 고친 다음에 취약점 공격이 더 이상 안 통하는가? (보안 구멍이 진짜 막혔는지) 둘째, 기존 기능은 멀쩡하게 잘 돌아가는가? (고친다고 다른 걸 망가뜨리지 않았는지) 이 두 개를 자동화된 테스트로 검증해요. 실제 보안 패치도 정확히 이 두 가지를 만족해야 하거든요. 구멍은 막되, 멀쩡한 기능은 건드리지 않는 것. 말은 쉬운데 실제로는 굉장히 까다로운 작업이에요.

이런 평가를 하려면 각 취약점마다 '공격 시나리오'와 '정상 동작 테스트'를 미리 다 준비해 둬야 해서, 벤치마크를 만드는 것 자체가 엄청난 노력이 드는 일이에요.

업계 흐름에서 보면

비슷한 시도들이 줄줄이 나오고 있어요. 가장 유명한 게 SWE-bench인데, 이건 실제 GitHub 이슈를 AI가 해결하게 하는 벤치마크예요. CVE-Bench는 거기서 '보안'이라는 더 어렵고 위험한 영역에 특화한 버전이라고 보면 돼요. 또 구글이나 여러 보안 회사들이 "AI로 취약점을 자동으로 찾자"는 퍼징(fuzzing, 무작위 입력을 마구 넣어 버그를 찾는 기법)에 AI를 결합하는 연구도 활발하고요.

방향성은 분명해요. AI를 단순히 '코드 자동완성'에서 '자율적으로 문제를 진단하고 고치는 에이전트'로 끌어올리려는 거죠. 그리고 보안은 그 능력을 검증하는 가장 엄격한 시험장이에요. 왜냐면 보안은 '그럴듯하게 보이는 답'으로는 절대 안 되고, 진짜로 막혀야만 점수를 받으니까요.

한국 개발자에게

실무 관점에서 두 가지를 생각해 볼 수 있어요. 하나는 기대, 하나는 경계예요. 기대 쪽은, 머지않아 '보안 패치를 초안으로 만들어주는 AI 에이전트'를 CI 파이프라인에 붙이는 날이 올 거라는 거예요. Dependabot이 의존성 업데이트 PR을 자동으로 올려주듯이, 취약점 수정 PR을 AI가 올려주는 미래죠.

경계 쪽은, AI가 만든 보안 패치를 절대 맹신하면 안 된다는 거예요. CVE-Bench 같은 검증 도구가 필요한 이유가 바로 이거예요. AI가 "고쳤어요" 하고 내놓은 패치가 실제로는 구멍을 못 막았거나, 오히려 새 구멍을 냈을 수 있거든요. 그래서 이런 벤치마크로 "AI가 지금 어느 정도 믿을 만한지"를 객관적으로 아는 게 중요해요. 보안은 한 번 뚫리면 끝이라, 검증 없는 자동화는 위험하니까요.

마무리

핵심은 이거예요. CVE-Bench는 "AI가 진짜 보안 취약점을 고칠 수 있는가"를 외운 답이 아닌 실전 문제로 정직하게 측정하려는 시도예요. 여러분은 AI가 만든 보안 패치를 코드 리뷰 없이 머지할 수 있는 날이 올 거라고 보세요? 아니면 보안만큼은 끝까지 사람이 지켜야 하는 영역일까요?

🔗 출처: Hacker News

이 글도 읽어보세요