TECH 으로 돌아가기
TECH HACKER NEWS 오늘 6분 읽기 32 READS

내 이력서 점수가 90점이었다가 74점이었다가 88점? HackerRank가 공개한 ATS 속을 까봤더니

내 이력서 점수가 90점이었다가 74점이었다가 88점? HackerRank가 공개한 ATS 속을 까봤더니

같은 이력서인데 점수가 매번 다르다고요?

요즘 회사에 이력서를 넣으면, 사람 채용 담당자가 읽어보기 전에 먼저 거치는 관문이 하나 있어요. 바로 ATS(Applicant Tracking System), 우리말로 하면 "지원자 추적 시스템"이라고 부르는 소프트웨어인데요. 수백, 수천 장씩 쏟아지는 이력서를 사람이 일일이 다 읽을 수는 없으니까, 일단 기계가 점수를 매겨서 1차로 걸러주는 역할을 해요.

이번에 코딩 테스트 플랫폼으로 유명한 HackerRank가 자기네 ATS 코드를 오픈소스로 공개했어요. 그래서 한 개발자가 호기심에 자기 이력서를 직접 넣어봤는데, 결과가 좀 황당했습니다. 같은 이력서 파일을 넣었는데 처음엔 90점, 다시 돌리니 74점, 또 돌리니 88점이 나온 거예요. 글자 하나 안 바꿨는데 점수가 들쭉날쭉했던 거죠. "어? 내 합격 여부가 이렇게 운빨로 정해진다고?" 싶은 순간이었던 거예요.

왜 점수가 매번 튀는 걸까

핵심은 이 ATS가 점수를 매기는 방식에 있어요. 예전 ATS는 단순히 키워드 매칭이었거든요. "Python", "AWS", "Kubernetes" 같은 단어가 채용 공고에 적힌 단어랑 몇 개나 겹치는지 세는 식이었죠. 이런 방식은 단순하고 어찌 보면 멍청하지만, 적어도 결과 하나는 일정했어요. 같은 이력서를 넣으면 항상 같은 점수가 나왔으니까요.

그런데 요즘은 LLM, 그러니까 우리가 아는 챗봇 같은 거대 언어모델한테 "이 이력서 이 공고에 몇 점짜리야?" 하고 물어보는 방식으로 바뀌고 있어요. 문제는 LLM이 태생적으로 같은 질문에도 매번 조금씩 다른 답을 한다는 거예요. 이게 뭐냐면, 모델이 다음에 올 단어를 고를 때 확률에 따라 약간의 무작위성을 주거든요. 이 무작위성의 정도를 temperature(온도) 라는 설정값으로 조절하는데, 이 값이 0보다 크면 같은 입력에도 답이 흔들려요. 그래서 "점수 매겨줘"라고 토씨 하나 안 틀리게 물어봐도, 어떤 날은 90점, 어떤 날은 74점이 튀어나오는 거죠.

결국 이 사건이 보여주는 건, 많은 채용 도구들이 "AI가 객관적으로 평가해 줍니다"라고 광고하지만, 실제로는 주사위를 굴리는 거랑 큰 차이가 없을 수도 있다는 점이에요. 점수의 편차가 16점이나 벌어진다는 건, 누군가는 운 나쁘게 한 번의 호출 때문에 서류에서 탈락할 수도 있다는 뜻이거든요.

업계에서는 어떻게 흘러가고 있나

이력서를 AI로 거르는 흐름 자체는 이미 거스를 수 없는 대세예요. 글로벌 채용 시장에서는 LinkedIn, Workday, Greenhouse 같은 대형 플랫폼이 다들 AI 스크리닝 기능을 붙이고 있고요. 반대로 지원자 쪽에서는 "ATS 통과용 이력서 최적화" 서비스까지 우후죽순 생겨나는 중이에요. 한쪽은 AI로 거르고, 다른 쪽은 AI로 그걸 뚫으려 하는 창과 방패의 싸움이 벌어지고 있는 거죠.

HackerRank가 코드를 공개했다는 점은 그래서 의미가 커요. 보통 이런 채용 알고리즘은 "영업 비밀"이라며 깜깜이로 운영되는데, 속을 열어서 보여줬더니 "어, 생각보다 허술하고 일관성도 없네"라는 게 드러난 거니까요. 블랙박스 안을 들여다볼 기회를 준 셈이에요.

한국 개발자에게 주는 시사점

우리나라도 대기업 공채나 헤드헌팅 플랫폼에서 AI 서류 평가가 빠르게 도입되고 있어요. 그래서 두 가지를 챙기면 좋겠어요. 첫째, 구직자 입장에서는 이력서를 쓸 때 공고에 나온 핵심 기술 용어를 (거짓 없이) 명확하게 적어두는 게 여전히 유효해요. 키워드 기반이든 LLM 기반이든, 명시적으로 적힌 정보는 잡아내거든요. 둘째, 이런 시스템을 만드는 개발자 입장에서는 평가처럼 일관성이 생명인 작업에 LLM을 쓸 거라면 temperature를 0에 가깝게 두거나, 여러 번 호출해서 평균을 내거나, 채점 기준을 코드로 명시하는 식의 안전장치가 꼭 필요하다는 교훈을 얻을 수 있어요.

마무리

한 줄로 정리하면, "AI가 매겼으니 객관적"이라는 말은 환상일 수 있다는 거예요. 무작위성이 섞인 모델을 합격·불합격을 가르는 자리에 그냥 던져 넣으면, 공정함이 아니라 운을 평가하게 되거든요.

여러분은 어떻게 생각하세요? 채용처럼 사람의 인생이 걸린 결정에 LLM 점수를 쓰는 게 괜찮다고 보시나요, 아니면 최종 판단은 끝까지 사람이 쥐고 있어야 한다고 보시나요?


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://danunparsed.com/p/hackerrank-open-source-ats
SHARE
처리 중...