응급실 의사보다 진단 정확도가 높다고? OpenAI o1의 하버드 임상 결과

AI가 의사를 "이긴" 게 처음은 아니지만, 이번엔 좀 다릅니다

하버드 의대가 진행한 임상 연구에서 OpenAI의 추론 모델 o1이 응급실 환자 트리아지(triage, 진단 우선순위 분류) 정확도에서 인간 의사를 앞섰다는 결과가 나왔어요. 숫자만 보면 o1은 67%, 트리아지 의사는 50~55% 수준의 정확도를 기록했습니다. AI가 의료 분야에서 좋은 성적을 낸 게 처음은 아니지만, 이번 연구는 "실제 응급실의 복잡하고 노이즈 많은 환경"에서 측정됐다는 점에서 의미가 큽니다.

트리아지가 뭐고, 왜 어려운가요

트리아지는 응급실에 환자가 도착했을 때 "이 환자가 얼마나 위급한지, 어떤 진료과로 보내야 하는지, 가능성 있는 진단명은 무엇인지"를 빠르게 판단하는 과정이에요. 시간이 절대적으로 부족하고, 정보는 단편적이고, 환자 상태는 계속 변합니다. 의사 입장에서는 가장 스트레스 큰 업무 중 하나죠. 게다가 첫 판단이 어긋나면 환자가 엉뚱한 곳에서 시간을 보내다가 골든타임을 놓칠 수도 있어요. 이런 환경에서 50~55%라는 인간 의사 정확도는 사실 "실력 부족"이 아니라 문제 자체가 정말 어렵다는 방증입니다.

그런 환경에서 o1이 67%를 기록한 거예요. 단순한 객관식 문제 풀이가 아니라, 환자의 주증상·바이탈·과거력·검사 결과 같은 비정형 정보를 종합해 "가장 가능성 높은 진단"을 추론한 결과거든요.

o1이 왜 이걸 잘하나요

o1은 GPT-4 계열과 결이 좀 다른 모델이에요. 답을 바로 뱉지 않고 "체인 오브 소트(Chain of Thought)" 방식으로 내부에서 길게 추론한 뒤 결론을 내는 구조거든요. 사람으로 치면 "잠깐, 이거 다시 생각해볼게" 하면서 가설을 세우고 반박하고 검토하는 과정을 모델 내부에서 자동으로 수행합니다. 의학 진단처럼 여러 증거를 비교 검토하고 감별진단(differential diagnosis)을 좁혀나가는 작업과 이 추론 방식이 잘 맞아떨어진 거예요.

또 하나 주목할 점은 o1이 의료 전용으로 학습된 모델이 아니라는 거예요. 범용 추론 모델이 도메인 전문가를 정확도에서 뛰어넘은 사례라는 점에서, AI 발전 속도에 대한 시사점이 큽니다.

그렇다고 의사가 사라지나요? 그건 아니에요

이 연구를 "AI가 의사를 대체한다"로 읽으면 좀 위험해요. 몇 가지 짚어볼 게 있거든요. 우선 67%도 33%는 틀렸다는 뜻이고, 응급실에서 그 33%는 사람의 생사로 직결될 수 있어요. 또 임상 연구는 통제된 데이터셋에서 진행되는데, 실제 현장에는 정형화되지 않은 변수가 훨씬 많습니다. 환자가 증상을 모호하게 말하거나, 검사 결과가 늦게 나오거나, 갑자기 상태가 바뀌는 상황 같은 거요.

그래서 의료계의 합의된 방향은 "대체"가 아니라 "증강(augmentation)"이에요. 의사가 보지 못한 가능성을 AI가 보조 진단으로 제시하고, 최종 판단은 의사가 하는 식이죠. 비슷한 시도로 Google DeepMind의 AMIE, Microsoft의 BioGPT, 국내에서도 루닛이나 뷰노 같은 회사들이 영상 진단 영역에서 의미 있는 성과를 내고 있습니다.

업계 맥락

OpenAI는 의료 AI 영역에 본격적으로 발을 들이고 있어요. 최근에 나온 HealthBench라는 의료 평가 벤치마크도 OpenAI가 만들었고, o1 후속 모델들은 의료 추론 성능을 핵심 자랑거리로 내세우고 있거든요. Anthropic의 Claude 역시 임상 추론에서 강점을 보이고 있고, 구글의 Med-PaLM 시리즈도 계속 업데이트되고 있어요. 한마디로 "범용 모델이 의료 도메인을 정조준하기 시작한 시기"라고 볼 수 있습니다.

한국 개발자에게 주는 시사점

헬스케어 스타트업이나 병원 IT 분야에 계신 분들에게는 직접적인 영향이 있어요. 의무기록 요약, 환자 분류, 보험 청구 자동화 같은 업무는 이미 LLM이 충분히 가치를 만들어내는 영역이거든요. 다만 한국은 의료법상 AI가 직접 진단을 내리는 건 엄격히 제한돼요. 그래서 "의사 결정 보조(Clinical Decision Support)" 형태의 제품 기획이 현실적이고, 이 경우 추론 과정의 설명 가능성과 출처 인용이 핵심 차별점이 됩니다. o1처럼 추론 과정을 공개하는 모델이 의료에서 유리한 이유도 여기에 있어요.

또한 의료가 아니더라도, "전문가 수준의 추론을 요구하는 도메인"에서 LLM을 어디까지 신뢰할 수 있는가라는 질문은 법률·금융·교육 모든 곳에 똑같이 적용됩니다. 이번 연구는 그 질문에 대한 흥미로운 데이터 포인트 하나가 추가된 거예요.