무슨 일이 있었냐면요
ChatGPT 같은 거대 언어 모델의 심장에는 트랜스포머(Transformer)라는 구조가 있고, 그 핵심엔 어텐션(Attention)이라는 메커니즘이 있어요. 이게 뭐냐면, 문장을 읽을 때 모든 단어를 똑같이 보는 게 아니라 "지금 중요한 단어에 더 주목(attention)"하도록 가중치를 주는 방식이에요. 사람이 글 읽을 때 핵심어에 시선이 머무는 것과 비슷하다고 해서 '어텐션'이라는 이름이 붙었죠.
그런데 이번에 PNAS Nexus에 실린 연구는 도발적인 질문을 던졌어요. "이 어텐션이 정말 인간의 '주의력'과 같은 걸까?" 결론부터 말하면, 연구진은 트랜스포머의 어텐션에 인간 같은 실행 제어(executive control) 능력이 부족하다고 봤어요.
실행 제어가 뭐냐면
인지과학에서 '실행 제어'는 뇌의 지휘자 역할을 하는 능력이에요. 산만한 정보를 누르고, 정말 중요한 것에만 의도적으로 집중하고, 방해 요소를 억제하는 힘이죠. 대표적인 실험이 스트룹 과제(Stroop task)예요. 빨간색 잉크로 쓴 "파랑"이라는 글자를 보고 잉크 색(빨강)을 말해야 하는데, 자꾸 읽히는 글자 뜻(파랑)을 억눌러야 하거든요. 이 억제력이 바로 실행 제어예요.
연구진의 핵심 주장은 이거예요. 트랜스포머의 어텐션은 "무엇이 무엇과 관련 있나"라는 연관성(상관관계)은 잘 포착하지만, "방해되는 정보를 의도적으로 억제하고 목표에 집중하는" 하향식(top-down) 통제는 약하다는 거죠. 사람의 주의력은 목표를 정해놓고 거기에 맞춰 능동적으로 자원을 배분하는데, 어텐션은 본질적으로 입력 데이터의 통계적 유사도에 따라 수동적으로 가중치가 정해지는 경향이 있다는 분석이에요.
왜 중요한가
이 차이가 실제 모델의 약점으로 드러나곤 해요. 예를 들어 긴 문서에서 중요한 한 줄을 찾아야 하는데 주변에 비슷하게 생긴 미끼 문장(distractor)이 많으면 모델이 헷갈리거든요. "관련 있어 보이는" 것에 끌려가서 정작 핵심을 놓치는 거죠. 프롬프트에 엉뚱한 문장을 슬쩍 끼워 넣으면 모델이 거기에 휘둘리는 현상도 같은 맥락으로 볼 수 있어요. 인간이라면 "이건 함정이지" 하고 억제할 텐데, 어텐션엔 그 억제 장치가 약하다는 거예요.
업계 맥락
사실 "트랜스포머를 인간 인지와 비교한다"는 흐름은 점점 뜨거워지고 있어요. 한쪽에선 LLM이 인간 같은 추론을 한다고 주장하고, 다른 쪽에선 "그냥 통계적 패턴 매칭일 뿐"이라며 선을 긋거든요. 이 연구는 후자에 무게를 싣는 신경과학·인지과학 진영의 목소리예요.
실무 기술 흐름과도 연결돼요. 최근 모델들이 단순히 어텐션만 키우는 대신, 체인 오브 소트(생각의 사슬, 단계별로 추론을 풀어쓰게 하기)나 도구 사용, 외부 메모리를 붙이는 이유가 바로 이 '실행 제어 부족'을 외부에서 보완하려는 시도로 해석할 수 있거든요. 모델 안에 지휘자가 약하니, 밖에서 절차를 강제해주는 거죠.
한국 개발자에게는
당장 코드를 바꿀 내용은 아니에요. 하지만 LLM을 다루는 사람이라면 시야를 넓혀주는 통찰이에요. "왜 우리 RAG 시스템이 비슷한 문서들 사이에서 자꾸 틀린 걸 집어올까", "왜 프롬프트 인젝션에 모델이 쉽게 휘둘릴까" 같은 실무 문제의 근본 원인을 이해하는 데 도움이 되거든요. 원인을 알면 대응도 달라져요. 검색 단계에서 미끼 문서를 걸러내는 리랭커를 강화하거나, 모델에게 "무엇을 무시해야 하는지"를 명시적으로 지시하는 식으로요.
마무리
핵심 한 줄: 트랜스포머의 '어텐션'은 인간의 '집중력'과 이름은 같지만, 방해 요소를 의도적으로 억제하는 통제 능력에선 분명한 차이가 있어요.
여러분은 어떻게 생각하세요? 이 한계는 구조 자체의 본질적 약점이라 새로운 아키텍처가 필요한 걸까요, 아니면 데이터와 학습 방법으로 충분히 메울 수 있는 걸까요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공