40년 된 386 CPU의 메모리 파이프라인, 지금 읽어도 배울 게 많은 이유

왜 지금 386 이야기인가

1985년에 나온 인텔 80386. 요즘 개발자 입장에선 박물관에나 있을 법한 이름이죠. 그런데 한 개발자가 FPGA로 386을 재구현하면서 "메모리 파이프라인"을 분석한 글을 올렸는데, 이게 교과서처럼 잘 정리되어 있어서 읽을 가치가 충분해요. 단순한 레트로 취미가 아니라, 현대 CPU와 메모리 시스템의 뿌리가 여기서부터 시작됐기 때문이에요.

386이 왜 중요한 CPU냐면, 32비트 x86의 시작점이고, 보호 모드와 페이징이 본격적으로 들어간 첫 세대예요. 지금 우리가 쓰는 리눅스나 윈도우의 가상 메모리 개념이 이 칩에서 상용화된 기반 위에 올라가 있어요. 그래서 386의 메모리 파이프라인을 들여다본다는 건 곧 "현대 OS가 왜 이런 모양인지"를 이해하는 일이기도 해요.

메모리 파이프라인이 뭐냐면

CPU가 메모리에서 데이터를 가져오는 일은 단순해 보여도 속에서는 여러 단계를 거쳐요. 주소 계산 → 주소 변환(TLB 조회) → 버스 사이클 → 데이터 수신 이렇게 흐름이 이어지는데, 이걸 순차적으로 처리하면 CPU가 놀고 있는 시간이 많아져요. 메모리는 CPU보다 훨씬 느리거든요. 그래서 이 단계들을 컨베이어 벨트처럼 겹쳐서(pipelining) 진행하는 거예요. 현재 요청의 데이터가 도착하기를 기다리는 동안, 다음 요청의 주소를 미리 계산해두는 식이죠.

386에서는 이 파이프라이닝이 외부 버스 레벨에서 이루어져요. 특징적인 게 address pipelining 모드인데요, 현재 버스 사이클이 끝나기 전에 다음 사이클의 주소를 미리 버스에 내보내는 방식이에요. 이렇게 하면 외부 메모리 컨트롤러가 다음 접근을 준비할 시간을 벌 수 있어서, 느린 DRAM을 써도 CPU가 덜 대기하게 돼요. 지금으로 치면 out-of-order execution의 아주 초기적이고 단순한 형태라고 볼 수 있어요.

또 하나 재밌는 건 TLB(Translation Lookaside Buffer)의 등장이에요. 가상 주소를 물리 주소로 바꾸려면 페이지 테이블을 뒤져야 하는데, 이걸 매번 하면 너무 느려요. 그래서 최근에 변환했던 결과를 작은 캐시에 저장해두고, 다음번엔 거기서 바로 꺼내쓰는 거죠. 386 TLB는 32 엔트리짜리로 아주 작았지만, 이 구조가 지금까지도 거의 모든 CPU에 들어가 있어요. 단지 엔트리 수가 수백~수천 개로 늘어나고, 다단계로 쌓였을 뿐이에요.

FPGA 재구현이 말해주는 것

원 글의 저자는 Verilog로 386을 복제하면서 이 파이프라인을 실제 타이밍 다이어그램과 함께 그려냈어요. 원본 데이터시트를 따라가면서 각 핀이 언제 토글되는지, 어떤 상태 머신을 돌리는지 하나하나 추적하는 과정이죠. 이런 작업이 멋진 이유는 추상화의 바닥을 직접 만져볼 수 있다는 거예요. 우리가 평소에 malloc, mmap, 가상 메모리라고 부르는 것들이 결국 이런 하드웨어 동작 위에 얹힌 얇은 레이어라는 감각이 생기거든요.

현대 CPU는 여기서 훨씬 더 복잡해졌어요. 수퍼스칼라, 슈퍼파이프라인, 비순차 실행, 투기적 실행, 멀티레벨 캐시, 프리페처, 메모리 오더링 모델 등등. 그런데 386에서 출발해서 차근차근 쌓아올린 개념의 연속선 위에 전부 있어요. Spectre나 Meltdown 같은 취약점도 결국 "투기적 실행"이라는, 바로 이 파이프라이닝 아이디어를 극한으로 밀어붙이다 생긴 문제고요.

한국 개발자에게 주는 시사점

"나는 웹 개발자인데 이런 거 알아서 뭐하나" 싶으실 수 있어요. 솔직히 당장 실무에 바로 쓰이진 않아요. 그런데 성능 문제를 깊이 파고들 때 이런 바탕 지식이 결정적인 순간이 옵니다. 예를 들어 어떤 배열 접근 패턴은 빠르고 어떤 건 느린데, 이게 캐시 라인과 프리페처의 동작 때문이라는 걸 알면 최적화 방향이 바로 보여요. 데이터베이스가 왜 특정 쿼리에서 느려지는지, GC가 왜 스파이크를 만드는지도 결국은 메모리 계층과 지역성의 이야기로 돌아가요.

특히 임베디드, 시스템 프로그래밍, 게임 엔진, 고성능 서버, 커널 개발 쪽에 관심 있으신 분들이라면 이런 글이 금광이에요. 요즘은 Agner Fog의 최적화 매뉴얼, 인텔/AMD 옵티마이제이션 가이드 같은 게 방대하게 있는데, 이런 최신 자료를 읽기 전에 386 수준의 단순한 모델로 뼈대를 잡아두면 훨씬 이해가 쉬워요. 취미 수준에서 FPGA나 컴퓨터 구조에 관심 있으신 분들은 nand2tetris, ben eater의 8비트 컴퓨터 빌드, 혹은 이번 글처럼 실제 상용 CPU 재구현 프로젝트를 따라가보는 게 학습 경로로 훌륭해요.

FPGA 자체도 국내에서 AI 가속기, 네트워크 장비, 국방 쪽 수요가 꾸준히 있고, 이런 레트로 프로젝트가 포트폴리오에 있으면 "이 사람은 하드웨어 바닥까지 이해하는구나" 하는 강한 시그널이 돼요.