[심층분석] 한 명 + Claude Code = 투자 리서치 팀? 'AI 버크셔'로 보는 멀티 에이전트 설계의 진짜 교과서

Claude Code = 투자 리서치 팀? 'AI 버크셔'로 보는 멀티 에이전트 설계의 진짜 교과서" style="width:100%;border-radius:12px;margin-bottom:24px;">

"이 주식 살까?"라고 AI한테 물어본 적 있나요?

한 번쯤 챗봇에게 이렇게 물어본 적 있을 거예요. "테슬라 지금 사도 돼?" 그럼 돌아오는 답은 늘 비슷하죠. "한편으로는 성장성이 있지만, 다른 한편으로는 경쟁이 치열하고요... 투자는 본인 판단이 중요합니다." 틀린 말은 하나도 없는데, 막상 이걸로는 아무 결정도 못 내려요. 양쪽 다 맞는 말만 해주니까요.

오늘 소개할 xbtlin/ai-berkshire라는 프로젝트는 바로 이 문제에서 출발해요. 이름이 '버크셔'인 이유는 워런 버핏의 투자회사 '버크셔 해서웨이'에서 따온 거고요. 핵심은 Claude Code 위에 가치투자 리서치 프레임워크를 통째로 만들어버린 것이에요. 단순히 프롬프트 하나 잘 짠 수준이 아니라, 버핏·찰리 멍거·돤융핑·리루(중화권의 유명 가치투자자들이에요) 네 거장의 방법론을 시스템으로 구조화하고, 여러 AI 에이전트가 서로 토론하게 만든 거죠.

그런데 우리가 주목할 건 '투자로 돈 벌었다더라'가 아니에요. 진짜 흥미로운 건 이 프로젝트가 멀티 에이전트 시스템을 어떻게 설계했느냐거든요. 요즘 AI 에이전트 만든다는 프로젝트는 넘쳐나는데, 대부분 "여러 AI를 띄웠어요"에서 끝나요. ai-berkshire는 그 한 단계 위, '어떻게 하면 AI가 그럴듯한 거짓말을 안 하게 만들까'까지 파고들었어요. 이게 개발자 입장에서 진짜 배울 점이에요.

Skill, 그게 뭔데요?

먼저 기반 기술부터 짚고 갈게요. 이 프로젝트는 Claude Code의 'Skill(스킬)' 위에 만들어졌어요.

Skill이 뭐냐면, 쉽게 말해 AI에게 미리 준비해둔 '업무 매뉴얼 + 도구 세트'를 통째로 건네주는 것이에요. 신입사원이 들어왔을 때 "이런 상황엔 이렇게 처리하고, 이 양식 써서 보고하고, 계산은 이 엑셀로 해"라고 적힌 사내 매뉴얼을 주는 것과 비슷해요. AI가 매번 백지에서 고민하는 게 아니라, 정해진 절차와 형식을 따르게 만드는 거죠.

ai-berkshire의 레포지토리 구조를 보면 skills/, tools/, scripts/, reports/, data/ 같은 폴더들이 보여요. 각각이 'AI가 따라야 할 분석 절차', '계산용 도구', '결과 보고서 양식' 같은 거예요. 즉, 한 번 잘 만들어두면 누구나 "OO 회사 분석해줘" 한마디로 똑같은 품질의 리서치 보고서를 뽑아낼 수 있게 설계한 거죠.

핵심 1: 네 명이 '싸우게' 만든다 — 대립적 멀티 에이전트

여기서 제일 영리한 설계가 나와요. 보통 "멀티 에이전트"라고 하면 여러 AI가 사이좋게 협력하는 그림을 떠올리잖아요. 그런데 ai-berkshire는 일부러 AI들을 서로 충돌하게 만들어요. 이걸 '대립적(adversarial) 분석'이라고 부르는데요. 쉽게 말해 AI끼리 일부러 말싸움을 시키는 것이에요.

오케스트레이션이라는 말도 같이 알아두면 좋아요. 오케스트레이션이란 게 뭐냐면, 쉽게 말해 여러 AI가 각자 맡은 역할을 하도록 한 명의 지휘자가 조율하는 것이에요. 오케스트라 지휘자가 바이올린, 첼로, 관악기를 각각 다른 타이밍에 들어오게 하는 것처럼요.

ai-berkshire에서는 네 명의 거장이 각각 하나의 '역할(페르소나) 에이전트'가 돼요. 똑같은 회사를 분석해도 시각이 완전히 달라요. 핀둬둬(중국의 이커머스 기업)를 예로 보면:

돤융핑 (비즈니스 모델 담당): "사업 모델이 훌륭해, 따라 하기 어려운 구조야" → 3.7점
버핏 (재무·밸류에이션 담당): "현금 빼면 PER이 6.3배밖에 안 돼, 완전 돈 찍는 기계네" → 4.4점
멍거 (역발상 담당): "해자(경쟁 우위)가 생각보다 얕아, 경쟁자가 3년 만에 따라잡았잖아" → 3.5점
리루 (장기 확실성 담당): "경영진 문화에 위험 신호가 있어, 10년 뒤는 불확실해" → 2.0점

버핏은 "진짜 싸다"는데 리루는 "불확실하면 안 산다"고 해요. 이 충돌 자체가 결과물이에요. 사람도 의사결정할 때 머릿속에서 여러 목소리가 다투잖아요. 단일 프롬프트로는 이런 다각도 긴장감을 절대 못 만들어내요. 한 명의 AI한테 "네 거장 시각으로 분석해줘"라고 하면, 결국 한 입으로 네 명 흉내를 내느라 두루뭉술해지거든요. 각 시각을 독립된 에이전트로 분리했기 때문에 진짜 모순이 살아남는 거예요.

핵심 2: AI가 '그럴듯한 거짓말'을 못 하게 막는 장치

개발자라면 이 부분이 제일 와닿을 거예요. AI의 진짜 위험은 틀린 답을 주는 게 아니라, 틀렸는데 너무 그럴듯해서 검증하기 전엔 모르는 답을 주는 거잖아요. ai-berkshire는 이걸 막으려고 여러 안전장치를 절차 안에 박아뒀어요.

정보 풍부도 등급(A/B/C): "자료가 많다 = 확실하다"는 착각을 막아요. 자료가 부족한 회사는 B등급으로 표시하고, 추정한 수치엔 신뢰도를 따로 붙여요.
멍거식 역방향 검증: 강제로 실패 시나리오를 상상하게 해요. "이 회사가 망한다면 어떤 경우일까?"를 먼저 묻고 5가지 시나리오와 확률을 뽑게 하죠.
빠른 거부 리스트(레드라인): 8개의 '한 방에 탈락' 조건을 둬요. 예를 들어 경영진 정직성에 흠이 있으면, 아무리 주가가 싸도 그냥 탈락이에요.
반(反)컨센서스 체크: 시장 다수 의견과 똑같으면 일부러 의심해요. "똑똑한 사람들이 왜 이 주식을 공매도하지?"를 물어서 놓친 위험을 찾아내요.
여백 원칙: 모르면 그냥 "모른다"고 쓰게 해요. 데이터가 부족하면 '회색지대'라고 솔직하게 표시하고, 추측을 확신인 척 포장하지 않아요.

이게 바로 요즘 LLM 애플리케이션 설계에서 가장 중요한 주제인 할루시네이션(환각, AI가 그럴듯하게 지어내는 현상) 억제를 도메인 지식으로 풀어낸 사례예요. 모델 자체를 못 믿으니까, 프로세스로 못 거짓말하게 가둔 거죠.

핵심 3: 계산은 AI한테 안 시킨다

또 하나 똑똑한 결정이 있어요. 숫자 계산을 LLM한테 맡기지 않는다는 거예요.

LLM은 의외로 산수에 약해요. PER 계산하다 소수점 하나 틀리거나, 시가총액 단위를 홍콩달러와 위안화로 헷갈리면 투자 결론이 완전히 뒤집히죠. 실제로 텐센트를 분석할 때 출처마다 '홍콩달러 억'과 '위안화 억'이 섞여 있어서 문제가 됐다고 해요. 그래서 ai-berkshire는 tools/와 scripts/에 별도 계산 도구를 두고, 정확성이 중요한 부분은 코드로 처리하게 했어요.

이건 "AI는 판단하고, 코드는 계산한다"는 역할 분리의 좋은 예시예요. AI 앱 만들 때 자꾸 모든 걸 모델한테 떠넘기고 싶은 유혹이 있는데, 정확성이 생명인 부분은 결정론적인(항상 같은 결과가 나오는) 코드에 맡기는 게 정답이에요.

다른 에이전트 프레임워크랑 뭐가 다를까?

AutoGPT, CrewAI, LangGraph 같은 멀티 에이전트 도구들 들어보셨을 거예요. 이것들과 비교하면 ai-berkshire의 성격이 또렷해져요.

CrewAI/AutoGPT 류가 "에이전트들을 어떻게 띄우고 연결할까"라는 범용 뼈대를 제공한다면,
ai-berkshire는 "투자 리서치라는 한 분야에 도메인 지식을 얼마나 촘촘히 녹여넣을 수 있나"를 보여주는 수직 특화 사례예요.

비유하자면, 전자는 '주방 설비 세트'를 파는 거고, 후자는 '특정 셰프의 레시피북'인 거죠. 빈 프레임워크만 있으면 결국 "그래서 뭘 어떻게 시키지?"에서 막혀요. ai-berkshire의 진짜 가치는 화려한 기술이 아니라, 거장들의 사고방식을 검증 가능한 체크리스트와 절차로 번역해낸 도메인 설계력에 있어요. 그리고 Claude Code와 Codex 양쪽에서 모두 돌아가게 만들어, 특정 도구에 종속되지 않게 한 점도 실용적이에요.

한국 개발자에게 — 이 패턴, 그대로 훔쳐 쓰세요

투자에 관심 없어도 괜찮아요. 이 설계 패턴은 어떤 전문 분야에든 복사할 수 있거든요.

핵심 레시피는 이거예요. ① 한 분야의 서로 다른 전문 관점을 독립 에이전트로 분리하고, ② 일부러 충돌시켜 사각지대를 드러내고, ③ 레드라인·역방향 검증 같은 반편향 장치를 절차에 박아넣고, ④ 정확성이 중요한 부분은 코드로 처리하는 거죠.

구체적인 활용 시나리오를 들어볼게요.

코드 리뷰 에이전트: '보안 담당', '성능 담당', '가독성 담당' 에이전트를 따로 두고 같은 PR을 서로 다른 기준으로 깐 다음, 충돌하는 지점만 사람한테 보고하게 만들기.
계약서/법률 검토: '회사에 유리한 관점'과 '상대방 관점' 에이전트를 대립시켜 독소조항 찾기.
채용 서류 심사: '낙관적 평가자'와 '회의적 평가자'를 붙여 한쪽으로 치우친 판단 방지.

학습 로드맵을 제안하자면, 먼저 Claude Code의 Skill 문서를 가볍게 읽어보고요, 자기 업무에서 "AI한테 시켰더니 두루뭉술해서 못 쓰겠던" 일을 하나 골라보세요. 그걸 ai-berkshire의 레포를 참고해서 ① 관점 분리 → ② 충돌 설계 → ③ 레드라인 추가 순으로 작게 만들어보면, 멀티 에이전트의 감을 가장 빨리 잡을 수 있어요.

마무리하며

ai-berkshire가 던지는 메시지는 분명해요. 이제 경쟁력은 '얼마나 좋은 모델을 쓰느냐'가 아니라 '모델을 어떻게 설계해서 쓰느냐'로 넘어가고 있다는 거예요. 똑같은 Claude를 쓰는데도, 두루뭉술한 답을 받는 사람과 결정 가능한 리포트를 받는 사람의 차이는 결국 '워크플로 설계'에서 갈리거든요.

앞으로는 이렇게 특정 분야에 전문가의 사고방식을 통째로 인코딩한 '버티컬 에이전트'들이 분야마다 쏟아질 거라고 봐요. 빈 프레임워크 경쟁은 끝나가고, 도메인 지식을 절차로 번역하는 사람이 진짜 가치를 만드는 시대가 오는 거죠.

자, 그래서 여러분께 묻고 싶어요. 여러분 업무 중에서 'AI한테 시켰더니 양쪽 다 맞는 말만 해서 못 써먹겠던' 일은 뭔가요? 그리고 거기에 '대립하는 두 관점 에이전트'를 붙인다면 어떤 역할을 만들어보고 싶으세요? 댓글로 같이 아이디어 나눠봐요.

🔗 출처: GitHub

[심층분석] 한 명 + Claude Code = 투자 리서치 팀? 'AI 버크셔'로 보는 멀티 에이전트 설계의 진짜 교과서

"이 주식 살까?"라고 AI한테 물어본 적 있나요?

Skill, 그게 뭔데요?

핵심 1: 네 명이 '싸우게' 만든다 — 대립적 멀티 에이전트

핵심 2: AI가 '그럴듯한 거짓말'을 못 하게 막는 장치

핵심 3: 계산은 AI한테 안 시킨다

다른 에이전트 프레임워크랑 뭐가 다를까?

한국 개발자에게 — 이 패턴, 그대로 훔쳐 쓰세요

마무리하며

이어서 읽을 만한, 세 편.

로그인

추가 정보 입력

회원가입

수강 신청

비밀번호 찾기