처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.06.11 32

사라졌던 'Papers with Code'가 부활했다 — ML 연구자의 보물창고 복원기

Hacker News 원문 보기
사라졌던 'Papers with Code'가 부활했다 — ML 연구자의 보물창고 복원기

머신러닝 연구자들의 보물창고가 돌아왔다

ML이나 AI를 공부하면서 논문을 직접 구현해본 사람이라면 'Papers with Code(페이퍼스 위드 코드)'라는 이름을 한 번쯤 들어봤을 거예요. 논문 하나하나에 그걸 실제로 구현한 깃허브 코드를 연결해주고, 어떤 데이터셋에서 어떤 모델이 제일 성능 좋은지(이걸 SOTA, State-of-the-art, 즉 '현존 최고 성능'이라고 해요) 순위표까지 깔끔하게 정리해주던 사이트였거든요. 그런데 이 고마운 서비스가 운영 종료되면서 많은 사람이 아쉬워했는데, 커뮤니티가 이걸 되살리려는 움직임을 보이고 있어요.

Papers with Code가 뭐였냐면

논문을 읽다 보면 가장 답답한 순간이 있어요. "이 모델 좋아 보이는데, 그래서 코드는 어디 있지?" 하는 거죠. 논문에는 수식과 그래프만 가득하고, 정작 돌려볼 수 있는 구현체는 찾기가 막막할 때가 많거든요. Papers with Code는 바로 그 간극을 메워줬어요. 논문(주로 arXiv에 올라온)과 그 논문을 구현한 깃허브 저장소를 짝지어 보여줬고요.

여기에 더해 진짜 강력했던 기능이 '리더보드(leaderboard)'였어요. 예를 들어 이미지 분류 분야의 ImageNet 데이터셋을 누르면, 역대 모델들이 정확도 순으로 쭉 정렬돼 나와요. 그 옆엔 논문 링크와 코드 링크가 같이 붙어 있고요. "지금 이 분야에서 제일 잘하는 게 뭐고, 그건 어떻게 만들었나"를 한눈에 파악할 수 있었던 거죠. 데이터셋 목록, 평가 지표(metric) 정리, 방법론 분류까지 갖춰져 있어서, 새 연구를 시작하는 사람한테는 거의 출발 지도 같은 역할을 했어요.

왜 이게 그렇게 중요했을까 — 재현성 이야기

여기서 'reproducibility(재현성)'라는 개념을 짚고 갈게요. 과학 연구는 누가 따라 해도 같은 결과가 나와야 신뢰할 수 있잖아요. 그런데 AI 논문 중에는 "우리 모델이 최고예요"라고 주장만 하고 코드는 공개 안 하는 경우가 꽤 있었어요. 그러면 다른 사람이 검증할 수도, 그 위에 쌓아 올릴 수도 없죠. Papers with Code는 '코드가 있는 논문'을 한데 모아 보여줌으로써, 자연스럽게 "코드를 공개하는 게 당연하다"는 문화를 밀어준 면이 있어요. 단순한 검색 도구를 넘어 분야 전체의 투명성을 끌어올린 인프라였던 셈이에요.

부활 — 커뮤니티가 다시 살려낸다는 것

이런 핵심 자산이 사라지자, 누군가가 그 데이터와 정신을 이어받아 복원하는 프로젝트를 시작했어요(paperswithcode.co). 이게 의미 있는 건, 단지 옛 사이트의 화면을 흉내 내는 게 아니라 '공공재 성격의 지식 인프라는 한 회사의 운영 사정에 좌우되면 안 된다'는 메시지를 담고 있기 때문이에요. 특정 기업이 호스팅하던 서비스가 어느 날 갑자기 닫히면, 거기 쌓여 있던 수년치 정리·연결 작업이 통째로 증발하잖아요. 커뮤니티 주도 복원은 그 취약함에 대한 일종의 대응인 거죠.

업계 맥락 — 대안들과 비교하면

Papers with Code의 빈자리를 일부 메워온 곳들도 있어요. Hugging Face의 'Papers' 섹션은 최신 논문과 거기 연결된 모델·데이터셋을 보여주고, 실제로 모델을 바로 돌려볼 수 있는 생태계와 붙어 있다는 게 강점이고요. 논문 간의 인용 관계를 시각적으로 보여주는 Connected Papers, 의미 기반 검색이 강한 Semantic Scholar, 그리고 원본 저장소인 arXiv도 있죠. 다만 '벤치마크별 리더보드 + 코드 연결'이라는 조합을 한곳에서 그렇게 체계적으로 제공한 건 Papers with Code가 거의 독보적이었어요. 그래서 대안이 여럿 있어도 "딱 그거"를 그리워하는 목소리가 많았던 거고요.

한국 개발자·연구자에게 주는 시사점

논문을 구현하거나 벤치마크를 따라잡아야 하는 대학원생, 그리고 사내에서 모델 도입을 검토하는 ML 엔지니어한테 이건 꽤 반가운 소식이에요. 새 과제를 받았을 때 "이 분야의 현재 최고 모델과 그 코드"를 빠르게 훑는 출발점이 다시 생기는 거니까요. 또 하나, 우리가 평소 의존하는 무료 개발 인프라—문서 사이트, 패키지 저장소, 데이터셋 허브 같은 것들도 영원하지 않다는 교훈도 줘요. 중요한 자료는 북마크에만 의존하지 말고 핵심 데이터를 로컬이나 사내에 백업해두는 습관, 그리고 가능하면 이런 오픈 복원 프로젝트에 데이터·코드로 기여하는 것도 생태계를 지키는 한 방법이에요.

마무리

핵심은 "연구를 굴러가게 하는 공용 인프라는 누군가 계속 돌봐야 살아남는다"는 거예요. 여러분은 논문 구현할 때 주로 어떤 사이트에서 코드를 찾으세요? Papers with Code가 없던 동안 어떤 대안으로 버텼는지, 그리고 이런 공공재 성격의 서비스를 지속 가능하게 운영하려면 뭐가 필요할지 같이 얘기해봐요.


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

파이썬으로 자동화를 시작해보세요

파이썬 기초부터 자동화까지 실전 강의.

파이썬 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.