어느 날 논문 한 편을 읽는다. 분석 과정은 정교하고, 결과는 흥미롭다. 그런데 이상하게도 따라 할 수가 없다. 동일한 데이터를 얻을 수 없고, 분석 코드도 제공되지 않으며, 변수 정의조차 모호하다. 연구의 결과만 남고, 그 과정을 확인할 수 없다면 우리는 그것을 과연 ‘과학’이라 부를 수 있을까?
이 질문의 중심에는 ‘재현성(reproducibility)’이 있다. 재현성이란 어떤 연구자가 수행한 분석을 다른 연구자가 동일한 자료와 절차를 사용해 같은 결과를 얻을 수 있는 상태를 말한다. 이는 단순히 실험을 한 번 더 반복해보는 것을 넘어 연구 과정 전반이 투명하게 공개되고 검증 가능해야 한다는 과학적 기본 원칙이다.
재현성, 그리고 신뢰성의 차이
종종 ‘재현성’과 ‘신뢰성(reliability)’이 혼용되기도 한다. 그러나 둘은 엄연히 다르다.
신뢰성은 동일 조건에서 측정 결과가 일관되게 나오는지를 의미하며, 주로 심리측정, 설문지, 검사도구 등에서 다루어진다. 반면 재현성은 연구 전체가 제3자에 의해 반복 가능하다는 과학적 투명성의 문제이다.
즉, 신뢰성은 도구의 문제이고, 재현성은 과정의 문제이다. 그리고 후자가 확보되지 않으면 어떠한 연구도 과학적 주장으로서 존립할 수 없다.
재현성이 중요한 이유
재현성은 과학의 근간을 이루는 원칙이자 지식 축적의 유효성을 평가하는 핵심 기준이다. 한 번의 분석으로 얻은 결론은 강력한 주장일 수 없다. 그 결과가 반복될 수 있어야만 비로소 보편적 지식으로서의 자격을 갖춘다.
특히 사회과학이나 보건의료 분야처럼 정책과 실천으로 연결되는 분야에서는 재현성이 없다는 사실만으로도 사회적 위험이 된다. 신약의 효과, 교육 프로그램의 성과, 복지 제도의 효용 모두 단순한 발견이 아닌 반복 가능한 사실이어야만 설득력을 가진다.
그럼에도 최근 학계에서는 ‘재현성 위기’라는 말이 공공연하게 등장한다. 심리학, 경제학, 심지어 의학에서도
유명 저널에 실린 연구들조차 절반 가까이 재현되지 않는 사례가 보고되었다. 이는 단지 특정 연구자 개인의 문제를 넘어 출판 구조와 학문 시스템 자체의 왜곡을 보여주는 현상이다.
무엇이 재현성을 위협하는가
1. 불투명한 분석 절차
논문에 명시된 통계모형은 복잡하지만 데이터 전처리 방식이나 변수 계산 과정은 종종 생략된다. 데이터는 비공개이고, 코드 역시 제공되지 않는다. 이런 경우 독자는 결과만 보게 되며, 그 결과가 어떤 전제 아래 나왔는지를 파악할 수 없다.
2. 선택적 보고와 유의성 편향
유의한 결과만을 발표하려는 심리, 출판을 위한 p값 중심의 분석(p-hacking), 사후적 분석 결과를 마치 계획된 가설인 것처럼 포장하는 관행은 결국 연구 결과의 신뢰도를 떨어뜨린다.
3. 기술적 접근의 미흡
복잡한 소프트웨어 환경이나 통계 알고리즘이 사용되었지만 그 실행 조건, 패키지 버전, 무작위 설정 등이 명확히 기록되지 않아 다른 컴퓨터 환경에서 동일한 결과가 재현되지 않는 일도 흔하다.
어떻게 재현성을 확보할 수 있는가?
재현성을 확보하는 길은 단순히 코드나 데이터를 공개하는 것 이상이다. 그것은 연구 설계부터 해석, 공유까지 전 과정에서의 투명성과 정직성을 의미한다.
1. 연구 설계 단계
사전등록(pre-registration)을 통해 분석 계획을 명시한다. 연구 가설, 분석 모형, 변수정의를 문서화한다.
2. 데이터 수집과 분석 단계
원자료(raw data)와 처리 코드를 제공한다. 분석환경 및 사용 패키지를 명시한다 (예: R 버전, 라이브러리 목록).
3. 결과 공유 단계
코드북(codebook) 및 설명문서를 작성한다. GitHub, OSF(Open Science Framework) 등의 플랫폼을 활용한다.
이러한 절차는 학문적 진실성을 보호할 뿐 아니라 후속 연구자에게 지식 재사용과 확장의 기회를 제공한다.
통계 분석 실무에서의 재현성 확보
통계학은 본질적으로 반복과 검증의 학문이다. 따라서 통계 분석에서 재현성은 단순한 덕목이 아니라 실무의 기본이다. 분석자는 데이터를 전처리할 때 결측치 처리 방식, 변수 파생 공식, 이상치 판단 기준 등을 코드와 함께 명확히 문서화해야 한다. 모형을 설정할 때는, 어떤 통제변수가 포함되었는지, 상호작용 항은 어떤 방식으로 구성되었는지를 논문 본문 또는 별도 부록에서 설명해야 한다.
무작위 분석에는 난수 고정(seed 설정)이 필수이며, 그래프 시각화도 축 범위, 색상, 기준선 처리 등이 동일하게 구현될 수 있어야 한다. 이런 재현성 확보는 단지 후속 연구자를 위한 배려가 아니다. 그 자체로 연구자의 정밀성과 책임감을 증명하는 증거이기도 하다.
- 데이터 전처리 코드 포함 (결측치 처리, 이상값 조정 등)
- 모델 파라미터 명시 (기저모형, 통제변수 등)
- 랜덤 시드 고정 (무작위 결과 반복 가능하게 설정)
- 시각화 기준 통일 (그래프 스케일, 색상 등)
오픈 사이언스와 새로운 연구 문화
최근에는 재현성 확보를 넘어서 지식 공유를 중심에 둔 오픈 사이언스(Open Science)가 새로운 흐름으로 자리잡고 있다. 이는 단순히 데이터를 공개하는 것이 아니라 연구 과정 전반을 동료와 사회에 열어두는 태도를 의미한다.
연구자는 GitHub, OSF(Open Science Framework) 등에서 자신의 데이터, 분석 코드, 해석 노트를 함께 제공하며
연구의 전 과정을 아카이빙하고 있다. 이는 학문의 신뢰도를 높이는 동시에 지식의 재사용성과 공동 작업의 효율성도 높이는 방식이다.
- Open Data: 누구나 접근 가능한 데이터 공유
- Open Code: 분석 절차와 코드 공개
- Open Review: 리뷰 과정 투명화
- Open Access: 논문 접근성 보장
재현성은 단지 기술의 문제가 아니라 지식의 소유가 아니라 공유를 중심으로 하는 새로운 연구문화의 실천이기도 하다.
마무리하며
재현성은 기술이 아니라 태도이다. 그것은 ‘내가 맞다’를 주장하는 것이 아니라 ‘누구나 확인할 수 있다’는 방식으로 신뢰를 쌓는 행위이다. 데이터 분석을 마무리하며, 연구자는 자신에게 이렇게 물어야 한다.
“다시 해도 같은 결과가 나오는가?” “다른 이가 이 과정을 보고, 따라 해볼 수 있는가?” 그 대답이 ‘그렇다’일 수 있다면 그 연구는 비로소 통계학의 언어로 쓰인 믿을 수 있는 과학적 진술이라 할 수 있다.