연구는 설계에서 시작된다 – 표본 수 산출의 원리와 실제

2024년 04월 10일
admin
Statistics
0 Comments

과학적 연구에서 가장 흔한 실수 중 하나는 데이터를 먼저 모으고 나서야 “이 정도면 충분했을까?”를 고민하는 것이다. 그러나 좋은 연구란 수집이 아니라 설계에서 시작된다. 특히 임상시험이나 보건학 연구처럼 사람의 건강과 생명이 걸린 분야라면 표본 수 산출(Sample Size Calculation)은 단지 ‘숫자의 문제’가 아니라 윤리적 책임에 해당한다.

왜 표본 수 산출이 중요한가?

표본 수는 통계분석의 결과뿐 아니라 연구의 신뢰성과 해석 가능성 전체를 결정한다.

1. 샘플이 너무 적으면?

→ 차이가 있어도 통계적으로 드러나지 않아 ‘유의하지 않다’는 결론을 낼 수 있다. (2종 오류 위험)

2. 샘플이 지나치게 많으면?

→ 사소한 차이도 p < 0.001로 나오며, 실제로는 중요하지 않은 효과를 ‘의미 있다’고 착각할 수 있다.
→ 자원의 낭비, 윤리적 부담, 참여자 위험 증가로 이어질 수 있다.

따라서 ‘얼마나 많이 모을까’가 아니라, ‘얼마가 적절한가’를 설계하는 일이 핵심이다.

표본 수 산출에 필요한 기본 요소

표본 수를 산출하려면 몇 가지 핵심 정보를 사전에 설정해야 한다.

항목	의미	예
효과크기 (Effect Size)	기대하는 차이의 크기	평균 혈압 5mmHg 차이 등
유의수준 (α)	1종 오류 허용 수준 (보통 0.05)	“차이 없음”을 잘못 기각할 확률
검정력 (Power, 1 – β)	2종 오류를 피할 확률 (보통 0.80 또는 0.90)	실제 차이가 있을 때 그걸 잡아낼 확률
검정 방법	사용 예정인 통계검정의 종류	독립표본 t검정, ANOVA, 회귀 등
분산 또는 표준편차	데이터의 흩어짐 정도	예: 혈압의 SD가 10mmHg 등

실제 도구: G*Power로 표본 수 계산하기

G*Power는 가장 널리 사용되는 무료 표본 수 계산 도구이다. 직관적인 UI와 다양한 분석 옵션 덕분에 임상 연구자와 대학원생들이 가장 많이 활용한다.

예시 1: 독립표본 t검정 (두 집단 간 평균 비교)

A약과 B약의 효과를 비교하기 위한 임상시험 설계 중이다. 기존 연구에 따르면 평균 혈압 차이는 약 5mmHg, 표준편차는 약 10mmHg로 보고되었다.

검정 방법: t-test (Means: Difference between two independent means, two groups)
효과크기: Cohen’s d = 0.5 (5 ÷ 10)
유의수준 α = 0.05
검정력(1–β) = 0.80
양측 검정

G*Power 입력 후 결과: 각 집단당 약 64명 필요, 총 128명이다. 이 조건 하에서 혈압 차이가 평균 5mmHg 정도인 경우 128명의 샘플이면 80% 확률로 유의한 결과를 관측할 수 있다.

예시 2: 상관분석 (Pearson’s r)

체중과 수면시간 간의 상관관계를 분석하려고 한다. 선행 연구에 따르면 두 변수 간 상관계수는 약 r = 0.30 수준으로 보고되었다.

검정 방법: Correlation: Bivariate normal model
예측 상관계수: r = 0.30
유의수준 α = 0.05
검정력(1–β) = 0.80
양측 검정

G*Power 입력 후 결과: 필요한 총 샘플 수는 약 84명이다. 상관계수 0.3이라는 중간 정도 관계를 80%의 확률로 유의하게 포착하려면 약 84명의 데이터가 필요하다.

효과크기가 작을수록, 또는 검정력이 높을수록 필요한 표본 수는 급격히 증가한다.

예시 3: 일원분산분석(One-way ANOVA)

3개의 식이요법 그룹(A, B, C)에 따른 체중 감소 효과 비교하려고 한다. 효과크기 f = 0.25 (Cohen 기준에서 중간 정도)로 예상되었다.

검정 방법: ANOVA: Fixed effects, omnibus, one-way
그룹 수: 3
효과크기: f = 0.25
유의수준 α = 0.05
검정력(1–β) = 0.80

G*Power 입력 후 결과: 필요한 총 샘플 수는 약 159명이고, 그룹당 약 53명이다. 식이요법 간 차이가 존재할 경우 이를 통계적으로 확인하려면 각 그룹에 최소 50명 이상이 필요하다.

효과크기 추정이 어렵다면?

현실에서는 사전에 효과크기를 추정하기 어려운 경우가 많다. 이럴 때는 다음과 같은 방법들이 활용된다.

선행 연구 참고: 기존 문헌에서 보고된 효과크기 또는 SD를 가져오기
파일럿 연구 수행: 소규모로 먼저 측정한 뒤 추정치 보정
보수적 가정: 작거나 중간 정도의 효과를 기준으로 가정

특히 임상시험의 경우 효과크기를 과대추정하면 샘플 수를 과소 산정하여 결국 연구가 무력화될 수 있다. 보수적 추정이 안전한 설계이다.

샘플 수 계산의 윤리성과 책임

의료보건 분야에서 표본 수 산정은 단순한 계산이 아니다.

환자에게 불필요한 개입을 줄이기 위해
자원을 효율적으로 사용하기 위해
통계적으로 타당한 결론을 내리기 위해
논문 심사와 IRB 승인 등 연구 윤리를 충족하기 위해

샘플 수 계산은 모든 연구계획서의 ‘기본 언어’이며, 그 자체가 연구 설계의 완성도를 말해주는 지표다.

마무리하며

연구란 무엇을 볼 것인가(연구문제) 못지않게 어떻게 볼 것인가(연구설계)가 중요하다. 그리고 그 설계의 핵심은
‘얼마나 볼 것인가(표본 수)’를 미리 정하는 일이다. 표본 수 산출은 예측이자 책임이며, 불확실한 세계를 신중하게 들여다보려는 과학자의 태도이다.