유의한 차이인가, 중요한 차이인가 – 효과크기의 의미

오늘날 수많은 연구가 “p값이 0.05보다 작았다”는 이유로 통계적으로 유의하다고 말한다. 그러나 그 차이가 실제로 중요하다는 뜻일까? 0.01의 p값이 나오면 반드시 연구 가설이 강하게 지지받는 것일까?

통계학은 이 질문에 신중하게 답한다. “그럴 수도 있지만, 그게 다는 아닙니다.” 바로 이 “그게 다가 아니다”를 설명하는 핵심 개념이 효과크기(Effect Size)이다.

효과크기란 무엇인가?

효과크기는 말 그대로 집단 간 차이나 변수 간 관계의 ‘규모’를 수치로 표현한 것이다. 즉, 차이가 ‘존재하는가’를 넘어서 ‘얼마나’ 차이가 있는지를 계량화한다.

  • 평균 차이가 2점인지 20점인지
  • 상관관계가 약한지 강한지
  • 치료 효과가 미미한지, 임상적으로 의미 있는 수준인지

이러한 질문에 대해 p값은 답하지 않는다. p값은 단지 “우연으로 보기 어려운가?”를 말해줄 뿐이다. 효과크기야말로 그 차이의 ‘실질적 중요성’을 말해주는 통계적 언어다.

왜 효과크기가 중요한가?

다음 두 문장을 비교해 보자.

  • “A집단과 B집단의 차이는 통계적으로 유의하였다 (p < 0.001).”
  • “A집단은 B집단보다 평균 1.2점 더 높았고, 효과크기는 작았다 (Cohen’s d = 0.15).”

1번 문장은 흥미롭지만 해석이 어렵다. 2번 문장은 차이가 실제로 작았으며, 그 차이가 ‘있긴 하지만 크지는 않다’는 사실을 분명히 알려준다. 요컨대 p값은 “차이가 있느냐”, 효과크기는 “차이가 얼마나 크냐”를 말한다.

효과크기의 주요 유형

효과크기는 분석 유형에 따라 여러 방식으로 계산된다. 대표적으로 다음과 같은 형태가 자주 사용된다.

분석 상황효과크기 지표의미
평균 차이 비교Cohen’s d두 집단 평균 차이의 표준화된 크기
비율/빈도 비교Risk Ratio, Odds Ratio한 사건이 다른 사건보다 얼마나 자주 일어나는지
분산분석η² (Eta squared)전체 변동 중 설명 가능한 비율
상관관계 분r (상관계수)두 변수 간 선형 관계의 강도

Cohen’s d: 평균 차이의 대표 효과크기

가장 널리 쓰이는 지표 중 하나는 Cohen’s d. 이 지표는 두 집단 간 평균 차이를 표준편차 단위로 환산한 것이다.

Cohen’s d = (M₁ – M₂) / SDpooled

이때 SDpooled는 두 집단의 표준편차를 평균 낸 값이다.

d값 해석효과크기
0.2 이하작음 (small)
0.5 전후중간 (medium)
0.8 이상큼 (large)

예를 들어 어떤 교육 프로그램이 학생 성적을 평균 5점 향상시켰다고 해도 표준편차가 20점이면 d = 0.25로 ‘작은 효과’에 해당한다. 즉, 차이는 있지만 크지 않다는 해석이 가능하다.

p값과 효과크기는 서로 보완적이다

효과크기가 크다고 해서 항상 p값이 작게 나오는 것은 아니다. 표본 수가 작으면 큰 효과도 통계적으로 유의하지 않을 수 있고, 반대로 표본 수가 너무 많으면 매우 작은 차이도 p < 0.001로 나올 수 있다. 다시 말해

  • p값은 표본 수와 변동성에 민감하다.
  • 효과크기는 실제 차이의 크기만 반영한다.

따라서 두 지표는 함께 해석할 때 의미가 정확해진다. 특히 실무나 정책 의사결정에서는 p값보다 효과크기가 더 중요할 수 있다.

실제 예시로 보는 차이

예시 1: 약물 효과 실험

  • 평균 혈압 감소: 2.5mmHg
  • p = 0.002 (통계적으로 유의함)
  • Cohen’s d = 0.18 (작은 효과)

→ 약은 분명 효과가 있지만 그 효과는 임상적으로는 미미할 수 있다.

예시 2: 교육 프로그램 평가

  • 학습 점수 증가: 10점
  • p = 0.12 (유의하지 않음)
  • Cohen’s d = 0.85 (큰 효과)

→ 표본이 적어 유의하지 않았지만, 실질 효과는 매우 큼. 추가 연구나 샘플 확장이 필요한 상황.

p값 vs 효과크기 비교

항목p값 (p-value)효과크기 (Effect Size)
정의귀무가설이 참일 때, 현재와 같은 데이터가 나올 확률변수 간 차이나 관계의 크기를 나타내는 값
목적차이의 유의성 검정 (우연인가 아닌가?)차이의 실질적 크기 평가 (중요한 차이인가?)
해석 중심“차이가 있는가?”“얼마나 차이가 있는가?”
결과 형태확률 수치 (0~1)크기 기준의 수치 (예: d, r, η² 등)
영향 요인표본 크기, 변동성에 민감표본 크기와 무관 (관계 자체의 크기만 반영)
통계적 오해p < 0.05면 ‘중요한 차이’라고 오해되기 쉬움수치만 보고 과대해석하면 실용성과 분리될 수 있음
적절한 활용유의성 판단 기준선 (예: 연구 초기 선별용)효과의 실질적 중요성 판단 (결과 해석의 핵심 도구)
표본 수가 커질 경우p는 작아지기 쉬움 (작은 차이도 유의하게 나옴)효과크기는 그대로 유지됨
보완 관계유의성만 보여줌 → 효과의 크기 없음크기만 보여줌 → 유의성 없음 → 반드시 함께 해석해야

p값이 작아도, 효과크기가 작을 수 있다. → 유의하더라도 “실제로는 큰 의미 없는 차이”일 수 있다.

효과크기가 커도 p값이 클 수 있다. → 표본 수가 작으면 유의하지 않게 나올 수 있다. (하지만 실질적 차이는 있음)

둘 다 함께 해석해야 한다. → 연구 결과의 신뢰성과 실용성을 동시에 평가하는 데 필수적이다.

주요 효과크기 지표 요약

상황효과크기 지표기준값 (작음/중간/큼)해석 예시
평균 차이 비교Cohen’s d0.2 / 0.5 / 0.8두 집단 평균이 얼마나 다른지 (표준편차 단위로)
상관관계 분석r (상관계수)0.1 / 0.3 / 0.5두 변수 간 관계의 방향과 강도
분산분석η² (Eta squared)0.01 / 0.06 / 0.14독립변수가 종속변수를 설명하는 비율
비율 차이 분석Risk Ratio, Odds Ratio1에 가까울수록 효과 작음사건 발생 비율 간 비교 (예: 질병 위험비)
회귀분석R² (결정계수)맥락에 따라 다양전체 변동 중 모형이 설명하는 비율

마무리하며

통계는 숫자 너머의 현실을 설명하고자 한다. 그러나 숫자가 말해주는 사실과 그 사실이 얼마나 중요한가를 말해주는 언어는 다르다. p값은 유의성의 문을 열어주고, 효과크기는 그 문 너머의 진짜 세계를 보여준다.

효과크기를 살피는 것은 단지 통계적 완성도를 높이는 일이 아니라 데이터가 말하고자 하는 맥락을 오해 없이 듣는 과정이다. 그래서 오늘날 더 많은 연구자들이 p값보다 효과크기를 먼저 말하고자 한다.

scroll to the top of the site