p값, 통계는 왜 이 숫자에 그렇게 집착하는가

학술 논문에서 “p < 0.05”라는 문장을 본 적이 있을 것이다. 많은 연구자가 이 수치를 기준 삼아 ‘유의하다’ 또는 ‘유의하지 않다’고 말한다. 심지어 논문의 채택 여부, 약의 효능 판단, 정책 검증까지도 이 숫자 하나에 달려 있기도 하다. 그렇다면 도대체 p값이란 무엇이며, 왜 통계학은 이 작고 민감한 숫자에 그렇게 많은 의미를 부여하는가?

p값은 확률이다. 그런데 무엇의 확률인가?

p값은 귀무가설이 참일 때, 지금처럼 극단적인 결과가 나올 확률이다. 여기서 말하는 귀무가설(null hypothesis)은 흔히 “차이가 없다”는 기본 전제다.

예를 들어 신약과 기존 약의 효과를 비교한다고 하자. 귀무가설은 “두 약의 효과 차이는 없다”는 주장이다. 이 상태에서 실험 결과가 너무 극단적으로 나온다면 우리는 이렇게 묻는다. “이 결과가 정말 우연일 수 있는가?”

p값은 바로 이 질문에 대한 답이다. 즉, 우연이라면 이런 결과가 나올 확률이 얼마인가? 그 확률이 충분히 낮다면 우리는 이렇게 결론짓는다. “이건 우연이 아니다. 차이가 있는 것이다.”

p < 0.05, 어디서 온 기준인가?

통계학에서는 보통 p값이 0.05보다 작을 경우 ‘통계적으로 유의하다’고 판단한다. 이는 전체적으로 볼 때 1종 오류(실제로는 차이가 없는데 있다고 판단하는 오류)를 5% 이내로 억제하겠다는 의미이다.

이 기준은 R.A. 피셔(R.A. Fisher)가 20세기 초 제안한 이래 통계학계와 과학계에서 널리 채택되어 왔다. 그러나 이 값은 ‘절대적 기준’이 아니라 실무적 타협에 가까운 약속이다.

분야에 따라 p < 0.01을 쓰기도 하고, 초기 연구나 탐색적 연구에서는 p < 0.10을 기준으로 삼기도 한다. 즉, p값의 기준은 연구의 맥락과 목적에 따라 달라질 수 있다.

p값이 작다는 것은 ‘차이가 있다’는 의미인가?

이 질문에 대해 많은 사람이 ‘그렇다’고 대답한다. 하지만 이는 절반만 맞는 설명이다.

p값이 작다는 것은 “귀무가설이 사실일 경우 이런 데이터가 나올 가능성이 매우 낮다”는 뜻이다. 이 말은 곧, 지금 관찰된 데이터는 귀무가설과 잘 어울리지 않는다는 뜻이지 대립가설이 참이라는 확증은 아니다.

p값은 언제나 귀무가설을 기준으로 계산된 확률이다. 대립가설이 참일 확률, 혹은 어떤 주장의 ‘진실성’을 직접적으로 보여주는 값은 아니다. 그런 해석은 통계적 오류이자, p값의 남용이다.

p값에 대한 대표적 오해들

1. p < 0.05면 대립가설이 참이다?

→ 아니오. 이는 단지 귀무가설이 데이터와 잘 맞지 않는다는 뜻일 뿐이다.

2. p값이 작으면 효과가 크다는 뜻인가?

→ 아니오. p값은 효과의 유의성(significance)만을 말하지 효과의 크기(effect size)를 말하지 않는다.

3. p값이 크면 귀무가설이 맞다는 뜻인가?

→ 그것도 아니다. p값이 크다는 것은 “귀무가설을 기각할 충분한 증거가 없다”는 뜻이지 귀무가설이 참이라는 증명은 아니다.

그래서 p값을 어떻게 봐야 하는가?

p값은 절대적 기준이 아니라, 맥락 속에서 해석해야 하는 통계적 신호이다. 단독으로 판단 기준이 되기보다는 연구의 타당성, 표본 크기, 효과 크기, 신뢰구간 등과 함께 종합적으로 고려되어야 한다.

오늘날 학술계에서도 p값만으로 연구의 진실성을 판단하는 방식에 대한 비판이 많아지고 있다. 이에 따라 일부 저널은 p값 대신 신뢰구간(confidence interval)이나 베이지안 확률, 효과크기 중심 해석을 권장하기도 한다.

마무리하며

p값은 단순한 숫자가 아니다. 그 안에는 과학적 회의주의, 검증의 겸손함, 오류에 대한 경계심이 담겨 있다. 우리는 p값을 통해 데이터가 말해주는 이야기를 우연과 인과의 경계에서 듣고자 하는 시도를 하고 있는 것이다.

그래서 통계는 언제나 이렇게 말한다. “그럴 수도 있지만, 아닐 수도 있습니다.” 그 조심스러운 태도야말로 숫자가 진실에 다가갈 수 있는 가장 신중한 길일 것이다.

scroll to the top of the site