무질서 속의 질서, 중심극한정리

2023년 08월 10일
admin
Statistics
0 Comments

통계를 가르치다 보면 언젠가 반드시 이 문장과 마주하게 된다. “표본평균은 정규분포를 따른다.” 그런데 실제 데이터를 들여다보면, 그렇지 않은 경우가 훨씬 많다. 현실의 데이터는 찌그러져 있거나 한쪽으로 기울었거나, 뾰족하거나, 들쭉날쭉하다. 그럼에도 통계학은 놀랍도록 정확하게 예측하고 설명한다. 이 역설을 가능하게 만드는 핵심 개념이 바로 중심극한정리(Central Limit Theorem, CLT)이다.

중심극한정리는 무엇인가

중심극한정리는 다음과 같은 내용을 말한다.

어떤 모집단이 어떤 분포이든 상관없이 그로부터 동일한 크기의 표본을 여러 번 뽑아 표본평균을 구하면 그 평균들의 분포는 정규분포에 가까워진다.

여기서 핵심은 ‘모집단이 어떤 분포를 따르든’이라는 전제이다. 즉, 원래의 데이터가 꼭 정규분포일 필요는 없다. 오히려 대부분의 현실 자료는 정규분포와 거리가 있다. 그런데도 일정한 조건만 충족되면 표본평균들의 분포는 점점 정규분포에 수렴한다.

이처럼 중심극한정리는 통계학이 수많은 현실 데이터를 다룰 수 있는 이론적 기반을 제공한다. 통계적 추정과 가설검정, 신뢰구간 설정 등 수많은 분석이 정규분포를 전제로 작동하는 이유도 여기에 있다.

왜 이것이 중요한가

실제 조사나 실험에서 우리는 전체 모집단을 조사할 수 없기 때문에 일부 표본만 가지고 전체를 추정해야 한다. 이때 중심극한정리는 우리에게 이런 메시지를 준다. “너무 걱정하지 말라. 표본이 충분히 크다면, 그 평균은 정규분포를 따른다고 봐도 좋다.”

이 정리는 표본 크기가 커질수록 더욱 강력하게 작용한다. 일반적으로는 표본 수가 30개 이상이면 중심극한정리를 적용할 수 있다고 본다. 물론 모집단의 분포가 극단적으로 비대칭이거나 첨도가 크다면 더 큰 표본이 필요할 수 있다. 하지만 표본 수가 많아질수록 평균의 분포는 예외 없이 정규분포로 수렴한다는 원리는 변하지 않는다.

실제 사례로 보는 중심극한정리

가장 대표적인 예는 주사위다. 주사위를 한 번 굴리면 1부터 6까지의 값이 모두 같은 확률로 나온다. 이것은 ‘균등분포’이며 정규분포가 아니다. 하지만 이 주사위를 10번, 30번, 100번씩 굴려서 그 평균을 여러 번 구해본다면 이 평균들의 분포는 점점 종 모양, 즉 정규분포에 가까워진다.

이것이 중심극한정리이다. 무작위성과 불규칙 속에서도 반복과 평균이 만들어내는 질서가 존재한다는 것이다.

중심극한정리의 조건

중심극한정리는 매우 강력한 정리이지만 다음 조건은 있다. 이 조건이 충족되면 어떤 분포에서든지 그 평균은 정규분포를 따른다고 기대할 수 있다.

1. 표본은 독립적으로 추출되어야 한다.

즉, 하나의 표본이 다른 표본의 값에 영향을 주지 않아야 한다.

2. 표본의 크기는 충분히 커야 한다.

일반적으로 n ≥ 30을 기준으로 삼지만, 이는 경험적 기준이다. 분포의 비대칭 정도나 분산에 따라 더 큰 표본이 필요할 수도 있다.

3. 모집단의 분산은 유한해야 한다.

무한한 분산을 가진 분포에서는 이 정리가 성립하지 않는다. 현실의 대부분 데이터는 이 조건을 만족한다.

통계의 실용성은 여기서부터 시작된다

많은 통계 기법은 정규분포를 기반으로 만들어져 있다. 평균의 신뢰구간, t-검정, 회귀분석, 분산분석 등 수많은 분석들이 중심극한정리 덕분에 실무에서 유효하게 작동한다. 우리는 복잡한 데이터의 구조를 정확히 몰라도 그 평균이 대체로 어디에 위치할지를 추정할 수 있다.

즉, 중심극한정리는 복잡한 현실을 단순화할 수 있는 이론적 안전장치이다. 정확히 계산하기 어려운 세상을 예측 가능하게 만드는 도구인 셈이다.

마무리하며

중심극한정리는 단지 하나의 수학적 정리가 아니다. 이는 무작위성과 불확실성 속에서도 반복과 구조, 평균과 안정성의 원리가 작동한다는 통계학의 철학이다. 혼란스러운 데이터 속에서도 규칙을 찾고자 하는 과학적 시도는 이 정리를 통해 더욱 단단한 근거를 갖게 된다.

복잡하고 불완전한 현실을 수치로 설명하려는 모든 분석은 결국 이 정리 위에 서 있다고 해도 과언이 아니다.