확률표본추출과 비확률표본추출, 누굴 뽑느냐가 결과를 바꾼다

통계는 말 그대로 ‘전체를 말하지 않고도 전체를 이해하려는 시도’이다. 현실에서 모든 대상을 조사하는 것은 거의 불가능에 가깝다. 그래서 우리는 일부만을 뽑아 전체를 대표시키는 방식을 택한다. 이때 그 ‘일부’를 어떻게 뽑는가, 즉 표본추출(sampling)의 방식이 조사의 품질을 좌우하는 첫 번째 결정이 된다.

표본추출은 크게 확률표본추출(probability sampling)과 비확률표본추출(non-probability sampling)로 나뉜다. 이 두 방식은 표본이 뽑히는 ‘기회’가 균등한가 아닌가에 따라 구분되며, 그에 따라 연구 결과의 일반화 가능성, 신뢰도, 해석의 범위가 달라진다.

확률표본추출: 누구나 뽑힐 가능성이 있는 구조

확률표본추출은 모집단 내의 모든 구성원이 정의된 확률에 따라 표본으로 선택될 수 있는 기회를 갖는 방식이다. 대표적인 유형과 사례는 다음과 같다.

1. 단순무작위추출 (Simple Random Sampling)

개념: 모집단에 속한 모든 대상에게 번호를 부여한 후 난수표나 컴퓨터 프로그램을 통해 무작위로 추출하는 방식이다.

사례: 한 대학의 전체 재학생 5,000명 중 300명을 조사하려고 할 때, 학생 번호를 기준으로 무작위 300명을 추출한다.

특징: 가장 이론적으로 순수한 방법이지만, 모집단 명단이 필요하며 실행비용이 높다.

2. 층화표본추출 (Stratified Sampling)

개념: 모집단을 성별, 연령, 지역 등 특성별로 층(stratum)을 나누고, 각 층에서 일정 수를 무작위로 뽑는 방식이다.

사례: 전국 고등학생의 스마트폰 사용 실태를 조사할 때 ‘지역(서울/지방)’과 ‘성별’을 층으로 나누고, 각 그룹에서 일정 비율로 학생을 추출한다.

특징: 소수 집단이 표본에 포함될 가능성이 높아져 대표성이 향상된다.

3. 군집표본추출 (Cluster Sampling)

개념: 모집단을 여러 ‘군집(집단)’으로 나누고, 군집 단위로 표본을 추출한 뒤 군집 내 구성원 전체 또는 일부를 조사하는 방식이다.

사례: 대한민국 초등학교 1학년의 수면시간을 조사하고자 할 때 전국에서 무작위로 20개 학교(군집)를 선택하고, 각 학교 1학년 전체를 조사한다.

특징: 조사비용과 시간이 절감되지만 집단 간 이질성이 클 경우 대표성이 낮아질 수 있다.

4. 계통표본추출 (Systematic Sampling)

개념: 모집단을 나열한 후 일정 간격(k)으로 표본을 선택하는 방식이다. 첫 번째 추출 대상은 무작위로 정하고, 그 이후는 일정 간격으로 선정한다.

사례: 대학 도서관 출입 기록에서 1,000명 중 100명을 뽑을 경우 처음 한 명을 무작위로 뽑고, 이후 10명 간격으로 표본을 추출한다.

특징: 실행이 간단하고 무작위성도 보장되지만 정기적인 패턴이 존재하면 표본이 왜곡될 수 있다.

비확률표본추출: 현실적 접근, 그러나 일반화는 신중해야

비확률표본추출은 모집단의 모든 구성원이 뽑힐 기회를 갖지 않다. 실행은 쉽고 빠르지만 대표성이 약해 일반화에는 한계가 있다. 주로 탐색적 연구, 질적 조사, 제한된 환경에서 활용된다.

1. 편의표본추출 (Convenience Sampling)

개념: 접근이 쉬운 대상을 중심으로 표본을 구성하는 방식이다.

사례: 교수님이 수업 중 학생들을 대상으로 설문을 진행하는 경우 혹은 길거리에서 마주친 사람을 대상으로 하는 인터뷰는 모두 편의표본추출이다.

특징: 빠르고 비용이 적지만 연구자의 편향이 개입될 여지가 크다.

2. 판단표본추출 (Purposive Sampling)

개념: 연구자가 특정 기준과 목적에 따라 적합한 대상을 선정하는 방식이다.

사례: 신제품 개발을 위해 ‘IT 기기에 민감한 2030 직장인’만을 인터뷰 대상으로 삼는 경우이다.

특징: 전문성 있는 의견을 수렴하거나 특정 집단을 집중 연구할 때 유용하다. 그러나 연구자의 판단 기준이 명확하지 않으면 왜곡된 결과를 초래할 수 있다.

3. 눈덩이표본추출 (Snowball Sampling)

개념: 초기 참여자가 또 다른 참여자를 소개하며 표본이 점차 확장되는 방식이다. 소외되거나 은밀한 모집단 접근에 자주 사용된다.

사례: 불법 체류 외국인 노동자나 약물 사용자 등을 조사할 때 처음 한 명을 통해 신뢰 기반으로 표본을 확장해 나가는 경우이다.

특징: 일반적 방식으로 접근하기 어려운 집단에서 탐색적 조사의 유용성이 크다. 하지만 표본이 네트워크에 의존하기 때문에 편향 가능성이 존재한다.

어떤 방식이 더 좋은가?

표본추출 방식에는 절대적인 ‘좋고 나쁨’이 존재하지 않는다. 연구의 목적과 자원, 필요한 정밀도, 그리고 현실적 제약에 따라 최적의 방식이 달라질 뿐이다.

가령 여론조사나 국민건강지표처럼 전체 국민을 대표해야 하는 연구라면 확률표본추출은 필수적이다. 이때조차도 실무에서는 군집추출과 층화추출을 혼합해 사용하는 경우가 많다. 반면 소비자 인터뷰나 초기 시장 반응 탐색과 같이 전달력 있는 인사이트가 우선인 경우라면 비확률표본추출이 더 유효할 수 있다.

단, 중요한 것은 사용한 추출 방식이 연구 결과의 해석 가능성과 어떤 관련이 있는지를 명확히 아는 일이다. 확률표본을 사용하지 않았다면, 그 결과를 모집단 전체로 일반화해 해석해서는 안 된다.

표본이 곧 신뢰다

통계는 숫자의 언어지만 그 숫자가 어떻게 만들어졌는지를 모르면 해석은 얼마든지 잘못될 수 있다. 표본추출은 바로 그 숫자의 출발점이다. 그리고 연구자가 누구를 뽑았는가는 곧 무엇을 말할 수 있는가를 결정짓는다.

표본은 작지만, 그 안에는 전체의 의미가 담겨야 한다. 그리고 그것을 가능하게 만드는 첫 번째 열쇠가 바로 ‘추출 방식’이다.

scroll to the top of the site