통계를 배우기 시작하면 곧 마주하게 되는 개념이 있다. 바로 “척도(scale of measurement)”이다. 데이터를 수치화한다는 것은 단지 숫자를 붙이는 일이 아니라 그 숫자가 어떤 속성을 표현하며, 어떤 방식으로 해석될 수 있는지를 결정하는 행위다. 바로 이 지점에서 척도의 구분은 통계 분석의 출발점이 된다.
척도는 일반적으로 네 가지로 분류된다. 명목척도(nominal), 서열척도(ordinal), 등간척도(interval), 비율척도(ratio)가 그것이다. 이들은 단순한 분류가 아니라, 데이터의 수준과 활용 가능한 통계기법의 범위를 결정짓는 중요한 기준이 된다.
명목척도: 이름만 있고, 크기는 없다
명목척도는 이름을 붙이는 수준의 측정이다. 값들 간에 아무런 순서나 크기 개념이 없다. 단지 분류만 가능할 뿐이다. 예를 들어 성별(남성, 여성), 혈액형(A형, B형, AB형, O형), 지역(서울, 부산, 광주)은 모두 명목척도에 해당한다. 이러한 정보는 서로 다르다는 것 외에는 비교할 수 있는 속성이 없다. “서울은 부산보다 크다”는 말은 가능하지만, “A형은 O형보다 높다”는 말은 의미가 없다.
명목척도에서는 빈도(count)나 비율(percent)과 같은 기초 통계만이 적절하다. 산술 평균이나 표준편차 같은 계산은 의미를 갖지 못한다.
서열척도: 순서만 있고, 간격은 없다
서열척도는 값들 간에 순서가 존재하지만 그 간격이 일정하거나 해석 가능한 수치는 아닌 경우를 말한다. 예를 들어 마라톤 대회의 순위(1등, 2등, 3등), 음식의 맵기 단계(순한맛, 보통맛, 매운맛), 고객 만족도(불만족, 보통, 만족)는 모두 서열척도에 해당한다. 서열은 분명 존재한다. 1등이 2등보다 앞서며, ‘만족’은 ‘보통’보다 긍정적이다. 그러나 그 차이가 어느 정도인지는 알 수 없다. 1등과 2등의 차이와, 2등과 3등의 차이가 같다고 볼 수는 없다.
서열척도는 중앙값이나 백분위수 같은 통계 처리에는 적합하지만, 평균이나 표준편차처럼 간격을 전제로 하는 분석에는 부적절하다.
등간척도: 순서와 간격은 있지만, ‘절대적인 0’이 없다
등간척도는 값들 간에 일정한 간격이 존재하는 경우를 말한다. 여기서 중요한 특징은 ‘절대적인 0점’이 존재하지 않는다는 점이다. 대표적인 예는 섭씨 온도다. 20도와 30도 사이의 간격은 10도이며, 30도와 40도 사이도 10도다. 이처럼 간격은 일정하기 때문에 덧셈과 뺄셈은 가능하다. 하지만 0도가 ‘온도가 없음’을 의미하지는 않는다. 즉, 20도가 10도의 ‘두 배’라고 할 수는 없다. 비율 개념이 적용되지 않는 것이다.
등간척도에서는 평균, 표준편차와 같은 통계가 가능하지만, “몇 배 증가했다”와 같은 비율 비교는 의미가 없다.
비율척도: 순서, 간격, 비율까지 모두 가능하다
비율척도는 모든 수리적 조작이 가능한 가장 높은 수준의 척도이다. 여기에는 절대적인 0점이 존재하며, 값들 간의 순서와 간격, 그리고 비율까지 모두 해석할 수 있다. 예를 들어 키, 몸무게, 연령, 수입 등이 이에 해당한다. 0kg은 무게가 없음을 뜻하며, 60kg은 30kg의 두 배다. 따라서 이 척도는 덧셈과 뺄셈뿐만 아니라 곱셈, 나눗셈도 의미를 갖는다.
비율척도에서는 모든 통계기법을 적용할 수 있으며, 수학적 연산에 아무런 제한이 없다. 데이터 분석의 가장 강력한 기반이 되는 척도이기도 하다.
척도를 구분하는 이유: 분석 이전의 질문을 명확히 하기 위함
척도 구분은 단지 형식적인 구분이 아니다. 어떤 척도에 해당하느냐에 따라 사용할 수 있는 통계기법의 종류가 달라지기 때문이다. 명목과 서열 수준의 자료에 평균을 구하면 안 된다고 말하는 이유도 여기에 있다. 데이터가 허용하는 정보의 수준을 초과하는 연산은 잘못된 해석을 불러오며, 때로는 설득력 있는 오류로 포장되어 의사결정을 왜곡시키기도 한다.
또한 척도는 자료를 어떻게 수집하고, 어떻게 분석할지를 결정짓는 설계의 기준이 된다. 문항을 어떻게 설계할지, 척도를 몇 점 만점으로 설정할지, 분석에 어떤 통계를 사용할지 모두 이 척도의 성격에 기반하여 정해진다.
통계를 이해하는 가장 기초적인 감각
척도는 통계학의 기초 개념 중에서도 가장 초보적인 내용으로 분류되지만, 사실은 통계를 얼마나 올바르게 이해하고 있는지를 가늠하는 감각의 기준이 되기도 한다.
데이터를 수치로 표현하는 행위 자체에 앞서 그 수치가 어떤 성격의 정보를 담고 있는지를 인식하는 것, 그리고 그에 맞는 해석 방식을 선택할 줄 아는 감각은 어떤 고급 통계 기법보다 더 기본적이고, 더 본질적인 통계적 사고력이다.









