수많은 문항으로 구성된 설문 데이터를 분석하다 보면 각 문항이 말하는 바를 보다 간결한 구조로 요약하고 싶다는 생각이 든다. 이럴 때 자주 활용되는 분석 기법이 바로 요인분석(Factor Analysis)과 주성분분석(Principal Component Analysis, PCA)이다.
두 분석은 모두 고차원의 정보를 저차원 구조로 단순화하는 역할을 한다는 점에서 비슷해 보이지만 그 출발점과 목적, 해석의 방식은 전혀 다르다. 단순히 “문항이 너무 많아 복잡하니 축약하자”는 이유만으로 이 둘을 같은 도구처럼 사용하는 경우가 많지만 요인분석과 주성분분석은 본질적인 철학과 수학적 기반이 다르다.
분석의 출발점이 다르다
요인분석은 관측된 문항들이 측정하려는 잠재적 개념(요인)을 추정하는 것이 목적이다. 즉, 관찰 가능한 변수들(문항)이 몇 개의 보이지 않는 요인(latent factor)에 의해 설명될 수 있다고 가정하며, 이때 요인은 통계적 추정 대상이자 이론적 개념이다.
반면 주성분분석은 데이터에 존재하는 분산(정보)을 최대한 보존하면서 서로 상관되지 않는 축으로 데이터를 압축하는 방법이다. 요인은 개념을 찾는 과정이지만, 주성분은 정보를 보존하며 차원을 줄이는 과정이다.
따라서 요인분석은 ‘이론적 모형’이 필요하지만 주성분분석은 단지 ‘수학적 요약’을 수행할 뿐 이론적 해석을 전제로 하지 않는다.
수학적 원리의 차이
요인분석은 변수들의 공통성(commonality)에 집중한다. 각 문항에 나타난 분산을 공통요인에 의해 설명되는 부분과 고유요인에 의해 설명되는 부분으로 나누어 공통된 구조(요인 구조)를 추정하려 한다. 이 과정에서 오차항(error term)이 모델 안에 명시적으로 포함된다.
반면 주성분분석에서는 오차를 분리하지 않는다. 모든 분산을 중요한 정보로 간주하며 첫 번째 주성분이 가장 큰 분산을 설명하고, 그다음 주성분이 남은 분산 중 가장 큰 축을 설명하는 식으로 전체 분산을 누적적으로 설명하는 직교 축을 생성한다.
즉, 요인분석은 “요인이 문항을 설명한다”는 해석이 가능하지만 주성분분석은 단지 “몇 개의 성분이 전체 데이터를 잘 요약한다”는 수준의 해석만 가능하다.
분석 목적과 활용 방식의 차이
요인분석은 주로 심리학, 교육학, 마케팅, 사회과학 등의 척도개발 및 개념 구조 검토에 사용된다. 문항들이 이론적으로 구성하고자 한 개념과 실제 응답의 구조가 일치하는지를 검토하고, 불필요한 문항을 제거하거나 요인 수를 결정하는 데 활용된다.
반면 주성분분석은 데이터의 차원 축소가 필요한 상황에서 사용된다. 예를 들어 기후 변수, 센서 데이터, 생물정보학 등 수십 개 변수로 구성된 데이터를 2~3개의 성분으로 요약하여 시각화하거나 분류·예측 모델의 성능을 높이는 데 활용한다.
다시 말해 요인분석은 문항 간 이론적 해석과 설명력이 중요하지만 주성분분석은 예측력과 데이터 압축이 우선이다.
예시를 통한 구분
예를 들어 자기효능감에 관한 설문 문항이 20개 있다고 하자. 연구자는 이 문항들이 자기조절, 과제집중, 대인관계라는 세 가지 하위요인으로 구성되었을 것이라 가정하고, 각 문항이 어떤 요인에 속하는지를 분석하려 할 때는 요인분석을 사용한다.
반면 동일한 문항들을 활용해 데이터의 분산을 최대한 보존하면서 두세 개의 주성분으로 축약하여 시각화하거나 클러스터링에 사용할 목적이라면 그때는 주성분분석이 적절한 도구가 된다.
해석과 주의점
가장 흔한 오해 중 하나는 “요인분석을 수행했는데 공통성 합이 1보다 작다”며 분석이 잘못되었다고 판단하는 것이다. 하지만 공통성은 요인분석 고유의 개념이며, 주성분분석에서는 모든 분산이 1로 유지된다.
또한 SPSS나 R 등 대부분의 분석 도구에서는 주성분분석을 기본 옵션으로 제공하며, 사용자가 별도로 요인분석으로 전환하지 않으면 주성분분석이 실행되므로 분석자 스스로 분석의 목적과 개념적 차이를 명확히 이해한 상태에서 선택해야 한다.
요인분석의 결과는 이론적 구조를 검증하고, 심리측정학적 특성을 논의하는 데 활용되며, 주성분분석은 변수 축소 또는 시각화 기반 분석의 전처리로 활용된다.
마무리하며
요인분석과 주성분분석은 이름은 비슷하지만 하나는 개념을 설명하려는 방법이고, 다른 하나는 데이터를 요약하려는 수학적 도구이다. 문항을 줄이려는 목적이라면 주성분분석이 빠르고 효율적일 수 있다. 하지만 측정하고자 하는 개념의 타당성을 검토하려면 요인분석만이 적합한 해석 도구가 된다.
이 둘을 혼동하면 데이터는 단순히 정리될 수는 있겠지만 그 결과가 이론적 기반 위에서 해석될 수는 없게 된다.