통계나 데이터를 다루는 글에서 흔히 등장하는 표현 중 하나가 “두 변수 간에 상관관계가 있다”는 말이다. 실제로도 어떤 수치들이 함께 오르내리는 현상은 데이터 분석에서 쉽게 관찰된다. 그런데 이 상관관계를 마주하는 순간 사람들은 자주 하나의 질문을 떠올린다. “그렇다면 A가 B의 원인인가요?”
여기서부터 통계적 오류는 시작된다. 상관관계(correlation)와 인과관계(causation)는 서로 닮은 모습으로 움직이지만 본질적으로는 다른 개념이다. 그리고 이 차이를 구분하지 못할 경우 데이터 해석은 엉뚱한 결론으로 흐를 위험이 높다.
함께 움직인다는 것과 원인이 된다는 것
상관관계란 두 변수 간에 일정한 패턴이 존재하는 현상을 말한다. 예를 들어 아이스크림 판매량이 증가할수록 익사 사고도 늘어난다는 통계가 있다고 하자. 두 수치는 분명 같은 방향으로 움직인다. 하지만 이를 두고 “아이스크림이 익사의 원인”이라고 말하는 사람은 없을 것이다. 실제로는 ‘여름’이라는 제 3의 요인이 두 변수 모두에 영향을 주고 있었던 것이다.
이처럼 상관관계란 ‘함께 움직인다’는 것을 의미할 뿐 원인과 결과를 말해주지는 않는다. 반대로 인과관계는 단지 두 변수의 연관성뿐만 아니라 하나가 다른 하나에 영향을 주었다는 ‘방향’과 ‘기전’까지 설명하는 개념이다.
상관관계는 발견하기 쉽고, 인과관계는 증명하기 어렵다
데이터 분석 과정에서는 상관관계를 찾는 일이 어렵지 않다. 통계 소프트웨어 몇 줄의 명령어만으로도 변수 간 상관계수를 계산할 수 있으며, 시각화만 해보아도 대체로 그 방향성은 파악된다. 문제는 그렇게 얻은 상관관계를 바탕으로 곧바로 인과를 주장하는 데 있다.
예컨대 학생들의 아침 식사 여부와 수학 성적 사이에 양의 상관관계가 있다고 하자. 하지만 이 사실이 “아침을 먹으면 수학 성적이 오른다”는 결론으로 이어지는 것은 아니다. 혹시 성실한 학생일수록 아침을 챙겨 먹고, 동시에 공부도 열심히 하는 경향이 있는 것은 아닐까? 혹은 부모의 학력이 높을수록 아침 식사나 학업 지원에 더 적극적일 수도 있다. 이러한 ‘숨은 변수(Confounding Variable)’는 인과 추론의 가장 흔하고도 복잡한 장애물이다.
인과관계를 주장하려면 단지 수치 간의 연관성만으로는 부족하다. 시간적 선후 관계, 다른 변인의 통제, 논리적 기전, 그리고 경우에 따라서는 실험 설계까지 필요하다. 그래서 과학적 인과 추론에는 항상 신중함과 검증 과정이 동반되어야 한다.
언론과 대중 담론에서의 오용
상관관계와 인과관계를 구분하지 못하는 문제는 학계보다 오히려 언론 보도나 정책 해석에서 더 자주 나타난다. “운동을 자주 하는 사람은 암 발병률이 낮다”는 기사만 봐도 그렇다. 해석하기에 따라서는 운동이 암 예방의 직접적인 원인이라는 인상을 줄 수 있다. 하지만 실제로는 운동 외에도 해당 집단이 건강한 식습관, 정기적인 검진, 스트레스 관리 등을 함께 하고 있었을 가능성이 높다.
마케팅에서도 이와 유사한 오류가 나타난다. “광고를 본 고객은 평균 구매액이 더 높았다”고 말할 때, 광고가 원인이었는지, 아니면 애초에 관심이 많은 고객이 광고를 본 것인지는 구별되지 않는다. 이렇듯 상관관계를 인과관계로 잘못 읽는 순간 판단은 선동이 되고, 통계는 오해의 수단이 된다.
인과를 찾고 싶다면 방법도 달라져야 한다
데이터가 있다고 해서 모든 문제를 풀 수 있는 것은 아니다. 상관관계는 출발점일 뿐이며, 인과를 규명하기 위해서는 무작위 실험(randomized experiment), 통제 집단(control group), 자연 실험(natural experiment), 혹은 도구변수 분석(instrumental variable analysis) 등의 고도화된 연구 설계가 필요하다.
때로는 실험이 불가능한 상황에서도 종단적 분석, 시간적 선행성의 확보, 변수 간 기전의 논리적 타당성 등을 통해 인과에 가까운 결론을 유도할 수는 있다. 하지만 이 과정은 상관계수 하나로 판단하는 일보다 훨씬 복잡하고 신중하다. 결과적으로 인과관계란 단순히 통계적 관계의 유무를 넘어서는 지적 검증의 과정이며, 그만큼 해석자에게 더 높은 수준의 책임을 요구한다.
통계는 해석 이전에 사고의 윤리를 요구한다
통계적 수치를 해석하는 것은 단순한 정보의 문제가 아니다. 그 안에는 논리, 비판적 사고, 방법론적 엄격함이 전제되어야 한다. 상관관계는 출발선에 불과하며, 인과관계는 그 끝에 도달하기 위한 긴 여정이다.
문제는 많은 이들이 그 둘 사이를 마치 같은 길처럼 여기고 건너뛰는 데 있다. 하지만 통계는 언제나 말해준다. 함께 움직인다는 것은 원인이라는 뜻이 아니다.