단순한 연관이 아닌 ‘왜’를 묻는 통계 – 인과추론의 세계 통계 분석을 하다 보면 이런 결과를 자주 접하게 된다. “아이스크림 판매가 많을수록 익사 사고도 늘어난다.” 숫자는 분명히 함께 움직인다. 그러나…
튄 값 하나가 전체를 바꾼다 – 이상치의 발견과 해석 데이터를 다룰 때, 모두가 비슷한 방향을 가리킬 때 혼자 엉뚱한 곳을 향하는 숫자가 있다. 가장 크거나, 가장 작거나. 너무 앞서거나,…
측정의 품질을 결정짓는 두 축 – 신뢰도와 타당도 연구에서 ‘측정’이란 단순한 숫자 수집이 아니라 눈에 보이지 않는 개념을 수치로 번역하는 작업이다. 불안, 만족도, 학업성취, 건강지수, 정책효과… 우리는 이런…
데이터에 난 구멍, 결측치를 어떻게 다룰 것인가 데이터를 다루는 사람이라면 누구나 한 번쯤은 마주하게 되는 난감한 순간이 있다. 깔끔하게 정리된 수치들 사이로 텅 비어 있는 셀. 예상보다…
연구는 설계에서 시작된다 – 표본 수 산출의 원리와 실제 과학적 연구에서 가장 흔한 실수 중 하나는 데이터를 먼저 모으고 나서야 “이 정도면 충분했을까?”를 고민하는 것이다. 그러나 좋은 연구란 수집이…
정책의 순수한 효과를 파악하는 방법 – 이중차이법(DID) 어떤 정책이 효과가 있었는지 알고 싶을 때, 우리는 종종 ‘시행 전후의 차이’를 비교한다. 하지만 단순한 전후 비교는 시대 흐름이나 외부…
유의한 차이인가, 중요한 차이인가 – 효과크기의 의미 오늘날 수많은 연구가 “p값이 0.05보다 작았다”는 이유로 통계적으로 유의하다고 말한다. 그러나 그 차이가 실제로 중요하다는 뜻일까? 0.01의 p값이 나오면 반드시…
신뢰구간, 하나의 숫자가 아니라 믿을 수 있는 범위 데이터 분석은 숫자를 다루는 일이지만 그 숫자가 말해주는 진실은 하나가 아니다. 현실은 늘 불완전하고, 측정은 언제나 오차를 동반한다. 그래서 통계학은…
숫자의 크기를 맞추는 두 가지 방식 – 표준화와 정규화 숫자에는 스케일(scale)이 있다. 그리고 그 스케일이 다르면 비교 자체가 성립되지 않는다. 키와 몸무게를 같은 기준으로 나란히 비교할 수 없고, 매출과…