이상준닷컴 – 페이지 3

데이터에 난 구멍, 결측치를 어떻게 다룰 것인가

2024년 05월 15일

연구는 설계에서 시작된다 – 표본 수 산출의 원리와 실제

과학적 연구에서 가장 흔한 실수 중 하나는 데이터를 먼저 모으고 나서야 “이 정도면 충분했을까?”를 고민하는 것이다. 그러나 좋은 연구란 수집이…

정책의 순수한 효과를 파악하는 방법 – 이중차이법(DID)

어떤 정책이 효과가 있었는지 알고 싶을 때, 우리는 종종 ‘시행 전후의 차이’를 비교한다. 하지만 단순한 전후 비교는 시대 흐름이나 외부…

유의한 차이인가, 중요한 차이인가 – 효과크기의 의미

오늘날 수많은 연구가 “p값이 0.05보다 작았다”는 이유로 통계적으로 유의하다고 말한다. 그러나 그 차이가 실제로 중요하다는 뜻일까? 0.01의 p값이 나오면 반드시…

서비스 마케팅, ‘보이지 않는 것을 팔기 위한 전략’의 이해

“제품은 공장에서 만들어지지만 서비스는 사람의 기억 속에서 완성된다.” 산업 구조가 제조 중심에서 서비스 중심으로 이동함에 따라 서비스 마케팅의 중요성은 날로…

신뢰구간, 하나의 숫자가 아니라 믿을 수 있는 범위

데이터 분석은 숫자를 다루는 일이지만 그 숫자가 말해주는 진실은 하나가 아니다. 현실은 늘 불완전하고, 측정은 언제나 오차를 동반한다. 그래서 통계학은…

데이터가 아니라 ‘관계’를 관리하라

“고객의 마음을 얻는 기업은 데이터를 분석하지 않고, 관계를 설계한다.” 기업이 고객과 맺는 관계는 단순한 거래로 시작하지만 지속성과 충성도를 확보하기 위해서는…

숫자의 크기를 맞추는 두 가지 방식 – 표준화와 정규화

숫자에는 스케일(scale)이 있다. 그리고 그 스케일이 다르면 비교 자체가 성립되지 않는다. 키와 몸무게를 같은 기준으로 나란히 비교할 수 없고, 매출과…

[R] 데이터 스케일링 완전 정리 – 표준화 vs 정규화

데이터 분석이나 머신러닝에서는 변수들의 단위나 값의 범위가 서로 다르면 분석 결과에 큰 영향을 미칠 수 있다. 예를 들어 한 변수는…

p값, 통계는 왜 이 숫자에 그렇게 집착하는가

학술 논문에서 “p < 0.05”라는 문장을 본 적이 있을 것이다. 많은 연구자가 이 수치를 기준 삼아 ‘유의하다’ 또는 ‘유의하지 않다’고…