그럼에도 데이터 분석은 불완전하다 : 불량 분석을 피하기 위한 방법 데이터 자체에 문제가 있다면 모든게 무용지물 데이터 자체에 문제가 있으면 아무리 뛰어난 분석 기법을 써도 신뢰성 있는 결과를 내기 어렵다. 다음과 같은 경우 데이터에 문제가 있는것이다.. 데이터 측정에 문제가 있고 수치도 바르게 기재되어 있지않다 관측치에 대량의 결측치가 있다. 데이터를 모든 세대가 아닌, 편중된 표본에서만 확보했다. 분석 결과의 외적 타당성이라는 문제 RCT나 자연실험으로 발견한 인과관계가 분석 표본 이외의 다른 대상에게도 적용되는지에 대해서는 신중한 논의가 필요하다. 내적 타당성이 확보되었다고 해도 다른 실험 결과를 다른 세대에도 적용할 수 있는냐는 다른 문제이다. 분석방법 외적 타당성의 범위 : 개입효과를 분석할 수..
-구글 구글에서는 41종류의 파란색을 RCT에 따라 실험해보았다. 이 중 가장 많이 뽑힌것을 밝혀냈다 -미국 연방정부가 추진한 '근거 기반 정책 수립' 기존에 미국의 정책 담당자는 정책에 얼마의 예산을 지출할 수 있는지 즉 지출의 크기를 중심으로 정책을 입안하였다. 그러나 앞으로는 정책이 얼마나 효과가 있는지, 즉 정책 효과를 잣대로 정책을 수립해야 한다. 근거 기반 정책 수립위원회에서는 두 가지를 중요한 목표로 삼았다. RCT 같은 엄밀한 과학적 기법으로 정책이 평가되고 정책 효과의 인과관계가 데이터 분석으로 해명되는 구조를 만든다. 정부가 보유한 행정 데이터를 연구자가 이용하고 분석할 수 있는 체제를 정비한다. 데이터 분석의 성공 요건 1.데이터 분석 전문가와 협력관계를 유지한다. 데이터 분석 전문가..
패널데이터란? 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터를 가리킨다. ex ) 여러 기업의 재무 데이터를 복수의 기간동안 관측하거나, 지역별 부동산 데이터를 몇 년간 관측하는 것 덴마크의 개인 납세 데이터를 이용한 연구 덴마크의 경우 1991년 세제가 개혁되면서 연간소득이 1억 2000만원 이상인 외국인 노동자의 소득세가 대폭 줄어들었다. 클레벤 교수팀은 외국인 노동자를 개인 집단으로, 영향을 받지 않은 외국인 노동자를 비교집단으로 나누고 정책의 효과를 분석하기로 했다. 1991년 개혁 이후로 집단의 이민자 수가 비교집단에 비해 크게 늘었다. 1980년에 비해 2배 늘었고 2005년에는 4배 가까이 늘었다. 패널 데이터 분석의 사고 방식 패널 데이터 분석은 RCT가 불가능할 경우 사용 할 수 ..
최선의 데이터 분석법, RCT 여기서 가정을 해본다 '전력 가격을 올리면 절전으로 이어지는가?' 라는 가정이 있다. 여기서 인과관계는 가격 인상이 소비량에 어떤 영향을 미치는가 이다. 가격 인상 이후 A의 전력 소비량을 y1 이라고 하자 가격 인상이 없었을 경우의 A의 전력 소비량을 y2라고 한다. 루빈의 정의에 따르면 가격 인상이 y1과 y2 의 차이인 개입효과에 의해 정의할 수 있다. 하지만 두 가지 데이터를 관측하는 것은 실제로는 불가능하다 => 인과적 추론의 근본 문제 이기 때문이다.(만약은 의미가 없다) 이렇게 관측이 불가능한 결과를 '실제로는 일어나지 않은 잠재적 결과'(반사실의 잠재적 결과)라고 한다. 여기서 해결책은 개입 집단과 비교 집단이라는 사고방식이다. 루빈은 한 사람에 대한 개입 효..
데이터의 상관 관계는 인과관계가 아니다. ex) 2010년에 아이스크림 회사가 광고를 했더니 2009년 대비 2010년에 아이스크림 매출량이 40프로 늘었다. 광고 -> 매출 40프로의 인과 관계를 주장할 수 있을까? 다른 요소가 개입됐을수도 있다. 예를 들어 2010년의 무더위 + 2010년의 소비 회복세 등등 인과관계를 입증하기 어려운 이유 1. 다른 요인이 영향을 미쳤을 가능성이 있다. x (광고) / y (매출 40프로) X(광고)가 벌어진 것과 같은 시기에 여러가지 일이 일어날수 있다. v(2010년의 무더위 + 2010년의 소비 회복세 등등) 2.인과관계가 반대일 가능성이 있다. 때로는 Y가 X에 영향을 주는 역인과관계의 가능성도 부정할 수 없다. ex ) 2010년 이른 더위로 아이스크림 매..