무엇을 분석할지 대상을 정하고 대상에서 증명하려는 부분에 대한 가설을 세우고 참과 거짓을 구분할 기준까지 정했다면 마지막으로 분석 내용이 정해진 기준에 부합하는지를 판단할 차례다. - P47
데이터 분석은 기초 통계를 기반으로 출발한다. 분석하려는 대상집단의 최댓값과 최솟값은 얼마인지, 평균은 어떻게 되는지, 표준편차가 얼마인지를 파악하고 분석을 진행하는 것이 순서다. 반드시 과정을 따라야 하는 것은 아니지만 평균의 중요성을 생각한다면 분명 필요한 과정이다. - P47
두 집단 간 평균에 차이가 있는지를 비교해 검증하는 것을 t-검정(test)이라고 한다. 설정된 기준인 유의수준과 유의확률 내에서 분석한 내용이 포함되는지를 확인하는 방법이다. - P47
t-검정은 두 집단에서 선택된 표본의 평균이 증명하고자 하는 수준에서 몇 번이나 차이가 나는지 확률적으로 확인하기 위한 과정이다(여기서 또 한번 확률과 평균은 늘 함께한다는 사실이 확인된다. 잊지 말길). - P48
t-검정은 표본을 무작위로 선정했을 때 차이가 날 확률이 몇 %인지 검증하는 작업 정도로만 우선 이해 - P48
검정 작업은 확률분포를 확인하는 과정이다. - P48
세상의 모든 현상은 정규분포를 따른다고 했다. 정규분포를 따른다는 개념은 앞서 보았듯이 표본의 크기가 클수록 명확해지며, 정규분포를 따르지 않는다면 데이터가 부족한 것이라고 했다. - P48
정규분포를 따르는 가설을 검정하고자 할 때는 Z-검정을 한다. 이 말은 데이터의 양이 많으면 많을수록 데이터 평균값의 차이가 정규분포를 따른다는 의미다. 즉, 대용량의 데이터에서 통계 검정을 진행할 때는 Z-검정을, 데이터 양이 적을 때는 t-검정을 진행해야 한다는 뜻이다. - P49
Z 검정은 가설을 Z 분포로 검증하는 방법으로, 집단 간 차이가 있는지를 밝히는 통계 기법이다. - P48
모든 분석 대상을 정규분포로 만들려면 데이터의 크기가 커야만 된다는 말인데, 앞서 남녀의 연봉을 검증하고자 할 때 그 대상을 국민 전체로 한다면 데이터가 충분히 크다고 할 수 있지만, 특정 기업 또는 부서의 연봉 수준을 검증한다면 데이터의 크기가 충분히 크다할 수 있을까? 이것은 데이터가 적어서 정규분포를 따르지 않는 가설을 검증해야 하는 상황이 있다는 뜻이다. 그래서 t-분포를 확인하는 t-검정이 진행된다. - P49
그런데 데이터가 많다 또는 적다의 기준을 어디에 두어야 할지도 의문이 들 수 있다. 1,000건? 또는 10,000건? 아니면 더 많게 100,000건? 또한 매번 정규분포를 고려하며 분석을 진행해야 할까? 데이터가 100건이면 t-검정이고, 10,000건이면 Z-검정을 해야 하는 것일까? 결론적으로 두 검정 방법 모두 평균의 차이를 확인하고 확률범위(p-value, 유의수준)를 구하는 점은 같다. 따라서 두 집단 간 평균의 차이는 t-검정을 염두에 두고 진행하는 것이 일반적이다. 분석하고자 하는 대상의 데이터가 많아서 정규분포를 따른다고 t-검정이 불가능한 것은 아니기 때문이다. - P49
t-검정 (t-분포)을 발견한 사람은 아마도 데이터를 충분히 확보할 수 없는, 즉 표본이 충분히 확보되지 않는 상황이 아니었을까. - P49
골프를 즐기려면 세 가지 조건이 충족돼야 한다는 말이 있다. 시간과 비용, 사람이다. 이와 마찬가지로 정규분포를 따를 만한 충분한 데이터를 확보하기 위한 조건을 들자면 아마도 골프를 즐길 수 있는 조건과 같게 시간과 비용, 사람이어야 하지 않을까 생각한다. - P50
원하는 결과를 얻기에 충분한 데이터는 쉽게 얻어지지 않는다. - P50
결과를 위해 데이터를 수집하는 것이 아니라 무엇이든 데이터가 있으면 데이터를 보고 유의미한 결과를 찾는다. - P50
필자에게 근대 통계학에 가장 영향을 많이 준 학자 세 명을 뽑으라면 칼 피어슨과 로널드 피셔, 윌리엄 고셋이라 말하겠다. - P50
이 중 윌리엄 고셋 (William Seally Gosset, 1876~1937) 은 대학이나 연구실에서 공부한 것이 아니라 일반회사에 근무하며 통계를 별도로 공부했다. 일반 직장인이다 보니 학자보다 데이터를 확보하기 위한 시간과 비용, 인력이 충분치 않았을 것이다. - P50
그(윌리엄 고셋)가 취업한 기업은 지금도 흑맥주의 대명사로 유명한 아일랜드의 맥주회사 기네스 Guinness 였다. 고셋은 기네스의 양조장에서 근무하며 맥주 원료를 연구하고 수확물을 관리하고 감독했다. 그의 업무 중 맥주 원료를 연구하는 일이 데이터 분석을 하는 사람이 자주 활용하는 t-분포를 발견한 계기였다. - P51
우리가 흔히 마트에서 보는 대량 생산된 맥주와는 다르게 수제 맥주는 그것을 만드는 사람의 경험이 녹아 저마다의 맛을 낸다. 하지만 경험에 의존한 결과는 항상 일정하지 않은 게 문제였다.
고셋이 근무했던 1900년대 초반의 기네스 역시 그들의 장인정신, 즉 양조 기술자가 가진 최고의 경험을 통해 맥주를 생산하는 회사였다. 그런데 고셋은 맥주 맛이 일정하지 않아서 불만이었다. - P52
그(고셋)는 일정한 맛을 내기 위한 연구를 결심했다. 맥주 맛을 결정하는 효모를 분석해 일정한 맛을 유지하는 효모의 양을 결정하는 데 통계 기법을 활용했다. 하지만 그에게는 충분한 시간도 비용도 더 중요한 인력도 없었다. 데이터 수집을 위한 3대 요소가 결핍된 그의 표본은 역시나 작았다. 그는 어떻게든 작은 표본으로 모집단을 추론해야 했다. - P52
그때까지만 해도 표본이 작아 정규분포를 벗어나면 인정할 수 없는 오차가 나온다는 것이 정설이었다. (중략) 이 문제를 해결하고자 고셋은 작은 표본도 정규분포를 따를 거라고 가정하고 자유도*라는 개념을 통해 새로운 분포를만드는데 이게 바로 t분포다. 현대 통계 분석의 핵심이라 할 수 있는 t-분포가 맥주 맛을 위해 탄생했다니 매우 놀랍지 않은가? - P52
*자유도 : degrees of freedom, 모집단에서 선택한 표본에 포함된 자료의 수다. - P52
고셋은 논문을 발표하며 저자 이름에 실명 대신 학생 student이라고 적었다. 그 이론이 유명한 스튜던트 t-분포다. - P53
student‘s t-distribution, 학생이 발표했다고 해서 붙여진 이름이다. - P53
베르나르 베르베르의 잡학 서적 《상상력 사전(열린책들, 2011)》은 인류의 자존심이 상하는 세 가지 사건을 언급한다. - P56
첫 번째 사건은 니콜라우스 코페르니쿠스(Nicolaus Copernicus1473~1543)가 주장한 지동설이다. 그는 지구가 우주의 중심이며 모든 천체가 지구를 중심으로 돈다는 진리를 보기 좋게 무시했다. - P56
두 번째 사건은 인간의 모든 행위는 자아를 뛰어 넘는 고상한 업적이 아닌 단순히 이성을 유혹하고자 하는 욕망의 그림자일 뿐이라는 지그문트 프로이트(Sigmund Freud,1856~1939)의 주장이다. - P56
마지막 세 번째 사건은 찰스 다윈(Charles Robert Darwin, 1809~1882)의 진화론이다. 인간은 조물주가 만든 유일무이한 피조물이 아닌 다른 동물에서 진화된 하나의 개체일 뿐이라는 주장이다. - P57
찰스 다윈에게는 그만큼이나 독특한 사상으로 무장한 사촌 동생 프랜시스 골턴 (Francis Galton, 1822~1911)이 있었다. 두 사람은 서로를 존경하며 각자의 위치에서 자신의 연구 분야를 공고히 했다. - P57
골턴은 훌륭한 사람은 그가 처한 환경보다 유전자에 많은 영향을 받는다고 확신했다(우생학). 그래서 이러한 유전적 우월성을 구체적으로 증명하기 위해 그의 사촌 형 다윈처럼 주변 사람들의 키를 전수 조사하러 다녔다. - P57
골턴은 키가 큰 사람의 자식이 부모보다 더 커지면 키 큰 유전자를 물려받는 자손은 끝도 없이 자랄 것이고, 반대로 키가 작은 집안의 자손들은 계속 작아질 테니 적정 수준까지 큰다고 보았다. 그리고 사람들이 얼마까지 크는가를 고민했다. - P58
조사 결과를 살펴보던 골턴은 놀라운 사실을 발견했다. 그가 조사한 대상 세대별 평균 키를 구하고 전체 대상의 키를 해당 평균을 기준으로 점을 찍어 분포를 확인했더니 아버지의 키가 아무리 커도 자식의 키는 평균보다는 크지만 해당 세대 평균에 가깝게 분포했다(중심극한정리). - P58
즉, 키가 큰 아버지는 그보다 조금 작은 자식을, 키가 작은 아버지는 그보다 조금 큰 자식을 갖게 된다는 결과였다. 골턴은 이 놀라운 발견을 평균으로의 회귀regression toward mean라는 이름으로 공표했다. - P58
모든 현상이 평균으로 회귀하려는 사실에 기초한 분석이 바로 회귀분석regession analysis이다. 회귀분석은 두 요인 간의 인과관계를 파악해 미래를 예측하고 설명하는 대표적인 데이터 분석 기법이다. - P58
여기서 두 요인이란 독립변수와 종속변수를 의미하는데, 독립변수란 예측하고자 하는 결과의 원인으로 가정한 변수를 의미한다. 따라서 아버지의 키가 큰 것을 보고 아들의 키가 클 거라고 예측했다면 아버지의 키는 아들의 키가 클 거라고 예측한 원인인 독립변수가 된다. 종속변수는 독립변수가 원인이 돼 예측할 수 있는 결과값을 말한다. 즉 아버지의 키에 영향을 받은 아들의 키가 종속변수다. - P58
많은 것을 예측하고 설명하는 강력한 회귀분석에는 한 가지 간과해서는 안 될 것이 있다. 바로 독립변수와 종속변수의 관계다. 전혀 관련 없는 두 변수를 독립변수와 종속변수로 결정해 예측하면 전혀 의미 없는 분석이 되고 만다. 회귀분석으로 예측하려면 종속변수의 상관관계가 명확해야 예측 결과가 유의미해진다. - P59
데이터 분석과 이에 기본이 되는 통계는 넓은 의미로 인류의 역사와 함께 한다고 해도 과언이 아니다. 동양의 사주팔자와 주역, 서양의 타로 등 점을 치는 행위 역시 데이터 분석의 하나라 할 수 있다. - P60
수리통계학의 기초를 다진 사람은 영국의 유명한 수학자 칼피어슨(Karl Pearson, 1857~1936)이다. - P60
골턴은 회귀의 개념을 정립하며 영향을 주는 요인과 영향을 받는 요인(독립변수와 종속변수) 사이에 대칭관계가 있음을 발견하고 이를 상관cometation이라고 이름을 붙였다(회귀분석에서 독립변수와 종속변수의 관계는 매우 중요하다). - P61
피어슨 상관계수는 -1에서 +1 사이의 값을 취한다. 0을 기준으로 값이 0보다 작은 음수는 음의 상관관계라고 하며 두 변인 간에 관계가 없음을 나타낸다. 값이 양수면 양의 상관관계라고 하며 두 변인 간에 관계가 있다는 의미다. -1에 가까울수록 강한 음의 상관관계를, +1에 가까울수록 강한 양의 상관관계를 나타낸다. - P62
상관분석은 ‘연봉과 소비는 관련이 있을까? 키와 몸무게는 관련이 있을까?‘처럼 두 변수 간의 관계와 연관 정도를 설명한다. ‘연봉이 높으니 소비가 많을 것이다. 키가 커서 몸무게가 무거울 것이다.‘ 라는 말은 상관분석으로는 설명할 수 없다. 이 부분이 매우 중요하다. 정리하면 상관분석은 두 변수의 관계만을 설명하지, 두 변수간의 원인과 결과를 나타내는 인과관계는 설명하지 않는다. - P62
그러나 연관성이 있어야 원인과 결과가 도출되기에 인과관계를 찾아 분석할 때는 변인 간의 상관관계가 반드시 있어야 한다. 담뱃값과 흡연율의 관계, 신제품과 매출의 관계, 혈압과 당뇨의 관계 등 우리 주변에는 관련성을 판단해야 하는 일이 매우 많다. - P63
어느 분야든 경쟁 상대가 있다는 것은 해당 분야의 발전과 함께 몸담고 있는 사람들이 함께 발전하는 기회가 된다는 의미가 있다. - P63
칼 피어슨 또한 그가 활동할 당시 경쟁 상대인 로널드 피셔 (Ronald Aylmer Fisher, 1890~1962)가 있었기에 통계학의 학문적 위치가 더욱 견고해졌다. - P64
이 시기에 유전학과 통계학은 매우 밀접한 관계를 형성하고 있었다. 크게 피어슨을 중심으로 한 생물측정학파biometricians와 윌리엄 베이트슨(William Bateson, 1861~1926)을 중심으로 한 멘델학파 Mendelions가 있었는데, 이 두 학파의 지루한 공방과 논쟁을 일시에 종식시킨 인물이 바로 피셔다. - P64
현대 통계 분석은 분석하려는 대상의 특성을 파악하고자 통계적 가설을 정하고 전체로부터 표본을 추출해 가설 검정으로 추론하는 것이 일반적이다. 피셔는 이 부분에도 영향을 미쳤는데, 분석 대상 전체 (모집단)와 전체에서 추출한 일부(표본)를 명확하게 분리하였고 일부를 통해 전체에 대한 분석과 추리가 가능하다는 방법을 귀무가설로 증명했다. 이후 피셔는 추측 통계학, 즉 추계학stochastic을 창시하고 통계학 발전에 한 획을 그었다. - P65
미각은 음식의 맛을 구별하는 감각을 지칭한다. 이 미각이 귀무가설null hypothesis과 매우 밀접한 관련이 있다. - P65
부인들의 차감별 시험 lady tasting tea과정과 이론을 담은 피셔의 책 《실험계획법 The Design of Experimmiile》에서 그는 암묵적으로 설정한 결론인 ‘부인들은 차 맛을 구분하기 어렵다‘라는 가정을 ‘null hypothesis‘라 한데서 귀무가설이 유래했다. 그가 세운 귀무가설이 맞다는 것을 증명하기는 어렵지만 이 가설이 거짓이라는 것은 증명할 수 있었고, 가설은 거짓이 됐다. 따라서 이 가설의 반대인 ‘부인들은 차 맛을 구분할 수 있다‘를 증명했다. - P67
현재의 통계는 가설과 표본으로 설명된다. - P67
|