Statistics

기술통계와 추리통계

voidtype 2023. 7. 11. 23:54

기술통계(Descriptive Statistics)

어떤 대상이나 내용을 설명할 때 "기술한다"라고 합니다. 연구자가 모은 데이터에 대해 통계적으로 어떤 특성을 가지고 있는지 설명할 때 사용하는 통계이론이라고 할 수 있습니다.

 

여론 조사를 예를 들면, 대한민국 전체 인구를 대상으로 조사를 할 수는 없을 것입니다. 그래서 보통은 일부 집단을 선정하고 조사를 한 다음 결과를 발표합니다.

 

이때, 일부 집단은 어떻게 선정을 할까요? 어떤 기준에 의해서 선정되었다고 가정합시다. 그렇다면 선정된 집단이 과연 전체 집단의 특성을 대표한다고 할 수 있을까요? 이런 질문에 타당한 근거를 제시하기 위해서는 선정된 집단의 특성을 통계적으로 분석할 필요가 있습니다.

 

가장 쉽게 접할 수 있는 것이 "분포"입니다. 여론 조사를 할 때 일부 집단을 선정하기 위해서는, "연령대/지역/성별" 등 이런 항목들의 분포가 골고루 포함되어 있어야 전체 집단을 잘 대표한다고 할 수 있습니다.

 

선정된 집단의 분포를 살펴봤더니, 특정 연령대가 비정상적으로 많이 포함되어있다거나 특정 지역에 있는 사람이 많이 포함되어있다고 한다면 공정하지 않다고 느껴질 것입니다. 반대로, 해당 항목마다 분포가 고르게 나와있다면 잘 대표한다고 생각할 수 있겠습니다.

 

이런 특성을 "분포"라는 도구를 사용하여 잘 설명(description)할 수 있으므로 "분포"는 기술 통계에 사용되는 방법이라 할 수 있겠습니다.

 

추리통계(Inferential Statistics)

기술 통계를 사용하여 전체 집단을 잘 설명할 수 있는 일부 집단을 선정하였습니다. 이제 이 "일부 집단"이라는 데이터가 주어졌으니, 이 데이터를 분석하여 전체 집단의 특성을 추론/예측해 볼 수 있을 것입니다.

 

연구자가 어떤 가설을 세우고, 일부 집단에 대해서 추론을 했을 때, 이를 수용할지 기각할지 분석하는 방법입니다.

여론 조사를 다시 예를 들면, 일부 집단에 대해서 조사한 결과를 발표할 때는 전체 집단의 숫자는 얼마인지, 오차는 얼마인지 같이 포함하여 이야기 합니다.

 

일부 집단이긴 하지만, 분포를 봤을 때 공정하게 선정이 되었고, 오차율 등 확률적인 방법으로 확인했을 때도 유의미하다면 결국 전체 집단의 특성을 잘 반영한다고 할 수 있겠습니다.