본문 바로가기

Statistics

통계 분석 방법: 기술 통계학/자료의 정리 및 시각화

도수분포표(frequencty distribution table)

  • 방대한 자료들이 관찰되는 빈도의 분포를 표 형태로 정리하는 가장 기본적인 방법으로 질적/양적 자료 모두에 쓰일 수 있다.
  • 각 범주들 사이 별다른 서열 순서나 의미가 없다면 도수 기준 내림차순 정렬을 하는 것이 좋다.
    • 도수가 n 이하로 나타나는 경우 "기타" 범주를 생성하여 합산한 결과를 넣는 것도 가능하다.
    • 몇 이하를 기준으로 할 것인지는 상황에 따라 다르며, 실무에서 굉장한 이슈가 되기도 한다.
    • 도수가 0인 범주가 존재하기도 하는데, 0이라고 무조건 삭제해서는 안된다. 의미를 잘 파악해야 한다. 
  • 질적 자료가 아닌 양적 자료의 경우, 도수분포표로 그대로 사용하게 되면, 범주별 도수가 1로 많이 나올 가능성이 있다.
    • 이 경우, 일정한 구간마다 간격을 나누어서 그 범위 내에 들어가는 관찰값들의 빈도를 정리하는데, 이를 계급(class)이라고 한다. 
    • 계급을 크게 묶을수록 도수분포표는 깔끔해지지만, 그만큼 원천자료가 갖는 정보량이 크게 상실된다. 
  • 계급값(class value)
    • 그 계급이 시작하는 지점의 숫자와 끝나는 지점의 숫자 사이의 중앙값(=산술평균)으로 정의된다.
    • 아래의 표에서 50~54 계급의 계급값은 50과 54 사이의 중앙값인 52가 된다. 
    • 계급값은 계급의 간격이 좁을수록 정확하지만, 현실적으로 학계나 공식 보고서 등에서 자주 볼 수 있는 정리는 아니다. 

 

 

 

히스토그램(histogram)

  • 관찰값들의 관측빈도를 표 형태로 정리한 도수분포표를 바탕으로, 새로운 도표를 그려 시각적으로 그 빈도를 비교할 수 있도록 한다.
  • 양적 자료는 연속적이라는 본질을 가지기 때문에 접근법을 달리 해야 한다.
    • 관찰값들의 관측빈도를 막대의 길이로 정의하는 막대그래프와는 달리, 양적 자료의 빈도를 도표화하는 히스토그램은 관찰값들의 관측빈도를 막대의 '면적'으로 정의한다. 
    • 막대를 이루는 사각형의 가로 길이는 계급의 간격이 되고, 세로 길이는 밀도(density)가 되며, 히스토그램의 모든 막대의 면적의 합은 1임이 성립된다. 
    • 빈도의 분포를 직관적으로 보여준다.

 

그 외, 그림그래프, 막대그래프, 꺾은선그래프, 원그래프, 상자도표 등이 있다. 

 

 

 

나무위키 기술통계학

https://namu.wiki/w/%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%ED%95%99