본문 바로가기

Statistics

통계 분석 방법: 기술 통계학/자료의 요약 - (1) 중심화 경향

기술 통계학(Description statistics)이란?

  • 수집된 자료를 정리하여 표나 도표로 제시하거나, 자료를 요약하여 그 산포나 대푯값을 구하는 학문
  • 쉽게 말해 자료를 '요약'하는 것 
    • 이는 자료가 갖고 있는 특성이나 속성을 몇 종류의 수치만으로 한눈에 볼 수 있게 압축한다는 것을 의미한다. 

 

중심화 경향(Central tendency)

  • 자료에서 빈도상의 패턴 등이 집중되는 경향이 발견되는 것으로, 이를 나타내는 수치를 '대푯값(representative value)'이라고 한다.
    • 대푯값에는 평균 mean(산술/기하/조화), 중앙값(median), 최빈값(mode) 등이 있다.
      • 산술평균(arithmetic mean)
        • 전체 관찰값들의 총합을 관찰값의 수로 나눈 것으로, 관찰값들의 수가 서로 다를 때에도 비교가 가능하며, 자료의 규모가 클 때에도 대응이 용이
        • 이상점이나 극단값에 큰 영향을 받는다는 특징
        • 가중(산술) 평균(weighted mean)
          • 산술평균의 일종
          • 각각의 관찰값들에 서로 다른 가중치를 곱연산해 주고, 가중치가 반영된 전체 관찰값들의 총합을 전체 가중치의 총합으로 나눈 것 
          • 모든 관찰값들에 동등한 의미를 부여할 땐 산술평균만으로도 충분하지만, 그렇지 않은 상황에서는 가중평균을 써야 함 
      • 기하평균(geometric mean)
        • 모든 관측값들이 양수라는 전체가 필요하며, n개의 모든 관측값들을 전부 곱한 값에다 n제곱근을 취함
        • 인구변동률이나 물가상승률, 수익률 등 비율 자료이면서 시간적 지속이 반영되어 있을 때에 사용하며, 평균 중에서 이상점의 영향을 가장 덜 받음
      • 조화평균(harmonic mean)
        • 각각의 관찰값들을 전부 역수로 바꿔준 다음, 전체 자료 수를 그 역수 관찰값들의 합으로 나눈 것
        • 즉, 관찰값의 역수를 산술평균한 결과에다 다시 역수를 취함 
        • 시간당 성능 변화나 속도 변화 등 비율 자료가 아니지만 시간적 지속이 반영되어 있을 때에 사용 
      • 중앙값(median)
        • 양적 자료에서만 사용 가능, 수치 자료를 크기 순서대로 정렬한 후 가장 가운데에 위치하는 관찰값
        • 꼬리가 길어지고 비대칭이 되더라도(편포) 그 분포의 중앙값 자체는 변하지 않는다. 즉 강고하다.(robust)
      • 최빈값(mode)
        •  편포에서 평균과 반대로 움직임. 즉, 좌측편포의 경우 최빈값은 우측으로 밀려나며, 우측편포의 경우 최빈값은 좌측으로 밀려난다. 

 

 

 

나무위키 기술 통계학

https://namu.wiki/w/%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%ED%95%99