본문 바로가기

Statistics

통계 분석 방법: 기술 통계학/자료의 요약 - (2) 자료의 산포

중심화 경향은 대량의 자료가 '대략 어디쯤에서 모이는가'의 특성이나 속성은 잘 보여주지만, 막상 그 자료가 그 대푯값에 얼마나 밀집되어 있는지, 아니면 얼마나 퍼져 있는지는 보여주지 못한다.

만약, "자료의 퍼져 있는 정도"를 알고 싶다면 "산포 경향"을 보여주는 다른 요약을 시도해야 한다.

 

산포 요약 종류

  • 범위(range)
    • 주어진 관찰값들에 존재하는 최댓값에서 최솟값을 빼서 구하며, 이상점에 매우 민감하다.
  • 평균편차(MD, mean deviation)
    • 산술평균과 각 관찰값들 사이의 편차의 합이 0이라는 산술평균의 성질에서 기인하여, 이를 우회하기 위한 가장 기초적인 조치로써 "모든 편차에 절댓값을 취해 산술평균"하는 것 
    • 현실적으로는 거의 쓰이지 않는 요약이긴 하다. 
  • 분산(var, variance)
    • 산술평균으로 대표되는 중심화 경향을 보완할 수 있는 강력한 요약 
    • 모든 편차 값들을 제곱하여 합산한 편차제곱합(SS, sum of squares)을 가지고 산술평균한 것
    • 평균편차처럼 절댓값이 아니라 제곱을 활용하였으며, 분산분석(ANOVA)과 같은 후속 통계분석으로까지 발전되어 활용되고 있음
  • 표준편차(st.dev, standard deviation)
    • 분산 도출 과정에서 제곱으로 자료가 부풀려졌으니, 그 부풀려진 것을 원상복구시킬 요약이 필요하게 됨
    • 분산에 도로 제곱근을 취해 숫자를 줄여놓은 값 

 

표준화(standardization)의 논리 등장

  • 위의 표준편차 조차 측정단위의 영향을 받기 때문에 단위가 서로 다른 여러 자료들 사이의 산포를 비교하는 것이 불가능하다는 문제가 제기됨
  • 표준화의 방법?
    • 변동계수(CV, coefficient of variation)
      • 표준편차를 그 자료의 산술평균으로 나누는 것
      • 어떤 자료든 다 자기만의 산술평균과 표준편차가 있으므로, 계산을 통해 하나의 표준점으로 삼을 수 있음
      • (X) 여러 표준편차를 비교할 때, "A자료의 표준편차는 B자료의 표준편차보다 크다" 
      • (O) "A자료의 표준편차는 자기 산술평균의 크기와 견주어 봤을 때 이 정도이고, B자료의 표준편차는 자기 산술평균에 견주어 보면 저 정도로 나오니, 표준편차의 상대적 크기에 대해서라면 A자료의 것이 B자료의 것보다 크다" 

 

사분위간 범위(IQR, interquartile range)

  • Q1에서 Q3에 이르는 범위로, 전체 자료의 가운데 부분 50%에 해당하는 범위
    • 사분위수(quartile): 중앙값을 기준으로 삼아 자료를 4등분했을 때 나타나는 3개의 잘려진 지점
    • Q2(중앙값) 양쪽 각각의 자료 도막에서 한번씩 더 중앙값으로 자르면 제1사분위수(Q1, 하사분위수), 제3사분위수(Q3, 상사분위수)가 된다.
  • 범위 요약과는 달리, 막강하며 데이터 시각화 단계에서 상자도표(boxplot)을 그릴 때에도 중요한 기준점이 됨

 

 

나무위키 기술통계학

https://namu.wiki/w/%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%ED%95%99