중심화 경향: 자료들이 대체로 어디쯤에 몰려 있는지를 보여줌
분산을 비롯한 산포 요약들: 자료들이 얼마나 중구난방으로 흩어져 있는지를 보여줌
이런 요약들 중 어느 것도 설명해내지 못하는 자료의 특성이 있을까? 있다. 자료가 갖는 "비대칭성"은 설명하지 못한다.
왜도(skewness)
- 주어진 자료가 얼마나 비대칭성을 보이는지 요약해 보여주는 모수
- 즉, 데이터가 대칭이 아닌 정도를 나타내며 왜도 값(0, 양수, 음수)이 데이터 형상에 대한 정보를 나타낸다.
- 가능한 모든 정수 값을 가질 수 있으며, 왜도가 0일 때 분포는 거울처럼 좌우대칭의 모양을 띈다.
- 데이터가 대칭에 가까울수록 왜도 값은 0에 가까워진다.
- 그러나, 왜도가 0에 가깝다고 해서 '정규성을 의미하지는 않는다'
- 그림 A와 B 둘다 왜도는 0이지만, A는 정규 분포 형태이고, B는 정규 분포 형태가 아닌 것을 예로 들 수 있다.
- 왜도 값이 음수일 때에는 오른쪽에 관찰값들이 쏠리면서 좌측편포를 보이고 긴 왼쪽 꼬리가 만들어지며, 왜도 값이 양수일 때에는 왼쪽에 관찰값들이 쏠리면서 우측편포를 보이고 긴 오른쪽 꼬리가 만들어진다.
- 현실적으로 사회통계의 관점에서 정확한 왜도 값보다는 왜도 값의 부호가 더 의미있는 경우가 많다.
- 왜도 값의 부호를 알 수 있는 방법(음수, 0, 양수)
- 통계학자 칼 피어슨(K.Pearson)의 방법
- 산술평균값과 최빈값(없을 시, 중앙값)을 알아낸다.
- 평균에서 최빈값(또는 중앙값)을 뺀 값이 양수인지, 음수인지, 0인지 파악한다.
- 감산한 값이 양수라면, 평균 > 최빈값(중앙값)이므로 평균이 왼쪽에 위치했다는 것
- 즉, 그 분포 자체가 좌측편포라는 의미를 지닌다.
- 통계학자 칼 피어슨(K.Pearson)의 방법
- 정확한 왜도 값을 알 수 있는 방법
- 피어슨의 왜도 계수 (Pearson's skewness coefficient)
- 최빈값을 쓰는 경우: 그 감산한 값을 표준편차로 다시 나눈다.
- 중앙값을 쓰는 경우: 감산한 값에 3을 곱한 다음에 표준편차로 나눈다.
- 피어슨의 왜도 계수 (Pearson's skewness coefficient)
- 왜도 값의 부호를 알 수 있는 방법(음수, 0, 양수)
첨도(kurtosis)
- 분포의 꼬리가 정규 분포와 어떻게 다른지를 나타내어, 처음에 데이터의 분포에 대한 일반적인 특성을 이해하는 데 도움이 된다.
- '분포의 뾰족한 정도'를 다룬다고 잘 알려져 있지만, 그보다도 자료 속의 이상점이 얼마나 '이상한지'를 요약하는 모수
- 이상점이 유달리 극단적인 자료는 첨도 값을 제시하여 효과적으로 요약할 수 있다.
- 왜도와 같이 가능한 모든 정수 값을 가질 수 있다.
- 고첨분포(leptocurtic distribution)
- 첨도가 3보다 클 때, 즉 초과 점도(excess kurtosis)가 양수일 때, 이 수치가 크면 클수록 유달리 튀는 관찰값, 즉 이상점들이 특히나 이상한 위치에 많이 놓여 있는데, (초과 점도: 정규분포의 첨도 값은 3이고, 여기서 3을 뺀 값을 초과 점도라고 한다)
- 이상점들이 외따로 노는 경향이 극단적인 분포의 모양은, 자연히 중심화 위치에서는 평범한 관찰값들이 오밀조밀 모여 뾰족한 탑을 이루지만, 이상점들을 반영하기 위해 하나 이상의 꼬리가 길게 나타나고, 중간 지점은 움푹 패인다.
- 이러한 분포를 고첨분포라고 한다.
- 저첨분포(platykurtic distribution)
- 반대로, 첨도가 3보다 작을 때, 즉 초과 첨도가 음수일 때, 이 수치가 작으면 작을수록 이상점들은 거의 이상하지 않은 위치에 놓이게 되고,
- 관찰값들의 분포는 정규분포가 갖는 것보다도 더 완만한 꼭대기와 짧아진 꼬리로 나타나는데, 이러한 분포를 저첨분포라고 한다.
- 중첨분포(mesokurtic distribution)
- 첨도가 3일 때, 즉 초과 첨도가 0일 때의 분포
minitab
나무위키 기술통계학
https://namu.wiki/w/%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%ED%95%99
'Statistics' 카테고리의 다른 글
통계 분석 방법: 추론 통계학/개요 및 표본분포 (0) | 2024.04.12 |
---|---|
통계 분석 방법: 기술 통계학/자료의 정리 및 시각화 (0) | 2024.04.12 |
통계 분석 방법: 기술 통계학/자료의 요약 - (2) 자료의 산포 (0) | 2024.04.11 |
통계 분석 방법: 기술 통계학/자료의 요약 - (1) 중심화 경향 (0) | 2024.04.11 |
통계 분석 방법: 기술 통계학/추론 통계학/통계량/모수 (0) | 2024.04.11 |