본문 바로가기

Statistics

통계 분석 방법: 추론 통계학/개요 및 표본분포

추론 통계학(inferential statistics)

  • 전체 모집단 중 일부를 표본으로 추출하여 통계량을 구한 뒤, 오차 및 오류의 허용 수준을 객관적으로 관리하면서 모수의 불확실한 성질을 추정하고, 이를 근거로 하여 특정한 진술을 받아들일지를 검정하는 학문
  • 즉, 추정된 정보만 가지고 무엇을 검정한 결과를 자기 의사결정의 근거로 삼는 추론(inference)이라는 활동을 통한 것

 

표본오차/SEM

  • 표본오차(sampling error)
    • 표본평균과 모평균의 차이(m-μ)
    • 이상하게 튀는 표본에서 유독 극심해지는 문제 해결을 위해 표본오차를 줄이기 위한 연구를 진행했는데, '표본의 크기가 모집단 크기에 대해 증가할수록 감소하는 경향'을 보였으나, 이런 경우 추론이라는 활동의 가치가 떨어지는 것이므로 다수의 표본을 추출하는 상황으로 관심을 돌린 바 있다. 
    • 표본을 반복 추출해서, 그 표본평균들만 모아 만든 새로운 분포(표본평균의 분포), 즉 평균의 표본분포(sampling distribution of the mean)가 뚜렷한 정규분포를 드러낸다는 사실이 밝혀졌다. 
  • 평균의 표준오차(SEM, standard error of the mean)
    • 평균의 표본분포가 갖는 표준편차
    • 숱하게 많은 표본평균들을 쭉 늘어놓은 분포에서 그 표본평균들이 사방으로 산포되어 있는 정도를 의미
    • SEM이 클수록 평균의 표본분포는 가운데가 눌러져 꼬리가 두꺼워지는 형태로, 추론하기 힘든 정규분포가 된다. (반대로, SEM이 작은 경우는 추론하기 편한 정규분포가 된다)
    •  평균의 표준오차: σm=σ/√n
      • 표본의 크기(n)과 모표준편차(σ)의 두 가지에 의해 좌우된다.
      • SEM을 커지게 만드는 원인은, n이 커지거나 혹은 둘 다인 경우이다.
    • 표본분포의 분산: σm2=σ2/n
      • 표본분포의 분산은 표준오차의 제곱이기도 하다.
      • 모분산(σ2)을 그 표본의 크기(n)로 나눈 값이므로, 표본분포의 분산은 모분산보다 훨씬 더 작게 나타나는 경향이 있다. 

 

중심극한정리(CLT, central limit theorem)

  • 무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리
  • 즉 "랜덤 표본의 크기가 클수록 평균은 근사적으로 정규 분포를 따른다"는 것 

 

 

정리하자면,

 

표본 추출의 어려움

예를 들어, 모든 직장인들의 평균 연봉을 조사하기 어렵기 때문에 작은 표본을 무작위로 추출하여 대표성을 확보하려고 시도한다.

 

표본의 무작위 추출 문제

표본을 어떻게 추출할지가 중요한데, 주관적이거나 편향된 추출은 문제가 될 수 있다.

 

난수표와 무작위 추출의 한계

완전 무작위 추출도 극단적인 사례를 뽑을 수 있어 문제가 될 수 있다.

 

평균의 표본분포

어려 표본을 추출하여 표본평균의 분포를 만들면 정규분포에 근사한다는 사실을 확인할 수 있다

 

표본 오차와 표준오차

표본오차는 특정 표본의 평균과 모평균의 차이를 나타내며, 표준오차는 표본평균의 분포를 나타내는 것으로 크기는 표본의 크기와 모표준편차에 영향을 받는다.

 

중심극한정리

모집단의 분포 모양과 관계없이, 충분한 수의 표본을 추출하면 표본평균은 정규분포를 따르게 되어 모집단을 추론하는 데 문제가 없다는 원리를 제시한다. 

 

 

 

 

minitab

https://support.minitab.com/ko-kr/minitab/help-and-how-to/statistics/basic-statistics/supporting-topics/data-concepts/about-the-central-limit-theorem/

 

나무위키 추론통계학

https://namu.wiki/w/%EC%B6%94%EB%A1%A0%ED%86%B5%EA%B3%84%ED%95%99