추정(estimation)의 수학적 기초는 회귀분석에서도 의지하고 있다.
추정량(estimator): 모수를 추정할 수 있으리라 여겨지는 통계량의 후보들
추정치(estimate): 실제로 표본추출 결과 얻어진 추정량의 관찰값
예를 들어, 어떤 표본의 평균이 14.88 이라면?
추정량(estimator)은 표분 평균이고, 추정치(estimate)는 14.88이 된다.
점추정(point estimation): 좋은 추정량의 기준
- 점추정이란, 모집단에서 모수(parameter)의 값을 '하나의 숫자'로 추정하는 통계적 방법이다.
- 표본을 통해 모집단의 특성을 유추하는 과정으로, 특정한 값을 통해 모수의 추정치를 제공
- 예를 들어, 양궁에서 과녁에 화살을 쏘아 정확히 중앙에 꽂는 것과 같이, 점추정은 표본을 통해 모수에 대한 최적의 추정치를 제공한다.
- 표본을 통해 모집단의 특성을 유추하는 과정으로, 특정한 값을 통해 모수의 추정치를 제공
- 추정오차(estimation error)
- 분산과 편의가 모두 반영된 개념으로 표본평균(화살이 꽂힌 위치)과 모평균(과녁 정중앙) 사이의 거리를 의미
- 분산(variance)이란, 과녁에 화살들이 얼마나 넓게 퍼져서 꽂혀 있는지의 산포의 모습
- 편의(bias)란, 과녁 정중앙을 얼마나 정확히 조준하고 있는지의 모습
- 따라서 어떤 표본평균이 모평균에 대해 갖는 추정오차를 최소화할 때 비로소 좋은 추정이 이루어졌다고 판단할 수 있다.
- 분산과 편의가 모두 반영된 개념으로 표본평균(화살이 꽂힌 위치)과 모평균(과녁 정중앙) 사이의 거리를 의미
그렇다면, 추정오차가 최소화되었는지는 어떻게 알 수 있는가?
아래 지표들의 값이 작을수록 좋은 추정(추정오차가 최소화)이라고 할 수 있다.
- MSE(mean of saquared error, 평균 제곱 오차)
- (1) 표본평균들이 모평균으로부터 떨어진 거리인 추정오차를 제곱해서 (-) 부호를 떼어낸다
- (2) 이 값들을 전부 합산해서 표본평균의 수로 나눈다
- RMSE(root mean of saquared error, 평균 제곱근 오차)
- 분산에 표준편차가 있듯이, MSE에도 똑같이 루트를 씌운 것
R(MSE)를 최소화할 수 있는 추정의 수학적 논리를 찾는 여정
- 기댓값(expected value)이 추정치의 편의를 최소화하는 계산 방식임이 확인됐다.
- 여기서 문제는, 모수를 추정하기 위한 추정량(estimator)의 후보들은 하나 둘이 아닌데, 무엇의 기댓값을 구할 것인가? 이다.
- 수학자들은 중앙값이나 최빈값이 아닌, 평균의 기댓값을 구했을 때 비로소 그 기댓값이 모평균과 동일하다고 유도되는 것을 발견했다. (E(m)=μ)
- 이처럼, 표본의 추정량으로부터 기댓값을 구했을 때 모수와 동일하다는 결론이 나온다면 불편성(unbiasedness)을 만족한다고 표현하고, 이런 추정량들을 불편추정량(unbiased estimator)이라고 한다.
- 여기서 문제는, 모수를 추정하기 위한 추정량(estimator)의 후보들은 하나 둘이 아닌데, 무엇의 기댓값을 구할 것인가? 이다.
불편추정량(unbiased estimator)
- 표본의 통계량이 모수에 최대한 가깝게 추정하기 위해 편의와 분산을 최소화하는 추정량
효율추정량(efficient estimator)
- 여러 추정량들 중에서 분산이 충분히 작게 나타나는 성질인 효율성(efficiency)을 만족하는 추정량
일치추정량(consistent estimator)
- 표본의 크기가 커질수록 각 추정치들이 모수를 향해 점근적(asymptotic)으로 모여드는 경향을 보이는 일치성(consistency)을 만족하는 추정량
즉, 좋은 추정은 불편성을 만족할 뿐만 아니라(편의의 최소화) 그와 동시에 효율성까지도 만족해야 한다(분산의 최소화) + 일치추정량
이처럼 추정에 있어서 오차를 최대한으로 줄이려고 노력하였으나, 모수를 콕 집어 말하는 식으로 점추정을 하는 경우는 실제로 거의 없긴 하다. 그러나 점추정의 기본 논리를 기반으로 구간추정의 개념을 뒷받침할 수 있게 되었다.
구간추정(interval estimation): 추정의 오류 관리
- 점추정은 불확실성이 얼마나 큰지에 대한 정보를 주지 못하기 때문에 이에 대한 보완 논리가 필요하게 되었다.
- 점보다는 구간으로 추정하는 것이 더 바람직하지만, 이때는 구간의 "산정 근거"가 있어야 한다.
- 여기서 구간은 필요한만큼 정확하면서도(좁을수록 바람직) 그 정확성을 담보하는 한에서 안전해야 한다(넓을수록 바람직)
- 구간추정의 확률 계산법은, 표본을 계속 재추출하며 같은 구간으로 반복추정을 했을 때, 그 구간 속에 모수가 얼마나 자주 들어있어야 하는가에 대한 해답부터 시작된다.
- "반복 추정"이라는 전제를 넣어야 모수가 들어있을 확률의 계산 (P(m-ε≤μ≤m+ε))이 가능해지는 것이다.
- 표본을 반복 추출하여 구간 측정을 하는 동안, 그 구간 속에서 얼마나 자주 모수가 발견되도록 구간을 조절해야 하는가에 대한 문제를 "신뢰수준(confidence level)"이라고 정의한다. (즉 모수 추정이 맞을 확률)
- 더불어, 모수 추정이 틀릴 확률을 유의수준(significance level, 알파, α)라고 정의한다.
- 따라서, 신뢰수준과 유의수준(α)를 합하면 전체 확률이 된다.
- 신뢰수준은 관행적으로 100번의 구간추정 중 95번의 추정에서 모수가 발견되는 수준에서 추정의 정확성과 안전성을 관리하는 것으로 추구된다. (1-α=0.95)
- 거꾸로 말하면, '꽝(틀림)'에 걸릴 확률이 5% 수준으로 관리되도록 (α=0.05) 구간을 조절하고자 하는 것이다.
여기까지 0.95 혹은 95%라는 신뢰수준을 얻었으니, 다음으로는 반복추정 시 모수가 발견될 확률이 이 기준을 충족할 수 있도록 신뢰구간(CI, confidence interval)을 정하면 된다. (P(m-ε≤μ≤m+ε)=1-α=0.95)
- 이는 곧 표본평균에서 더하거나 뺄 특정한 숫자(ε)를 어떻게 산출할 것이냐의 문제로
- 만약 ε가 작으면 구간이 좁아지는 것이고, ε가 크면 구간을 넓게 잡는것을 의미하기 때문에 확률이 0.95에 일치하도록 ε를 키우거나 줄여야 한다.
나무위키 추론통계학
https://namu.wiki/w/%EC%B6%94%EB%A1%A0%ED%86%B5%EA%B3%84%ED%95%99
'Statistics' 카테고리의 다른 글
변동계수(CV) (0) | 2024.05.09 |
---|---|
간단한 특이치 식별 방법 - 그래프로 확인하기 (0) | 2024.04.18 |
통계 분석 방법: 추론 통계학/개요 및 표본분포 (0) | 2024.04.12 |
통계 분석 방법: 기술 통계학/자료의 정리 및 시각화 (0) | 2024.04.12 |
통계 분석 방법: 기술 통계학/자료의 요약 - (3) 왜도와 첨도 (0) | 2024.04.11 |