본문 바로가기

Statistics

(9)
변동계수(CV) CV, coefficient of variation측정 단위가 다른 자료를 비교할때 쓰는 지표로, 변동계수 = 표준편차 / 평균으로 계산한다. 데이터를 표준화하는 방법 중 하나동등한 레벨로 비교대상 데이터를 맞추고 보자는 아이디어에서 나옴 평균이 커지면 표준편차도 커지기 때문에, 평균을 똑같이 맞춰주면 된다.따라서, 변동계수 = 표준편차 / 평균으로 계산한다. 변동계수가 데이터를 표준화하는 방법 중 하나인 이유? 위의 두가지 방식을 비교해 보면, 변동계수라는 것은 결국 "원래 데이터의 평균을 1로 만들었을때의 표준편차"를 의미하기 때문에 변동계수란 데이터를 표준화하는 방법 중 하나라고 설명할 수 있다.결국 평균을 1로 표준화한 것이기 때문   변동계수 활용 사례 아파트가 원룸에 비해 표준편차가 크니, 아..
간단한 특이치 식별 방법 - 그래프로 확인하기 특이치란? 비정상적으로 크거나 작은 관측치로, 평균과 같은 통계 결과에 불균형적인 영향을 미칠 수 있기 때문에 잘못된 해석이 나올 위험성이 있다. 특이치를 확인하는 가장 쉬운 방법은 데이터를 '그래프'로 표시하는 것이다. 상자그림을 사용하여 특이치를 식별하기 상자 그림에서의 특이치는 별표(*) 기호를 사용하여 표시한다. 상자의 가장자리에서 사분위수 간 범위(Q3-Q1)보다 1.5배 이상 떨어진 관측치를 특이치로 정의한다. 따라서, 위의 상자그림에서는 2개의 특이치가 발견된 것으로 이해할 수 있다. 산점도를 사용하여 특이치를 식별하기 산점도에서는 다른 점들로부터 멀리 떨어진 점이 있을 경우 특이치로 의심할 수 있다. (특이치일 가능성 있음) 둘 이상의 그래프를 통해 특이치를 식별하기 경우에 따라 하나의 ..
통계 분석 방법: 추정(점추정/구간추정) 추정(estimation)의 수학적 기초는 회귀분석에서도 의지하고 있다. 추정량(estimator): 모수를 추정할 수 있으리라 여겨지는 통계량의 후보들 추정치(estimate): 실제로 표본추출 결과 얻어진 추정량의 관찰값 예를 들어, 어떤 표본의 평균이 14.88 이라면? 추정량(estimator)은 표분 평균이고, 추정치(estimate)는 14.88이 된다. 점추정(point estimation): 좋은 추정량의 기준 점추정이란, 모집단에서 모수(parameter)의 값을 '하나의 숫자'로 추정하는 통계적 방법이다. 표본을 통해 모집단의 특성을 유추하는 과정으로, 특정한 값을 통해 모수의 추정치를 제공 예를 들어, 양궁에서 과녁에 화살을 쏘아 정확히 중앙에 꽂는 것과 같이, 점추정은 표본을 통해 ..
통계 분석 방법: 추론 통계학/개요 및 표본분포 추론 통계학(inferential statistics) 전체 모집단 중 일부를 표본으로 추출하여 통계량을 구한 뒤, 오차 및 오류의 허용 수준을 객관적으로 관리하면서 모수의 불확실한 성질을 추정하고, 이를 근거로 하여 특정한 진술을 받아들일지를 검정하는 학문 즉, 추정된 정보만 가지고 무엇을 검정한 결과를 자기 의사결정의 근거로 삼는 추론(inference)이라는 활동을 통한 것 표본오차/SEM 표본오차(sampling error) 표본평균과 모평균의 차이(m-μ) 이상하게 튀는 표본에서 유독 극심해지는 문제 해결을 위해 표본오차를 줄이기 위한 연구를 진행했는데, '표본의 크기가 모집단 크기에 대해 증가할수록 감소하는 경향'을 보였으나, 이런 경우 추론이라는 활동의 가치가 떨어지는 것이므로 다수의 표본을..
통계 분석 방법: 기술 통계학/자료의 정리 및 시각화 도수분포표(frequencty distribution table) 방대한 자료들이 관찰되는 빈도의 분포를 표 형태로 정리하는 가장 기본적인 방법으로 질적/양적 자료 모두에 쓰일 수 있다. 각 범주들 사이 별다른 서열 순서나 의미가 없다면 도수 기준 내림차순 정렬을 하는 것이 좋다. 도수가 n 이하로 나타나는 경우 "기타" 범주를 생성하여 합산한 결과를 넣는 것도 가능하다. 몇 이하를 기준으로 할 것인지는 상황에 따라 다르며, 실무에서 굉장한 이슈가 되기도 한다. 도수가 0인 범주가 존재하기도 하는데, 0이라고 무조건 삭제해서는 안된다. 의미를 잘 파악해야 한다. 질적 자료가 아닌 양적 자료의 경우, 도수분포표로 그대로 사용하게 되면, 범주별 도수가 1로 많이 나올 가능성이 있다. 이 경우, 일정한 구간마..
통계 분석 방법: 기술 통계학/자료의 요약 - (3) 왜도와 첨도 중심화 경향: 자료들이 대체로 어디쯤에 몰려 있는지를 보여줌 분산을 비롯한 산포 요약들: 자료들이 얼마나 중구난방으로 흩어져 있는지를 보여줌 이런 요약들 중 어느 것도 설명해내지 못하는 자료의 특성이 있을까? 있다. 자료가 갖는 "비대칭성"은 설명하지 못한다. 왜도(skewness) 주어진 자료가 얼마나 비대칭성을 보이는지 요약해 보여주는 모수 즉, 데이터가 대칭이 아닌 정도를 나타내며 왜도 값(0, 양수, 음수)이 데이터 형상에 대한 정보를 나타낸다. 가능한 모든 정수 값을 가질 수 있으며, 왜도가 0일 때 분포는 거울처럼 좌우대칭의 모양을 띈다. 데이터가 대칭에 가까울수록 왜도 값은 0에 가까워진다. 그러나, 왜도가 0에 가깝다고 해서 '정규성을 의미하지는 않는다' 그림 A와 B 둘다 왜도는 0이지만..
통계 분석 방법: 기술 통계학/자료의 요약 - (2) 자료의 산포 중심화 경향은 대량의 자료가 '대략 어디쯤에서 모이는가'의 특성이나 속성은 잘 보여주지만, 막상 그 자료가 그 대푯값에 얼마나 밀집되어 있는지, 아니면 얼마나 퍼져 있는지는 보여주지 못한다. 만약, "자료의 퍼져 있는 정도"를 알고 싶다면 "산포 경향"을 보여주는 다른 요약을 시도해야 한다. 산포 요약 종류 범위(range) 주어진 관찰값들에 존재하는 최댓값에서 최솟값을 빼서 구하며, 이상점에 매우 민감하다. 평균편차(MD, mean deviation) 산술평균과 각 관찰값들 사이의 편차의 합이 0이라는 산술평균의 성질에서 기인하여, 이를 우회하기 위한 가장 기초적인 조치로써 "모든 편차에 절댓값을 취해 산술평균"하는 것 현실적으로는 거의 쓰이지 않는 요약이긴 하다. 분산(var, variance) 산술..
통계 분석 방법: 기술 통계학/자료의 요약 - (1) 중심화 경향 기술 통계학(Description statistics)이란? 수집된 자료를 정리하여 표나 도표로 제시하거나, 자료를 요약하여 그 산포나 대푯값을 구하는 학문 쉽게 말해 자료를 '요약'하는 것 이는 자료가 갖고 있는 특성이나 속성을 몇 종류의 수치만으로 한눈에 볼 수 있게 압축한다는 것을 의미한다. 중심화 경향(Central tendency) 자료에서 빈도상의 패턴 등이 집중되는 경향이 발견되는 것으로, 이를 나타내는 수치를 '대푯값(representative value)'이라고 한다. 대푯값에는 평균 mean(산술/기하/조화), 중앙값(median), 최빈값(mode) 등이 있다. 산술평균(arithmetic mean) 전체 관찰값들의 총합을 관찰값의 수로 나눈 것으로, 관찰값들의 수가 서로 다를 때에도..