기초 통계분석 - 02 - 기술통계학
R 통계분석(제대로 알고 쓰는) - 이윤환저'의 책을 통해 기초 통계분석 학습
1. 기술통계학
1.1. 그래프
1.1.1. 기술통계학의 개요
통게학은 기술통계학을 통해 자료를 요약하고, 이를 바탕으로 추측통계학을 통해 모집단의 특성을 추측한다. 통계학에서 자료를 통해 알고자 하는 것이 '모집단’의 특성이다.
-
기술통계학(descriptive statistics) : 자료를 수집 및 정리하여 자료의 특성으로 자료를 요약하는 분야
-
추측통계학(inferential statistics) : 표본의 특성을 통해 모집단의특성을 추론
1.1.2. 그래프의 개요
-
그래프(graph) : 자료의 모양을 그림으로 표현하는 것
1.1.3. 산점도
-
산점도(plot) : x축과 y축으로 구성된 좌표계 위에 이차원(양적변수 두 개) 자료를 점으로 표현하여 두 변수 간의 관계를 나타낼 수 있는 도표
1.1.4. 막대그래프와 히스토그램
-
막대그래프 : 이산형 혹은 질적 자료의 개수를 나타내기 위해 주로 사용
-
히스토그램 : 연속현 자료의 개수 호근 비율을 나타내기 위해 주로 사용
1.1.5. 원 도표
-
원도표(pie-chart) : 질적 자료에서 각 범주가 데이터에서 차지하는 비율을 나타내는데 사용할 수 있는 그래프. 원의 각 조각은 데이터의 범주를 나태내므로, 조각의 크기를 비교, 대조함으로써 각 범주의 상대적인 크기를 평가할 수 있음
1.2. 모수와 통계량
-
기본적인 자료의 특성
-
최대값과 최솟값 : 자료 중 가장 큰 값과 가장 작은 값
-
최빈값 : 가장 많이 관찰된 값
-
평균과 중앙값 : 자료들의 중심
-
표준편차와 사분위수 범위 : 자료들이 퍼져 있는 정도
-
1.2.1. 최대값과 최솟값
-
최대값 : 자료들 중 가장 큰 값
-
최솟값 : 자료들 중 가장 작은 값
1.2.2. 최빈값
-
최빈값(mode) : 자료등중 가장 많이 관찰된 값
1.2.3. 평균과 중앙값
-
평균과 중앙값이 전체 자료들을 대표하는 값이기는 하지만, 대표값만으로 전체 집단을 나타내면 개별 자료가 갖고 있는 특성들은 모두 무시됨
-
중앙값(median) 또는 중위수 : 자료들의 순서상 중심, 자료를 순서대로 나열해 놓아 순서상 가운데 위치하는 값을 나타냄
-
중앙값 수식
-
홀수일 때 : \$x_{median} = x_{ ({n+1} / {2}) }\$
-
짝수일 때 : \$x_{median} = { x_{ ({n} / {2}) } + x_{ ({n} / {2} + 1) } } / {2}\$
-
-
중앙값 특성
-
강건함(robust) :
-
양 끝 값의 변화에 민감하게 반응하지 않음
-
끝 값이 변하더라도 순위에 영향을 미치지 않으면, 중앙값은 변하지 않음
-
-
-
-
평균(mean) : 자료들의 무게 중심, 산술평균
1.2.4. 표준편차와 사분위수 범위
-
표준편차
-
편차(deviation) : 개별 관찰값과 평균과의 차이
-
자유도(degrees of freedom) : n개의 자료가 있을 때 그들의 편차 중 (n-1)개는 원하는 값을 마음대로 가질 수 있는 정도
-
분산(variance) : 편차 제곱의 평균
-
표준편차(standard deviation)
-
평균과 분산을 같이 쓰기에는 평균의 단위는 길이이고 분산의 단위는 면적이므로 일치하지 않음
-
따라서 단위를 맞추기 위해 제곱으로 되어 있는 분산의 제곱근을 구하면됨
-
표준편차를 이용하여 일반적으로 '평균±표준편차’의 형태로 자료의 편균과 퍼진 정도를 숫자로 표현
-
-
변동계수(coefficient of variance) : 평균에 대한 상대적인 변동성의 크기
-
수식 : \$CV = {8} / {bar x}\$
-
-
-
사분위수
-
사분위수(quartile) : 전체 자료를 순서대로 나열한 후 4등분 한 각각의 위치로, 자료의 25%, 50%, 75%, 100%가 되는 값
-
25% : 제1사분위수(Q1), 50% : 제2사분위수(Q2) / 중앙값, 75% : 제3사분위수(Q3), 100% : 제1사분위수(Q4)
-
-
사분위수 범위(inter quartile range) : 제1사분위수에서 제3사분위수. 중앙값을 포함하는 영역을 나타내는 가장 작은 영역
-
이상치(outlier) : 관찰된 자료가 다른 값들과 많이 떨어져 있는 값
-
사분위수와 사분위수 범위를 이용해 판별
-
-
자료 출처에 따른 자료의 특성
-
표본 : 통계량(statistic)
-
모집단 : 모수(parameter)
-
즉 표본의 특성을 통계량, 모집단의 특성을 모수
-
-