* 자료의 요약 - 수치
- 모집단 개체의 수: N
- 중심 경향값(대표값)
-- 평균(Mean)
: $\mu = \frac{x_1+...+x_N}{N} = \frac{\sum_{i=1}^N x_i}{N}$
--- mean은 하나의 큰/작은 값이 있을경우 영향이 크다
-- 중앙값(Median): 크기순으로 정렬시켜 중앙에 위치한 값.
-- 최빈값(Mode): 가장 자주 나오는 값
--- 하나의 큰/작은 값에 영향이 작다
--- mean과 median이 같은 경우 좌우 대칭이다.
- 산포도(퍼진정도)
-- 분산(Variance):
$\sigma^2 = \frac{\sum_{i=1}^N (x_i-\mu)^2}{N}$
-- 사분위수 범위(Inter quartile range)
--- 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
--- 앞/뒤 25% 자룐느 잘라낸 범위
- 정규분포
-- 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포
-- 위치는 평균에 의해, 모양은 분산에 의해 결정
- 분포도
-- 정규분포를 설명한 이유
-- 왜도(Skewness)
--- 분포의 비대칭 정도
--- Left/Right-skewed를 Nagative/Positive skewed로 표현하기도 함
--- 꼬리가 긴쪽이 명칭 기준이 됨
-- 첨도(Kurtosis)
--- 분포의 꼬리 부분의 비중에 대한 측도
---$K_s = 0$ (표족한 정도가 정규분포와 동일)
--- 정규분포와 비교하여 뾰족한 경우 $K_s > 0$, 뭉툭한 경우 $K_s < 0$
* 자료의 요약 - 통계량, 추정량
- 추정량의 종류( 표본 관측치의 개수: n)
-- 표본평균
: $\bar{X} = \frac{\sum_{i=1}^n x_i}{n}$
-- 표본분산 (Sample Variance)
: $s^2 = \frac{\sum_{i=1}^n (x_i-\mu)^2}{n-1}$
모집단에서 표본을 추출하는것을 반영하기 위하여 분모를 (n-1)로 사용
실제 $\mu$는 모르기 때문에 표본평균 $\bar{X}$로 대체