카테고리 없음

수학적 개념 이해 - 기술 통계량, 추정량

문베디드 2020. 11. 30. 09:02

 

* 자료의 요약 - 수치

 - 모집단 개체의 수: N

 - 중심 경향값(대표값)

  -- 평균(Mean)

   : $\mu = \frac{x_1+...+x_N}{N} = \frac{\sum_{i=1}^N x_i}{N}$

   --- mean은 하나의 큰/작은 값이 있을경우 영향이 크다

  -- 중앙값(Median): 크기순으로 정렬시켜 중앙에 위치한 값.

  -- 최빈값(Mode): 가장 자주 나오는 값

   --- 하나의 큰/작은 값에 영향이 작다

   --- mean과 median이 같은 경우 좌우 대칭이다.

 

 - 산포도(퍼진정도)

  -- 분산(Variance):

$\sigma^2 = \frac{\sum_{i=1}^N (x_i-\mu)^2}{N}$

  -- 사분위수 범위(Inter quartile range)

   --- 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위

   --- 앞/뒤 25% 자룐느 잘라낸 범위

 - 정규분포

  -- 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포

  -- 위치는 평균에 의해, 모양은 분산에 의해 결정

 

 - 분포도

  -- 정규분포를 설명한 이유

  -- 왜도(Skewness)

   --- 분포의 비대칭 정도

   --- Left/Right-skewed를 Nagative/Positive skewed로 표현하기도 함

   --- 꼬리가 긴쪽이 명칭 기준이 됨

  -- 첨도(Kurtosis)

   --- 분포의 꼬리 부분의 비중에 대한 측도

   ---$K_s = 0$ (표족한 정도가 정규분포와 동일)

   --- 정규분포와 비교하여 뾰족한 경우 $K_s > 0$, 뭉툭한 경우 $K_s < 0$

  

* 자료의 요약 - 통계량, 추정량

 - 추정량의 종류( 표본 관측치의 개수: n)

  -- 표본평균

   : $\bar{X} = \frac{\sum_{i=1}^n x_i}{n}$

  -- 표본분산 (Sample Variance)

 : $s^2 = \frac{\sum_{i=1}^n (x_i-\mu)^2}{n-1}$

 모집단에서 표본을 추출하는것을 반영하기 위하여 분모를 (n-1)로 사용

 실제 $\mu$는 모르기 때문에 표본평균 $\bar{X}$로 대체