전체 글 109

수학적 개념 이해 - 검정통계량의 분포

* Z 통계량 - 귀무가설: X의 평균이 $\mu_0$이다. - Z = $\frac{\bar{X}-\mu_0}{\sqrt{\frac{\sigma^2}{n}}}~N(0,1)$ (※ ~는 앞내용이 뒷내용 확률분포임을 표시) Z값이 표본 정규분포로 가게되며, 우리가 얻은 $\bar{X}$의 값이 $\mu$값에서 얼마나 떨어져있는지에 따라서 검정 - 실제로 분모값 $\sqrt{\frac{\sigma^2}{n}$은 알수가 없음, 모집단의 분산이기 때문 -- 이 때 관측치의 수가 충분하면(30개이상) $\sigma^2 \text{를} s^2\$으로 대체 가능 (그냥은 안됨) 이럴때 Z분포에 근사한다고 말할수 있다. * t분포 - $t = \frac{\bar{X}-\mu_0}{\sqrt{\frac{s^2}{n}}}~..

카테고리 없음 2020.12.04

수학적 개념이해 - 추정, 추론

* 통계적 추론 - 점추정(Point estimation) -- 추정량을 통해 모수를 추정 예) $\bar{X}, s^2 -> \mu, \sigma^2$ -- 점추정의 문제점: 표본평균은 표본에 영향을 받기 때문에, 중심값은 모수 근처지만 얼마나 가까운지 알아야하고 구간추정을 통하여 설명할 수 있다. - 구간 추정(Interval estimation) -- 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 제시 -- 신뢰 수준과 구간의 길이는 반비례, 신뢰성이 커지는것이 $\alpha$가 작아지는것을 의미하고 구간은 커짐 -- 중심값을 기준으로 구간을 제시함 * 통계적 검정 - 대립가설(H1) -- 입증하여 주장하고자하는 가설 - 귀무가설(H0) -- 대립가설의 반대가설 -- 귀무가설이 아니라는..

카테고리 없음 2020.12.03

수학적 개념 이해 - 이산형 확률 분포, 연속형 확률 분포

* 이산형 확률 분포 - 베르누이 시행 -- 실험 결과의 범주가 2가지 (P/F) -- X=1(Pass) / X = 0(Fail) --- $f(x) = p^x(1-p)^{1-x}$ 예) 앞면이 성공인 동전던지기 - 이항분포 -- 성공확률이 p인 베르누이 시행을 독립적으로 n번 시행하였을 때 성공한 횟수의 분포 --- $f(x) = \frac{n!}{x!(n-x)!}\centerdot p^x(1-p)^{n-x}$ $\left(\frac{n!}{x!(n-x)!}\right)$ = $_{n}\mathrm{C}_{x}$ ---- $n\geq x \geq 0, 정수$ 예) 동전 n번 던져 앞면의 횟수 - 다항분포 -- 다항시행: 1회의 시행결과로 나올 수 있는 범주가 3개 이상이 되는 확률 시험 -- K개 범주의..

카테고리 없음 2020.12.02

수학적 개념 이해 - 확률의 기초

* 확률 - 확률실험(Random experiment): 다음속성을 지닌 관찰, 인위실험 -- 실험의 결과를 미리 알 수 없다. -- 실험에서 일어날 모든 결과가 알려져 있다. -- 이론적으로는 실험 반복 가능 - 표본공간(Sample space): 모든 결과들의 모임 - 근원사건(Sample outcome): 표본공간의 원소 - 사건(Event): 표본공간의 부분집합, 근원사건의 집합 -- 배반사건(Mutually Exclusive Events):서로 교집합이 공집합인 사건 - 확률실험1: 주사위 실험 - Random experiment - Sample space 표기: S 혹은 $\Omega$ : $\Omega$ = {1,2,3,4,5,6} - Sample outcom: 1,2,3,4,5,6 - Ev..

카테고리 없음 2020.12.01

수학적 개념 이해 - 기술 통계량, 추정량

* 자료의 요약 - 수치 - 모집단 개체의 수: N - 중심 경향값(대표값) -- 평균(Mean) : $\mu = \frac{x_1+...+x_N}{N} = \frac{\sum_{i=1}^N x_i}{N}$ --- mean은 하나의 큰/작은 값이 있을경우 영향이 크다 -- 중앙값(Median): 크기순으로 정렬시켜 중앙에 위치한 값. -- 최빈값(Mode): 가장 자주 나오는 값 --- 하나의 큰/작은 값에 영향이 작다 --- mean과 median이 같은 경우 좌우 대칭이다. - 산포도(퍼진정도) -- 분산(Variance): $\sigma^2 = \frac{\sum_{i=1}^N (x_i-\mu)^2}{N}$ -- 사분위수 범위(Inter quartile range) --- 전체 관측값을 크기순으로 ..

카테고리 없음 2020.11.30

회귀분석을 위한 통계 수학점 개념이해- 통계학 기초

* 통계학이란? - 모집단(Population) --연구의 대상이 되는 개체들을 모은 집합 -- 우리가 전부를 수집할 수 없는 대상이라고 생각하면됨 - 표본(sample) -- - 모수(Parameter): 수치로 표현되는 모집단의 특성 - 통계랑(Statistic): 표본의 관측값들에 의해 결정되는 값 * 자료의 종류 - 수치형(양적자료) -- 연속형(몸무게, 키), 이산형(전화 통화 수) - 범주형 -- 순위형(학점), 명목형(성별) - 자료에 따른 분석 방법 반응변수 설명변수 범주형 연속형 범주형(이분형) 범주형 자료분석 (카이스퀘어 검정) 로즈스틱 회귀분석 연속형 분산분석 회귀분석 *자료의 요약 - 자료를 어떻게 보여주는가 - 범주형 자료 -- 도수분포표, 막대/원형 그래프 등 자료의 표현 방법으..

카테고리 없음 2020.11.30

티스토리에서 LaTex 수식 입력하기

좋은 글이 있어 공유합니다. bskyvision.com/476 티스토리에서 LaTeX 수식 사용하기 (오예~) 티스토리 에디터가 바뀌면서 기존의 수식편집기가 사라졌다. 포스팅을 하면서 수식을 사용하는 빈도가 많은 나로써는 약간 당황스러웠다. 하지만 오히려 더 좋은 기회가 된 것 같다. 티스토리 bskyvision.com 또한 Tex 문법을 알면 더 좋기 때문에 이것도 공유합니다. ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:TeX_%EB%AC%B8%EB%B2%95 위키백과:TeX 문법 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 위키백과에서는 수학 공식을 간편하게 입력하기 위해, TeX 문법을 지원합니다. 이것은 수식이..

카테고리 없음 2020.11.27

과적합(Overfitting)이란

* 과적합이란 - 복잡한 모형일수록, 데이터가 적을 수록 과적합이 일어나기 쉬움 - 데이터에 대한 고차항을 넣었을때 만들어지는 이슈 - 과적합은 data science, AI전반적으로 매우 큰 이슈 - overfitting을 방지하기 위한 기술들만 발전하고 있을뿐, 아예 없앨수 있는 방법은 아직 없음 * 분산(Variance)와 편파성(Bias)의 트레이드오프 (Tradeoff) Dilemma - 모형 F햇(X) 모집단 전체 데이터를 예측시 발생하는 총 에러를 계산시 reducible/irreducible 에러로 표현됨 - reducible error는 분산과 편파성으로 구성 $E(Y-\hat{Y})^2=E[f(X)+\epsilon - \hat{f}(X)]^2 = Var (\hat{f}(X))+[Bias..

카테고리 없음 2020.11.27

모형의 적합성 평가 및 실험 설계

* 모형의 적합성을 평가하는 방법 - MSE(Mean Squared Error)는 낮을 수록 좋음, 높은 경우 fitting이 덜된것(under fitting) - 학습집합의 MSE는 모형의 복잡도에 따라 달라지고, 복잡할수록 감소하지만 과적합(overfitting)문제 발생 가능 * 데이터 분할 - 학습데이터와 시험데이터로 분할 필요 (Training Test - 8:2, 7:3 정도/Training Validation Test - 5:3:2 정도) - 보통 Training Validation Test 구분하여 나눠서 진행 - 학습데이터: 모형 f를 추정하는데 사용 - 검증데이터: 모형 f가 잘 설계 됐는지 사용(k값 피드백 줄수 있음) - 시험데이터: 모형 f에 대한 성능평가 이 데이터로 학습 x -..

카테고리 없음 2020.11.27

Machine Learning의 종류

* 선형 회귀 분석(Linear Regression) - 독리변수와 종속변수가 선형적인 관계가 있다는 가정하에 분석 * 의사결정나무(Decision Tree) - 독립변수의 조건에 따라 종속변수를 분리(비 -> 축구No) - overfitting이 잘 일어남 - ensemble model의 기초 * KNN(K-Nearest Neighbor) - 새로 들어온 데이터의 주변 k개의 데이터의 class로 분류하는 기법 - hyper paramete: k개와 같이 사람이 지정해줘야 하는 매개변수 * Neural Network - 입력, 은닉, 출력층으로 구성된 모형으로서 각 층을 연결하는 노드의 가주잋를 업데이트하며 학습 - overfitting 단점이 있음 * SVM(Support Vector Machine)..

카테고리 없음 2020.11.26