2020/12 15

회귀분석이란

*회귀분석 - 지도학습(Supervised learning) Y = f(X) 에 대하여 입력변수(X)와 출력 변수 (Y)의 관계에 대하여 모델링 하는 것 (Y에 대한 예측이나 분류하는 문제) -- 회귀(regression): 입력 변수 X에 대해서 연속형 출력변수 Y를 예측 -- 분류(classification): 입력 변수 X에 대해서 이산형 출력 변수 Y(class)를 예측 - 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법 - 회귀분석 중 간단한 방법으로는 선형회귀분석이 있으며, 이를 바탕으로 복잡한 비선형 회귀 가능 - 대부분의 분류모델(SVM, Decision Tree등)으로 회귀 가능 * 단순선형회귀분석 - 변수가 하나일때 하는 방법 - 여러개라면 다중선형회귀분석 - 실제 $..

카테고리 없음 2020.12.24

수학적개념이해 - Matrix 미분의 회귀분석에 활용

*Matrix 미분 - 회귀분석에 적용 -- 모델: $y=X\beta+\varepsilon (\varepsilon = error)$ 모델형태가 n개의 관측치가 리니어폼을 따른다는 것을 표현한 것 --오차제곱합: 스칼라 값으로 값이 크면 모델에 오차가 많음을 나타냄, 최대한 작게끔 하는게 중요함 -- 오차제곱합을 최소로 하는 $\hat{\beta} (rbeta)$을 구하고자 함 미분값이 0일때의 $\hat{\beta} (rbeta)$ 값 --$\beta$는 column vector $\beta^T$(raw vector)로 미분을 했으니 column vector로 형태가 결정되어야 한다. 왜냐하면 우리가 구하고 싶은 것이 $\hat{\beta}$(column vector)이기 때문에 raw vector로 미..

카테고리 없음 2020.12.23

수학적 개념 이해 - 주요 Matrix 미분 결과 정리

* Matrix 미분 - 주요 미분 결과 정리 (numerator layout) -- 회귀분석 과정들을 증명할 때 쓰임 -- 쉽게 기억하려면 일반적인 미분으로 생각할수 있다. $(ax^2)' = 2ax $ 인것처럼 $x^T(A+A^T) = 2X^TA$ 이라고 생각하면 되는데 왜냐하면 통계에서는 대부분의 경우 symmetric 행렬을 다루기 때문에 $A = A^T$ 이기 때문이다. - 주요 미분 결과 간편 활용 방법 -- 내적형태 --- 미분하면 a꼴이 나올 것. 스칼라 - 벡터의 미분 -> 분모 차원의 반대. 1xp 만들어주기 -- Matrix vector 곱 형태(Linear form) --- 미분하면 A꼴이 나올 것. 벡터-벡터의 미분 -> 분자의 차원 유지. A의 행차원과 같이 만들어주기 --제곱형..

카테고리 없음 2020.12.22

수학적 개념이해 - Matrix 미분 기초

* Matrix 미분 - 미분 표기법의 종류 -- Numerator layout* (많이 쓰임) 미분 당하는 변수(혹은 함수)를 기준으로 결과의 형태를 표기 -- Denumerator layout 미분을 하는 변수(혹은 함수)를 기준으로 결과의 형태를 표기 -- 핵심은, 의도한 미분을 수행했을 때 결과값의 차원 -- 표기법때문에 헷갈림 - Numerator와 Denumeraotr는 서로 transpose 관계이다. - Scalar를 vector로 미분 - Vector를 scalar로 미분 - Scalar를 matrix로 미분 - Matrix를 scalar로 미분 - Vector를 vector로 미분**(많이 쓰임) - (예시) $a^Tx$ 의 미분(Numerator layout) -- $a^Tx$는 스칼..

카테고리 없음 2020.12.22

회귀분석 - Matrix 정의 및 성질

*Matrix 표기법 - Matrix - Vector -- 행 또는 열의 수가 1인 경우, 전자는 row vector, 후자는 column vector - Transpose(전치) and symmetric(대치) --Symmetric 정의 = 행렬을 Transpose 했을때 A는 Symmetric 이다. $A = A^T$ - Scalar: 1by1 matrix - Identity matrix 대각 원소가 1인 정방행렬(정사각형 행렬) - Diagonal matrix - Equality -- A=B 행렬 - 합차의 성질 -- 행렬의 합차 - 곱 -- 상수배 -- 행렬곱 - 내적 -- Row vector와 Column vector의 곱 - 행렬곱의 성질 - Trace -- 대각 성분들만 더하는 것 - 행렬식..

카테고리 없음 2020.12.18

Chapter02 회귀분석 - Likelihood

*Likelihood - Probability density function(PDF) -- 평균 $\mu_0$, 분산1을 독립 정규분포를 따르는 확률변수 $X_i$의 확률분포함수(확률밀도함수; 연속형변수) $f(x_i) = \frac{1}{\sqrt{2\pi\cdot 1}}exp\left( -\frac{(x_i-\mu_0)^2}{2\cdot1}\right)$ -$X_1 = x_1, X_2 = x_2, X_3 = x_3$, 3개의 자료가 있을떄, 확류분포 함수 적용 - Likelihood function -- 동일한 함수이나 $\mu_0$를 변수로 인식 (세미콜론은 주어졌다는 의미) -- $X_1 = 1, X_2 = 2, X_3 = 3$ 일때 -- 예시 그래프 *무료 그래프 사이트 https://www.d..

카테고리 없음 2020.12.16

수학적개념 이해 Likelihood

- 미분은 극대/극소 값을 찾기 위해서 하는것이다. - 통계에서는 왜 극대/극소를 찾아야 하는가? * Likelihood - Likelihood function(가능도함수/우도함수) - 같은 식에서 모수(x)관점에서 보느냐 결과값(u) 기준으로 보느냐의 차이 - X1 =1, X2=2 X3=3 이라는 3개의 자료가 있을때 평균 u0이 어느 값일 확률이 높는가? -> 가능도 함수 - $\mu_0$를 추정하는 방법? --$f(x_1, x_2, x_3) = (\frac{1}{\sqrt{2\pi*1}})^3 exp(-\frac{(x_1-\mu_0)^2 + (x_2-\mu_0)^2+(x_3-\mu_0)^2}{2*1})$ -- x값은 주어져 있기 때문에 $\mu0$를 변수로 보는것이 Likelihood 개념 - 확률..

카테고리 없음 2020.12.15

수학적 개념 이해 - 미분의 개념

* 미분의 개념 - 평균변화율 -- x가 변할때 y의 변화량 -- $\frac{f(b)-f(a)}{b-a}$ - 순간변화율 $f'(a)$ -- 평균 변화율의 극한 값 -- b점이 a점으로 한없이 가까워질 때, a점에서의 순간변화율 -- a점에서의 접선의 기울기 - 다항함수 미분 및 미분 기본공식 -- 미분은 모든 점에서의 기울기를 생각하는 것 -- $f(x) = c -> f'(x) = 0$, c는 상수 //f'(x)는 도함수, 순간변화율을 함수값으로 가지는 함수 -- $f(x) = x^n -> f'(x) = nx^{n-1}$, n은 자연수, -- (참고)$f(x) = x^k -> f'(x) = kx^{k-1}$, k은 유리수 (예: $(x^\frac{1}{2})' = \frac{1}{2}x^{-\frac..

카테고리 없음 2020.12.15

[파이썬]환경설정 pip SSL certificate

파이썬 모듈로 jupyter notebook, pandas, matplotlib 을 설치하려고 하였는데 회사 인터넷이라 인증서 문제가 발생하였습니다. (자세한 이유는 몰라요..) 아무래도 신뢰가능한 웹사이트에서만 다운로드 받을 수 있도록 인증서 검사를 하는것 같아요. 그 해결법은 출처의 블로그에서 찾았습니다. pip --trusted-host pypi.org --trusted-host files.pythonhosted.org install 라이브러리명 예) pip --trusted-host pypi.org --trusted-host files.pythonhosted.org install matplotlib pandas (라이브러리명) --는 옵션이기때문에 순서가 상관없다. 다음과 같이도 동작합니다. 예2..

카테고리 없음 2020.12.08