2020/11 11

수학적 개념 이해 - 기술 통계량, 추정량

* 자료의 요약 - 수치 - 모집단 개체의 수: N - 중심 경향값(대표값) -- 평균(Mean) : $\mu = \frac{x_1+...+x_N}{N} = \frac{\sum_{i=1}^N x_i}{N}$ --- mean은 하나의 큰/작은 값이 있을경우 영향이 크다 -- 중앙값(Median): 크기순으로 정렬시켜 중앙에 위치한 값. -- 최빈값(Mode): 가장 자주 나오는 값 --- 하나의 큰/작은 값에 영향이 작다 --- mean과 median이 같은 경우 좌우 대칭이다. - 산포도(퍼진정도) -- 분산(Variance): $\sigma^2 = \frac{\sum_{i=1}^N (x_i-\mu)^2}{N}$ -- 사분위수 범위(Inter quartile range) --- 전체 관측값을 크기순으로 ..

카테고리 없음 2020.11.30

회귀분석을 위한 통계 수학점 개념이해- 통계학 기초

* 통계학이란? - 모집단(Population) --연구의 대상이 되는 개체들을 모은 집합 -- 우리가 전부를 수집할 수 없는 대상이라고 생각하면됨 - 표본(sample) -- - 모수(Parameter): 수치로 표현되는 모집단의 특성 - 통계랑(Statistic): 표본의 관측값들에 의해 결정되는 값 * 자료의 종류 - 수치형(양적자료) -- 연속형(몸무게, 키), 이산형(전화 통화 수) - 범주형 -- 순위형(학점), 명목형(성별) - 자료에 따른 분석 방법 반응변수 설명변수 범주형 연속형 범주형(이분형) 범주형 자료분석 (카이스퀘어 검정) 로즈스틱 회귀분석 연속형 분산분석 회귀분석 *자료의 요약 - 자료를 어떻게 보여주는가 - 범주형 자료 -- 도수분포표, 막대/원형 그래프 등 자료의 표현 방법으..

카테고리 없음 2020.11.30

티스토리에서 LaTex 수식 입력하기

좋은 글이 있어 공유합니다. bskyvision.com/476 티스토리에서 LaTeX 수식 사용하기 (오예~) 티스토리 에디터가 바뀌면서 기존의 수식편집기가 사라졌다. 포스팅을 하면서 수식을 사용하는 빈도가 많은 나로써는 약간 당황스러웠다. 하지만 오히려 더 좋은 기회가 된 것 같다. 티스토리 bskyvision.com 또한 Tex 문법을 알면 더 좋기 때문에 이것도 공유합니다. ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:TeX_%EB%AC%B8%EB%B2%95 위키백과:TeX 문법 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 위키백과에서는 수학 공식을 간편하게 입력하기 위해, TeX 문법을 지원합니다. 이것은 수식이..

카테고리 없음 2020.11.27

과적합(Overfitting)이란

* 과적합이란 - 복잡한 모형일수록, 데이터가 적을 수록 과적합이 일어나기 쉬움 - 데이터에 대한 고차항을 넣었을때 만들어지는 이슈 - 과적합은 data science, AI전반적으로 매우 큰 이슈 - overfitting을 방지하기 위한 기술들만 발전하고 있을뿐, 아예 없앨수 있는 방법은 아직 없음 * 분산(Variance)와 편파성(Bias)의 트레이드오프 (Tradeoff) Dilemma - 모형 F햇(X) 모집단 전체 데이터를 예측시 발생하는 총 에러를 계산시 reducible/irreducible 에러로 표현됨 - reducible error는 분산과 편파성으로 구성 $E(Y-\hat{Y})^2=E[f(X)+\epsilon - \hat{f}(X)]^2 = Var (\hat{f}(X))+[Bias..

카테고리 없음 2020.11.27

모형의 적합성 평가 및 실험 설계

* 모형의 적합성을 평가하는 방법 - MSE(Mean Squared Error)는 낮을 수록 좋음, 높은 경우 fitting이 덜된것(under fitting) - 학습집합의 MSE는 모형의 복잡도에 따라 달라지고, 복잡할수록 감소하지만 과적합(overfitting)문제 발생 가능 * 데이터 분할 - 학습데이터와 시험데이터로 분할 필요 (Training Test - 8:2, 7:3 정도/Training Validation Test - 5:3:2 정도) - 보통 Training Validation Test 구분하여 나눠서 진행 - 학습데이터: 모형 f를 추정하는데 사용 - 검증데이터: 모형 f가 잘 설계 됐는지 사용(k값 피드백 줄수 있음) - 시험데이터: 모형 f에 대한 성능평가 이 데이터로 학습 x -..

카테고리 없음 2020.11.27

Machine Learning의 종류

* 선형 회귀 분석(Linear Regression) - 독리변수와 종속변수가 선형적인 관계가 있다는 가정하에 분석 * 의사결정나무(Decision Tree) - 독립변수의 조건에 따라 종속변수를 분리(비 -> 축구No) - overfitting이 잘 일어남 - ensemble model의 기초 * KNN(K-Nearest Neighbor) - 새로 들어온 데이터의 주변 k개의 데이터의 class로 분류하는 기법 - hyper paramete: k개와 같이 사람이 지정해줘야 하는 매개변수 * Neural Network - 입력, 은닉, 출력층으로 구성된 모형으로서 각 층을 연결하는 노드의 가주잋를 업데이트하며 학습 - overfitting 단점이 있음 * SVM(Support Vector Machine)..

카테고리 없음 2020.11.26

지도학습과 비지도학습

지도학습(supervised learning) - Y = f(X)에 대하여 입력변수(X)와 출력변수(Y)의 관계에 대하여 모델링하는 것 (Y에 대한 예측, 분류) - 회귀(regression): 입력변수 X에 대해서 연속형 출력 변수Y를 예측 -- 연속형 변수(체중, 키 등) - 분류(classification): 익력변수 X에 대해서 이산형 출력 변수 Y(class)를 예측 -- 이산형 변수(클래스, 흡연여부, 주가의 상승/하강, 비만여부 등) 비지도 학습(unsupervised learning) - 출력 변수(Y) 가 존재하지 않고, 입력변수 (X)간의 관계에 대해 모델링 - 군집분석 - 대표적 예시 - PCA - 독립변수들의 차원을 축소화 (새로운 X,Y를 만들어서 분석해볼수 있음) 강화학습(rei..

카테고리 없음 2020.11.25

Machine Learning의 개념

Part1: Machine Learning 의 개념과 종류 Part2: 회귀분석- 통계학기초, 회귀분석, PCA Part3: Machine Learning 알고리즘 - KNN, LDA, SVM, DecisionTree, ANN Part4: Ensemble Learning -Bagging, Boostin, RandomForest, Stacking Part5: Clustering - Kmeans, Hierachical, DBSCAN > 데이터를 그룹화 하는 것 Part6: Class imbalanced problem - Oversampling, Undersampling > 비정상을 추출해야 하는 데이터셋을 줬을 경우 모든데이터에 대해서 정상으로 판단하지 않도록 하는 방법 Part7: 빅콘테스트 * 머신러닝의..

카테고리 없음 2020.11.25

[WPF] Tutorial: Create your first WPF application in Visual Studio 2019

docs.microsoft.com/en-us/dotnet/desktop/wpf/getting-started/walkthrough-my-first-wpf-desktop-application?view=netframeworkdesktop-4.8 Create your first WPF app in Visual Studio 2019 - .NET Framework Develop a Windows Presentation Foundation (WPF) desktop application that includes elements common to most WPF applications. docs.microsoft.com Microsoft에서 개발한 GUI 개발을 위한 WPF 튜토리얼입니다. WPF는 XAML을 사용하여 ..

카테고리 없음 2020.11.04