Module 5. 지도학습 (분류/회귀) (이화여자대학교 강제원 교수)

대외활동/2023 LG Aimers 3기

Module 5. 지도학습 (분류/회귀) (이화여자대학교 강제원 교수)

a._muj 2023. 7. 8. 14:00

728x90

날짜: 2023년 7월 8일

Part 1. SL Foundation

1.Supervised Learning

- label값이 있는 것을 말함

- training과 test 단계가 존재함

- feature의 경우, domain 지식이 어느 정도 필요함

- 딥러닝의 경우, feature를 스스로 학습하기도 함

- SL의 경우, training error, val error, test error을 통해 generalization error을 최소화하도록 하는 노력을 하게 됨

- loss function=cost function

2. Bias-variance trade-off

- bias와 variance의 trade off를 잘 조정해서 최적의 generalization error를 만드는 것이 중요함

- 딥러닝과 같은 model은 고차원의 data를 사용하기 때문에 복잡도가 증가함

- 데이터 수에 비해 복잡도가 증가 => 오버피팅 발생이 증가 => 차원의 저주라고 칭함

=> data augmentation, regularization, ensemble을 통해 해결 가능

3. k-fold cross validation

- k개의 fold로 나눠, 1개의 그룹은 val로, 나머지는 train으로 사용

Part 2. Linear Regression

1. Linear model

- 주어진 입력에 대해 출력과의 선형적인 관계를 추론하는 모델

- 선형합으로 구성

- 선형 model이지만 반드시 입력 변수에 선형일 필요는 없음

2. Optimization

- 최적의 파라미터 구하기

Part 3. Gradient Discent

- 알파의 변화에 따라 수렴 형태가 바뀜

- 알파값이 너무 크면, 최소 지점을 찾기 어려움

1. Batch gradient descent

- m을 고려

- data가 커질수록 복잡도가 증가

2. SGD

- noise 영향을 받기에 쉬움

- m을 1로 극단적으로 줄인 것

- 샘플 하나하나 연산 해야됨

※ Local Optimum

3. Momentum

- 관성의 법칙

- 중간에 0에 머물러도 전에 있던 습성을 활용해 계속 진행하게 끔 해주는 것

4. nestrov momentum

- gradient를 먼저 확인하고 업데이트 진행

- momentum step을 간 시점에서 lookahead step을 계산하고, 두 벡터의 합으로써 actual step을 결정함

5. AdaGrad

- 각 방향으로의 learning rate를 적응적으로 조절해 학습 효율을 높임

- learning rate가 작아지면서 학습이 안될 수 있음

6. RMSProp

- AdaGrad를 보완한 방식

7. Adam

- RMSProp+Momentum 방식

8. 과적합

9. Regularization

Part 4. Linear Classification

1. Zero-One Loss

- 내부의 logic을 판별해서 맞으면 0 틀리면 1 출력하는 함수

- 미분한 결과, gradient가 0이 되어버림 => 학습이 불가능함

2. Hinge Loss

- 위를 보완한 loss

3. Cross-entropy Loss

- 확률 값을 서로 비교

- score은 실수값이기에 sigmoid 함수와 같은 확률함수로 mapping

-> logistic model이라고 함

4. Multiclass Classification

Part 5. Advanced Classification

1. SVM

2. Optimization

- Hard margin SVM

- Nonlinear transform & kernel trick

3. Kernel 함수

- linearly sepable하지 않은 data sample 들이 있다고 할 때, 그 차수를 높여 linearly sepable하게 만드는 과정

- 커널의 종류

- polynomial kernel

- Gaussian radial basis function

- Hyperbolic tangent kernel

4. ANN

- ANN을 많이 쌓으면 DNN

- linear activation function을 쌓으면 보다 복잡한 형태의 data를 분류할 수 있음

- XOR

- MLP(multilayer perceptron)

Part 6. Ensemble

1. Performance Evaluation in supervised learning

- Accuracy

- Precision

- Recall

- F1

이 존재

2. ROC Curve

3. Bagging

- 학습과정에서 training sample을 랜덤하게 나눠서 학습

- n개로 구분

- low variance의 안정적인 성능을 제공하는데 유용한 방법

- overfitting의 문제에서 sample을 random하게 선택하는 과정에서 data augmentation 효과를 지닐 수 있음

- 간단한 model을 집합적으로 사용할 수 있음

- bootstrapping: 다수의 sample data set을 생성해서 학습하는 방식을 의미함

4. Boosting

- Week classifier: bias가 높은 classifier

=> cascading을 하게 되면 연속적인 과정을 통해 성능을 올릴 수 있게 됨

728x90

저작자표시 비영리 변경금지 (새창열림)