Module 5. 지도학습 (분류/회귀) (이화여자대학교 강제원 교수)
날짜: 2023년 7월 8일
Part 1. SL Foundation
1.Supervised Learning
- label값이 있는 것을 말함
- training과 test 단계가 존재함
- feature의 경우, domain 지식이 어느 정도 필요함
- 딥러닝의 경우, feature를 스스로 학습하기도 함
- SL의 경우, training error, val error, test error을 통해 generalization error을 최소화하도록 하는 노력을 하게 됨
- loss function=cost function
2. Bias-variance trade-off
- bias와 variance의 trade off를 잘 조정해서 최적의 generalization error를 만드는 것이 중요함
- 딥러닝과 같은 model은 고차원의 data를 사용하기 때문에 복잡도가 증가함
- 데이터 수에 비해 복잡도가 증가 => 오버피팅 발생이 증가 => 차원의 저주라고 칭함
=> data augmentation, regularization, ensemble을 통해 해결 가능
3. k-fold cross validation
- k개의 fold로 나눠, 1개의 그룹은 val로, 나머지는 train으로 사용
Part 2. Linear Regression
1. Linear model
- 주어진 입력에 대해 출력과의 선형적인 관계를 추론하는 모델
- 선형합으로 구성
- 선형 model이지만 반드시 입력 변수에 선형일 필요는 없음
2. Optimization
- 최적의 파라미터 구하기
Part 3. Gradient Discent
- 알파의 변화에 따라 수렴 형태가 바뀜
- 알파값이 너무 크면, 최소 지점을 찾기 어려움
1. Batch gradient descent
- m을 고려
- data가 커질수록 복잡도가 증가
2. SGD
- noise 영향을 받기에 쉬움
- m을 1로 극단적으로 줄인 것
- 샘플 하나하나 연산 해야됨
※ Local Optimum
3. Momentum
- 관성의 법칙
- 중간에 0에 머물러도 전에 있던 습성을 활용해 계속 진행하게 끔 해주는 것
4. nestrov momentum
- gradient를 먼저 확인하고 업데이트 진행
- momentum step을 간 시점에서 lookahead step을 계산하고, 두 벡터의 합으로써 actual step을 결정함
5. AdaGrad
- 각 방향으로의 learning rate를 적응적으로 조절해 학습 효율을 높임
- learning rate가 작아지면서 학습이 안될 수 있음
6. RMSProp
- AdaGrad를 보완한 방식
7. Adam
- RMSProp+Momentum 방식
8. 과적합
9. Regularization
Part 4. Linear Classification
1. Zero-One Loss
- 내부의 logic을 판별해서 맞으면 0 틀리면 1 출력하는 함수
- 미분한 결과, gradient가 0이 되어버림 => 학습이 불가능함
2. Hinge Loss
- 위를 보완한 loss
3. Cross-entropy Loss
- 확률 값을 서로 비교
- score은 실수값이기에 sigmoid 함수와 같은 확률함수로 mapping
-> logistic model이라고 함
4. Multiclass Classification
Part 5. Advanced Classification
1. SVM
2. Optimization
- Hard margin SVM
- Nonlinear transform & kernel trick
3. Kernel 함수
- linearly sepable하지 않은 data sample 들이 있다고 할 때, 그 차수를 높여 linearly sepable하게 만드는 과정
- 커널의 종류
- polynomial kernel
- Gaussian radial basis function
- Hyperbolic tangent kernel
4. ANN
- ANN을 많이 쌓으면 DNN
- linear activation function을 쌓으면 보다 복잡한 형태의 data를 분류할 수 있음
- XOR
- MLP(multilayer perceptron)
Part 6. Ensemble
1. Performance Evaluation in supervised learning
- Accuracy
- Precision
- Recall
- F1
이 존재
2. ROC Curve
3. Bagging
- 학습과정에서 training sample을 랜덤하게 나눠서 학습
- n개로 구분
- low variance의 안정적인 성능을 제공하는데 유용한 방법
- overfitting의 문제에서 sample을 random하게 선택하는 과정에서 data augmentation 효과를 지닐 수 있음
- 간단한 model을 집합적으로 사용할 수 있음
- bootstrapping: 다수의 sample data set을 생성해서 학습하는 방식을 의미함
4. Boosting
- Week classifier: bias가 높은 classifier
=> cascading을 하게 되면 연속적인 과정을 통해 성능을 올릴 수 있게 됨