Mixup이 뭐야?
: Beyond Emprical Risk Minimization - 경험적 위험 최소화를 넘어? 이게 도대체 뭔말인가
: mixup ⇒ data augmentaion 기법
: 정말 쉽게 말하자면, 우리가 일반적으로 훈련, 예측과 같은 방법을 쓰면 과적합이 발생하기 마련임.
: 왜냐? 훈련데이터만 보고 학습을 시키기 때문에, 당연히 학습한 모델은 학습 데이터셋에 편향됨.
: 즉, 과적합이 난다는 말. 결국, 다른 조금만 다른 분포를 가지는 데이터셋에 적용만 해(Out of Distribution) 모델이 취약할 수 밖에 없음
: 따라서, 훈련 데이터셋만 학습 시키는게 아니라, 훈련 데이터셋의
근방 분포도 함께 학습을 시켜서 보다 더 일반화된 모델을 만들어내자! 이것이 바로 mixup의 주요 쟁점.결론적으로 주어진 데이터가 아닌 새로운 데이터지만 훈련 데이터셋과 그렇게 다르지 않은 데이터셋을 추가적으로 만들어주자! 라는게 논문의 전부.
1. ERM(empirical risk minimization)
※ empirical : 경험의
“경험한 것(training data)에 따라 기대되는 위험(예측값과 실제값의 차이(오차))을 최소화하자”
: 지도 학습은 입력 데이터(X)와 해당하는 타겟 데이터(Y) 사이의 관계를 찾는 과정. 이때, 데이터셋은 결합 분포 P(X, Y)를 따름
: 손실 함수를 정의한 후, 예측값 f(x)와 실제 타겟값 y 사이의 차이를 가지고, 데이터 분포 P 상에서 손실 함수 의 평균을 최소화하는 것이 우리의 목표 (그냥 우리가 맨날 하는 손실함수를 의미하는거)
⇒ 논문에서는 expected risk라고 표현함
: 하지만 우리는 실제 데이터 분포 P를 모르기 때문, 근사할만한 데이터(학습데이터 D)를 활용함
: 모델을 학습시킬 때 training dataset을 통해 분포를 형성 ⇒ empirical distribution(경험적 분포)
: 즉, 가용한 데이터(D)로 모집단을 근사. 여기서 데이터가 많을수록(표본이 결국 많으면) 모집단(P)에 근사될 확률이 높음(모집단에 가까워진다)
: R(f) 안에있는 P(x,y) 식을 적분값으로 표현하면 최종 식이 아래와 같아짐 (경험적 기대 위험(Empirical Expected Risk))
: Rδ(f)를 최소화하게 됨으로써 ERM의 정의가 완성되는 것임
➡️ 딥러닝과 같이 파라미터가 많은 모델을 학습할 경우, empirical distribution(학습 데이터)을 전부 외워버리는 문제가 발생하게 됨 (또 똑같은 얘기)
➡️ 그래서 제시된 것이 VRM
2. VRM(vicinal risk minimization)
※ vicinal : 근사의, 근접의
: vicinal distrbitution 은 우리가 가지고 있는, 데이터 쌍 x,y 에 근접한 다른 데이터 쌍 x', y' 들의 분포를 의미함
: 이러한 분포에서 샘플링된 데이터로 expected risk를 최소화하게 되면, emprical vicinal risk 를 다룸.
: 결국, 훈련 데이터에 대한 분포를 포함하는 Pν(x~,y~)를 모델링 했으므로, 새로운 expected risk 계산할 수 있음

: vicinal distribution을 일반화한 식
: lambda 값을 조정하면서 data distribution을 결정하게 됨
: 결국에는 아래식대로 data augmentaion하는 것이 mixup의 전부

Mixup이 하는게 뭘까요?

: mixup은 uncertainty를 측정하는데 더 효과적임 ( 더 스무스하다 )
ex) green: class 0, orange: class 1 ⇒ 파란색 부분의 경우, 해당 데이터 x가 주어졌을 때, class가 1일 확률을 나타냄
: ERM은 두 클래스 간의 decision boundary가 뚜렷하게 분리되어 있음 : mixup은 가까운 부분은 더 짙은 파란색으로 나타냄(부드럽게 만듬)
➡️ uncertainty를 smooth하게 측정할 수 있게 됨
➡️ mixup이 ERM에 대해서 과적합이 덜 발생한다고 해석할 수 있음
➡️ ERM은 학습데이터에 너무 민감하게 맞춰지는 것에 반해, mixup은 데이터의 결정 경계를 더 부드럽게 함으로써 새로운 데이터에 대해 더 일반화되는 경향. ⇒ 과적합 확률 낮아짐
※ 노이즈에 덜 민감하다
: 부드러운 결정 경계는 데이터 포인트들 간의 거리를 조금만 변화시켜도 크게 바뀌지 않게 됨. 이렇게 되면 노이즈나 아웃라이어에 덜 민감해짐.
: 반면, 뚜렷한 결정 경계는 학습 데이터에 민감하게 맞추기 때문에 노이즈에도 쉽게 영향을 받음.
➡️ 새로운 데이터에 대해서 더 일반화된 예측 및 안정적이고 견고한 모델을 구축할 수 있음
Prediction/Gradient

: (a)의 경우, mixup으로 학습시킨 것이 더 prediction측면에서 좋은 성능을 보임
: (b)의 경우, gradient norm이 더 작음. 이는 더 안정적인 학습을 보이고 있다는 것을 의미함
EXPERIMENTS
[3.1 IMAGENET CLASSIFICATION][3.2 CIFAR10 AND CIFAR100]


<참고>
https://everyday-image-processing.tistory.com/145
https://rroundtable.notion.site/mixup-467e0a5d4d284e05a5879007b9d1b97f
https://techy8855.tistory.com/19
https://medium.com/swlh/paper-mixup-beyond-empirical-risk-minimization-image-classification
'Deep Learning > [논문] Paper Review' 카테고리의 다른 글
| Expressive Body Capture: 3D Hands, Face, and Body from a Single Image (0) | 2023.08.04 |
|---|---|
| BodyNet: Volumetric Inference of 3D Human Body Shapes (0) | 2023.08.03 |
| SMPLify(Keep it SMPL): Automatic Estimation of 3D Human Pose and Shape from a Single Image (0) | 2023.07.31 |
| SMPL: A Skinned Multi-Person Linear Model (0) | 2023.07.28 |
| DETR: End-to-End Object Detection with Transformers (0) | 2023.07.23 |