본문 바로가기
Deep Learning/[논문] Paper Review

mixup: Beyond Emprical Risk Minimization

by a._muj 2023. 8. 3.
728x90
반응형

 

 

Mixup이 뭐야?

: Beyond Emprical Risk Minimization - 경험적 위험 최소화를 넘어? 이게 도대체 뭔말인가

: mixup ⇒ data augmentaion 기법

:두 데이터를 선형적으로 결합해서 새로운 샘플을 생성

: 정말 쉽게 말하자면, 우리가 일반적으로 훈련, 예측과 같은 방법을 쓰면 과적합이 발생하기 마련임.

: 왜냐? 훈련데이터만 보고 학습을 시키기 때문에, 당연히 학습한 모델은 학습 데이터셋에 편향됨.

: 즉, 과적합이 난다는 말. 결국, 다른 조금만 다른 분포를 가지는 데이터셋에 적용만 해(Out of Distribution) 모델이 취약할 수 밖에 없음

: 따라서, 훈련 데이터셋만 학습 시키는게 아니라, 훈련 데이터셋의

근방 분포도 함께 학습을 시켜서 보다 더 일반화된 모델을 만들어내자! 이것이 바로 mixup의 주요 쟁점.

결론적으로 주어진 데이터가 아닌 새로운 데이터지만 훈련 데이터셋과 그렇게 다르지 않은 데이터셋을 추가적으로 만들어주자! 라는게 논문의 전부.

 

 

1. ERM(empirical risk minimization)

※ empirical : 경험의

경험한 것(training data)에 따라 기대되는 위험(예측값과 실제값의 차이(오차))을 최소화하자”

 

: 지도 학습은 입력 데이터(X)와 해당하는 타겟 데이터(Y) 사이의 관계를 찾는 과정. 이때, 데이터셋은 결합 분포 P(X, Y)를 따름

: 손실 함수를 정의한 후, 예측값 f(x)와 실제 타겟값 y 사이의 차이를 가지고, 데이터 분포 P 상에서 손실 함수 의 평균을 최소화하는 것이 우리의 목표 (그냥 우리가 맨날 하는 손실함수를 의미하는거)

⇒ 논문에서는 expected risk라고 표현함

expected risk

: 하지만 우리는 실제 데이터 분포 P를 모르기 때문, 근사할만한 데이터(학습데이터 D)를 활용함

: 모델을 학습시킬 때 training dataset을 통해 분포를 형성 ⇒ empirical distribution(경험적 분포)

: 즉, 가용한 데이터(D)로 모집단을 근사. 여기서 데이터가 많을수록(표본이 결국 많으면) 모집단(P)에 근사될 확률이 높음(모집단에 가까워진다)

empirical distribution

: R(f) 안에있는 P(x,y) 식을 적분값으로 표현하면 최종 식이 아래와 같아짐 (경험적 기대 위험(Empirical Expected Risk))

expected return drawn from empirical data

: Rδ(f)를 최소화하게 됨으로써 ERM의 정의가 완성되는 것임

 

➡️ 딥러닝과 같이 파라미터가 많은 모델을 학습할 경우, empirical distribution(학습 데이터)을 전부 외워버리는 문제가 발생하게 됨 (또 똑같은 얘기)

➡️ 그래서 제시된 것이 VRM

 

2. VRM(vicinal risk minimization)

※ vicinal : 근사의, 근접의

: vicinal distrbitution 은 우리가 가지고 있는, 데이터 쌍 x,y 에 근접한 다른 데이터 쌍 x', y' 들의 분포를 의미함

: 이러한 분포에서 샘플링된 데이터로 expected risk를 최소화하게 되면, emprical vicinal risk 를 다룸.

vicinal distribution

: 결국, 훈련 데이터에 대한 분포를 포함하는 Pν(x~,y~)를 모델링 했으므로, 새로운 expected risk 계산할 수 있음

: vicinal distribution을 일반화한 식

generic vicinal distribution

 

: lambda 값을 조정하면서 data distribution을 결정하게 됨

lambda 값은 Beta(a,a)를 따른 distribution

 

: 결국에는 아래식대로 data augmentaion하는 것이 mixup의 전부

 

 

Mixup이 하는게 뭘까요?

: mixup은 uncertainty를 측정하는데 더 효과적임 ( 더 스무스하다 )

ex) green: class 0, orange: class 1 ⇒ 파란색 부분의 경우, 해당 데이터 x가 주어졌을 때, class가 1일 확률을 나타냄

: ERM은 두 클래스 간의 decision boundary가 뚜렷하게 분리되어 있음 : mixup은 가까운 부분은 더 짙은 파란색으로 나타냄(부드럽게 만듬)

➡️ uncertainty를 smooth하게 측정할 수 있게 됨

➡️ mixup이 ERM에 대해서 과적합이 덜 발생한다고 해석할 수 있음

➡️ ERM은 학습데이터에 너무 민감하게 맞춰지는 것에 반해, mixup은 데이터의 결정 경계를 더 부드럽게 함으로써 새로운 데이터에 대해 더 일반화되는 경향. ⇒ 과적합 확률 낮아짐

※ 노이즈에 덜 민감하다

: 부드러운 결정 경계는 데이터 포인트들 간의 거리를 조금만 변화시켜도 크게 바뀌지 않게 됨. 이렇게 되면 노이즈나 아웃라이어에 덜 민감해짐.

: 반면, 뚜렷한 결정 경계는 학습 데이터에 민감하게 맞추기 때문에 노이즈에도 쉽게 영향을 받음.

➡️ 새로운 데이터에 대해서 더 일반화된 예측 및 안정적이고 견고한 모델을 구축할 수 있음

 

 

 

Prediction/Gradient

: (a)의 경우, mixup으로 학습시킨 것이 더 prediction측면에서 좋은 성능을 보임

: (b)의 경우, gradient norm이 더 작음. 이는 더 안정적인 학습을 보이고 있다는 것을 의미함

 

 

 

 

EXPERIMENTS

 

[3.1 IMAGENET CLASSIFICATION][3.2 CIFAR10 AND CIFAR100]
[3.4 MEMORIZATION OF CORRUPTED LABELS][3.5 ROBUSTNESS TO ADVERSARIAL EXAMPLES][3.6 TABULAR DATA]
[3.7 STABILIZATION OF GENERATIVE ADVERSARIAL NETWORKS][3.8 ABLATION STUDIES]

 

 


 

<참고>

https://everyday-image-processing.tistory.com/145

https://rroundtable.notion.site/mixup-467e0a5d4d284e05a5879007b9d1b97f

https://techy8855.tistory.com/19

https://medium.com/swlh/paper-mixup-beyond-empirical-risk-minimization-image-classification

 


 

 

728x90
반응형