본문 바로가기
Deep Learning/[논문] Paper Review

cGAN/Pix2Pix

by a._muj 2023. 7. 7.
728x90
반응형

 

 

1. GAN
2. cGAN
  • 어떤 숫자를 만들어낼지에 대한 정보를 넣어주는 것(어떤 클래스에 해당하는지에 대한 정보)
  • ex) 7을 만들고자 한다면 condition vector에 7을 넣어주고, z(noise)에는 랜덤하게 샘플링해서 7이라는 의미를 가지는 랜덤한 형태를 만들어줌
3. Pix2Pix
  • image to image translation : 이미지의 특정 양상을 다른 양상으로 바꿔주는 것을 의미
  • ex) 손그림 → 실제 사진으로 translation
  • 이미지 자체를 condition으로 받아버림 (이미지 자체가 정보가 되는 것임)
  • 즉, 이미지가 들어왔을 때, 거기에 부합하는 output의 형태로 만들어줌
  • noise vector z를 안씀
  • pixel 을 입력으로 받아 pixel을 예측함 (이미지를 이미지로 반환)
  • 얘네들은 paired dataset (애초에 정답 이미지가 뭔지를 알고 학습을 시킴)
  • 정답을 알고 있기 때문에, 실제 정답과 유사하도록 하는 loss(L1)을 사용

⇒ 단점: 서로 다른 두 도메인 x,y의 데이터 두개를 한쌍으로 묶어서 학습을 진행시킴 (손그림과 그에 맞는 사진-condition)

⇒ 예를 들어 손그림 신발과 신발 사진, 이렇게 매칭되지 않고, x는 건물사진, y는 풍경사진으로 묶여있는 데이터 셋에 대해서도 과연 적용이 가능할까?에 대한 의문에서 나온 것이 cycleGAN임.

728x90
반응형

'Deep Learning > [논문] Paper Review' 카테고리의 다른 글

YOLOv4: Optimal Speed and Accuracy of Object Detection  (0) 2023.07.09
EfficientNet  (0) 2023.07.07
R-CNN  (0) 2023.07.06
GAN: Generative Adversarial Nets  (0) 2023.07.06
AE  (0) 2023.07.06