0. Abstract
๋ณธ๋ฌธ
We propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that a sample came from the training data rather than G. The training procedure for G is to maximize the probability of D making a mistake. This framework corresponds to a minimax two-player game. In the space of arbitrary functions G and D, a unique solution exists, with G recovering the training data distribution and D equal to 1 2 everywhere. In the case where G and D are defined by multilayer perceptrons, the entire system can be trained with backpropagation. There is no need for any Markov chains or unrolled approximate inference networks during either training or generation of samples. Experiments demonstrate the potential of the framework through qualitative and quantitative evaluation of the generated samples.
์ ํฌ๋ ์๋ก์ด generative model์ ์ถ์ ํ๊ธฐ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ์์๋ ๋ ๊ฐ์ ๋ชจ๋ธ์ ๋์์ ํ์ต์ํต๋๋ค. ํ๋๋ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ก์๋ด๋ generative model G์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ํ๋ จ ๋ฐ์ดํฐ๋ก๋ถํฐ ์จ ์ํ์ธ์ง G๋ก๋ถํฐ ์จ ์ํ์ธ์ง๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์ถ์ ํ๋ discriminative model D์ ๋๋ค. G์ ํ์ต ๊ณผ์ ์ D๊ฐ ์ค์๋ฅผ ์ ์ง๋ฅด๋ ํ๋ฅ ์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค. ์ด ํ๋ ์์ํฌ๋ minimax two-player game์ ํด๋นํฉ๋๋ค. ์์์ ํจ์ G์ D์ ๋ํด์, G๊ฐ ํ๋ จ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ณต์ํ๊ณ D๊ฐ ๋ชจ๋ ๊ณณ์์ 1/2์ ๊ฐ์ ๊ฐ์ง๋ ์ ์ผํ ํด๋ฒ์ด ์กด์ฌํฉ๋๋ค. Multilayer perceptron์ผ๋ก G์ D๋ฅผ ์ ์ํ ๊ฒฝ์ฐ, ์ ์ฒด ์์คํ ์ backpropagation์ ์ฌ์ฉํ์ฌ ํ์ตํ ์ ์์ต๋๋ค. Markov chain์ด๋ ํผ์ณ์ง ๊ทผ์ฌ ์ถ๋ก ๋คํธ์ํฌ๋ ํ๋ จ ๋๋ ์ํ ์์ฑ ๊ณผ์ ์์ ํ์ํ์ง ์์ต๋๋ค. ์คํ์ ์์ฑ๋ ์ํ์ ์ง์ ๋ฐ ์์ ํ๊ฐ๋ฅผ ํตํด ์ด ํ๋ ์์ํฌ์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
- ๊ฒฝ์ํ๋ ๊ณผ์ ์ ํตํด generative model์ ์ถ์ ํ๋ ํ๋ ์ ์ํฌ๋ฅผ ์ ์ํจ
- 2๊ฐ์ ๋ชจ๋ธ์ ํ์ต์ํด (G vs D)
- Generative model (์์ฑ ๋ชจ๋ธ) G
- training data์ ๋ถํฌ๋ฅผ ๋ชจ์ฌํจ (fake data ์์ฑ)
- discriminative model์ด ๊ตฌ๋ณํ์ง ๋ชปํ๋๋ก ํจ (์ง์ง์ ๊ฐ์ง๋ฅผ ํ๋ณํ๋ ๋ชจ๋ธ)
- Discriminative model (ํ๋ณ ๋ชจ๋ธ) D
- G๊ฐ ๋ง๋ (fake data)๊ฐ ์๋, ์ค์ training data๋ก๋ถํฐ ๋์จ ๋ฐ์ดํฐ์ผ ํ๋ฅ ์ ์ถ์ ํจ
โป G์ ํ์ต ๊ณผ์ ์ ํ๋ณ๋ชจ๋ธ(D)๊ฐ G๋ก๋ถํฐ ๋์จ(fake data) vs training (real data) ๋ฅผ ํ๋ณํ๋๋ฐ ์ค์ํ ํ๋ฅ ์ ์ต๋ํ ์ํค๋ ๊ฒ.
์ฆ, ๋ค์ ๋งํด G๋ D๊ฐ ์ค์ ๋ฐ์ดํฐ์ fake data๋ฅผ ์๋ก ๊ตฌ๋ณํ์ง ๋ชปํ๋๋ก ์์ด๋ ๊ฒ์ด G์ ๋ชฉํ
⇒ ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ minimax two-layer game์ด๋ผ๊ณ ํํํจ
⇒ G, D์ ๊ณต๊ฐ์์ G๊ฐ training ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ชจ์ฌํ๊ฒ ๋๋ฉด์, D๊ฐ ์ค์ training ๋ฐ์ดํฐ์ธ์ง, fake data์ธ์ง ํ๋ณํ๋ ํ๋ฅ ์ 1/2๊ฐ ๋ ๊ฒ์
⇒ ์ฆ, ๋ ๋ฐ์ดํฐ๋ฅผ ํ๋ณํ๋ ๊ฒ์ด ์ด๋ ค์์ง๋ค๋ ๋ง
- G์ D๊ฐ multi-layer perceptrons์ผ๋ก ์ ์๋ ๊ฒฝ์ฐ, ์ ์ฒด ์์คํ ์ back-propagation์ ํตํด ํ์ต๋จ
1. Intro/Related work
๋ณธ๋ฌธ
The promise of deep learning is to discover rich, hierarchical models [2] that represent probability distributions over the kinds of data encountered in artificial intelligence applications, such as natural images, audio waveforms containing speech, and symbols in natural language corpora. So far, the most striking successes in deep learning have involved discriminative models, usually those that map a high-dimensional, rich sensory input to a class label [14, 22]. These striking successes have primarily been based on the backpropagation and dropout algorithms, using piecewise linear units [19, 9, 10] which have a particularly well-behaved gradient . Deep generative models have had less of an impact, due to the difficulty of approximating many intractable probabilistic computations that arise in maximum likelihood estimation and related strategies, and due to difficulty of leveraging the benefits of piecewise linear units in the generative context. We propose a new generative model estimation procedure that sidesteps these difficulties. 1
์ฌ์ธต ํ์ต์ ์ ์ฌ๋ ฅ์ ์ธ๊ณต์ง๋ฅ ์์ฉ ํ๋ก๊ทธ๋จ์์ ๋ง๋๊ฒ ๋๋ ์์ฐ ์ด๋ฏธ์ง, ์์ฑ์ ํฌํจํ ์ค๋์ค ์จ์ด๋ธํผ, ์์ฐ ์ธ์ด ๋ง๋ญ์น์ ๊ธฐํธ ๋ฑ๊ณผ ๊ฐ์ ๋ฐ์ดํฐ ์ข ๋ฅ์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ํํํ๋ ํ๋ถํ๊ณ ๊ณ์ธต์ ์ธ ๋ชจ๋ธ์ ๋ฐ๊ฒฌํ๋ ๊ฒ์ ๋๋ค. ์ง๊ธ๊น์ง ์ฌ์ธต ํ์ต์ ๊ฐ์ฅ ๋๋๋ฌ์ง ์ฑ๊ณต์ ์ฃผ๋ก ๊ณ ์ฐจ์์ ํ๋ถํ ๊ฐ๊ฐ์ ์ ๋ ฅ์ ํด๋์ค ๋ ์ด๋ธ์ ๋งคํํ๋ ํ๋ณ ๋ชจ๋ธ์ ๊ดํ ๊ฒ์ด์์ต๋๋ค. ์ด๋ฌํ ๋๋๋ฌ์ง ์ฑ๊ณต์ ์ฃผ๋ก ์ญ์ ํ์ ๋๋กญ์์ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ์์ผ๋ฉฐ, ํนํ ์ ๋์ํ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ์ง ์กฐ๊ฐ๋ณ ์ ํ ์ ๋์ ์ฌ์ฉํ์ต๋๋ค. ์ฌ์ธต ์์ฑ ๋ชจ๋ธ์ ๋ค์ํ ์ ๋ช ๋์ ํ๋ฅ ๊ณ์ฐ์ ๊ทผ์ฌํ์ ์ต๋ ์ฐ๋ ์ถ์ ๋ฐ ๊ด๋ จ ์ ๋ต์์ ๋ฐ์ํ๋ ์ด๋ ค์, ๊ทธ๋ฆฌ๊ณ ์์ฑ์ ์ธ ๋งฅ๋ฝ์์ ์กฐ๊ฐ๋ณ ์ ํ ์ ๋์ ์ด์ ์ ํ์ฉํ๊ธฐ ์ด๋ ค์ด ์ ์ผ๋ก ์ธํด ๊ทธ ์ํฅ๋ ฅ์ด ์ ์์ต๋๋ค. ์ ํฌ๋ ์ด๋ฌํ ์ด๋ ค์์ ์ฐํํ๋ ์๋ก์ด ์์ฑ ๋ชจ๋ธ ์ถ์ ์ ์ฐจ๋ฅผ ์ ์ํฉ๋๋ค.
In the proposed adversarial nets framework, the generative model is pitted against an adversary: a discriminative model that learns to determine whether a sample is from the model distribution or the data distribution. The generative model can be thought of as analogous to a team of counterfeiters, trying to produce fake currency and use it without detection, while the discriminative model is analogous to the police, trying to detect the counterfeit currency. Competition in this game drives both teams to improve their methods until the counterfeits are indistiguishable from the genuine articles. ์ ์๋ ์ ๋์ ์ ๊ฒฝ๋ง(adversarial nets) ํ๋ ์์ํฌ์์, ์์ฑ ๋ชจ๋ธ์ ์ ๋์ ์ธ ์๋์ธ ํ๋ณ ๋ชจ๋ธ๊ณผ ๋ง๋ถ๊ฒ ๋ฉ๋๋ค. ํ๋ณ ๋ชจ๋ธ์ ์ํ์ด ๋ชจ๋ธ ๋ถํฌ์์ ๋์๋์ง ์๋๋ฉด ๋ฐ์ดํฐ ๋ถํฌ์์ ๋์๋์ง๋ฅผ ํ๋จํ๋ ๋ฐฉ๋ฒ์ ํ์ตํฉ๋๋ค. ์์ฑ ๋ชจ๋ธ์ ๊ฐ์ง ํตํ๋ฅผ ์์ฐํ๊ณ ๊ฐ์ง๋์ง ์๊ณ ์ฌ์ฉํ๋ ค๋ ์์กฐ๊พผ ํ์ ์ ์ฌํ๊ฒ ์๊ฐํ ์ ์์ผ๋ฉฐ, ํ๋ณ ๋ชจ๋ธ์ ์์กฐ๋ ํตํ๋ฅผ ๊ฐ์งํ๋ ค๋ ๊ฒฝ์ฐฐ์ ์ ์ฌํ๊ฒ ์๊ฐํ ์ ์์ต๋๋ค. ์ด ๊ฒ์์์์ ๊ฒฝ์์ ์์กฐํ์ด ์ง์ง ๋ฌผ๊ฑด๊ณผ ๊ตฌ๋ณํ ์ ์๋ ์ ๋๊น์ง ์ ํ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ ํ๋๋ก ๋๋ ฅ์ ๋ถ์ฌํฉ๋๋ค.
This framework can yield specific training algorithms for many kinds of model and optimization algorithm. In this article, we explore the special case when the generative model generates samples by passing random noise through a multilayer perceptron, and the discriminative model is also a multilayer perceptron. We refer to this special case as adversarial nets. In this case, we can train both models using only the highly successful backpropagation and dropout algorithms [17] and sample from the generative model using only forward propagation. No approximate inference or Markov chains are necessary. ์ด ํ๋ ์์ํฌ๋ ๋ง์ ์ข ๋ฅ์ ๋ชจ๋ธ๊ณผ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๊ตฌ์ฒด์ ์ธ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋์ถํ ์ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์์ฑ ๋ชจ๋ธ์ด ๋๋ค ๋ ธ์ด์ฆ๋ฅผ ๋ค์ธต ํผ์ ํธ๋ก ์ ํต๊ณผ์์ผ ์ํ์ ์์ฑํ๊ณ , ํ๋ณ ๋ชจ๋ธ๋ ๋ค์ธต ํผ์ ํธ๋ก ์ธ ํน์ํ ๊ฒฝ์ฐ๋ฅผ ํ๊ตฌํฉ๋๋ค. ์ด ํน์ํ ๊ฒฝ์ฐ๋ฅผ ์ ๋์ ์ ๊ฒฝ๋ง(adversarial nets)์ด๋ผ๊ณ ํฉ๋๋ค. ์ด ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ๋ ๋ชจ๋ธ์ ๋งค์ฐ ์ฑ๊ณต์ ์ธ ์ญ์ ํ(backpropagation)์ ๋๋กญ์์(dropout) ์๊ณ ๋ฆฌ์ฆ๋ง์ ์ฌ์ฉํ์ฌ ํ์ตํ ์ ์์ผ๋ฉฐ, ์์ฑ ๋ชจ๋ธ์์๋ ๋จ์ํ ์๋ฐฉํฅ ์ ํ๋ง์ ์ฌ์ฉํ์ฌ ์ํ์ ์ถ์ถํ ์ ์์ต๋๋ค. ๊ทผ์ฌ ์ถ๋ก (approximate inference)์ด๋ ๋ง๋ฅด์ฝํ ์ฒด์ธ(Markov chains)์ ํ์ํ์ง ์์ต๋๋ค.
- adversarial nets ํ๋ ์์ํฌ์์ generator ๋ชจ๋ธ์ discriminator ๋ชจ๋ธ์ ์์ด๋๋ก ์ธํ ๋๊ณ discriminator ๋ชจ๋ธ์ ์ํ์ด generator ๋ชจ๋ธ G๊ฐ ๋ชจ๋ธ๋งํ ๋ถํฌ์์ ๋์จ ๊ฒ์ธ์ง ์ค์ ๋ฐ์ดํฐ ๋ถํฌ์์ ๋์จ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ ๋ฒ์ ํ์ต์ํด
- ์ด๋ฌํ ๊ฒฝ์๊ตฌ๋๋ ๋ ๋ชจ๋ธ์ด ๊ฐ๊ฐ์ ๋ชฉ์ ์ ๋ฌ์ฑ์ํค๊ธฐ ์ํด ์ค์ค๋ก๋ฅผ ๊ฐ์ ํ๋๋ก ํจ
- ex) ์์กฐ์งํ๋ฒ(G)๋ ๊ฒฝ์ฐฐ(D)์ ์์ด๊ธฐ ์ํด ์์กฐ์งํ๋ฅผ ๋ง๋ค๊ณ ๊ฒฝ์ฐฐ์ ์ด๊ฒ์ ์ง์ง ์งํ๋ 1, ๊ฐ์ง ์งํ๋ 0์ผ๋ก ํ๋จํ์ฌ ๊ตฌ๋ถํจ.
- ์์กฐ์งํ๋ฒ๋ ํ๋ จ์ ํ ์๋ก ์์กฐ ๋ฅ๋ ฅ์ด ๋์์ง๊ณ ๊ฒฝ์ฐฐ๋ ํ๋ จ์ ํ ์๋ก ์์กฐ์งํ์ ๊ฐ๋ณ๋ฅ๋ ฅ์ด ๋์์ง๊ฒ ๋จ → ๋ชจ๋์ ์ฑ๋ฅ์ ํฅ์์ํด
- G ๋ชจ๋ธ๊ณผ D ๋ชจ๋ธ ๋ ๋ค ๋ค์ธต ํผ์ ํธ๋ก ์ผ๋ก ๊ตฌ์ฑ๋จ → ๋ณต์กํ ๋คํธ์ํฌ ํ์์์ด ์์ ํ ๋ฐ ์ญ์ ํ ๋๋กญ์์์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํจ→ ์ ๋์ (adversarial) net์ด๋ผ๊ณ ๋ถ๋ฆ
⇒ ๊ฒฐ๊ตญ GAN์ ํต์ฌ ์ปจ์ ์ ๊ฐ๊ฐ์ ์ญํ ์ ๊ฐ์ง ๋ ๋ชจ๋ธ์ ํตํด ์ ๋์ ํ์ต์ ํ๋ฉด์ ‘์ง์ง ๊ฐ์ ๊ฐ์ง’๋ฅผ ์์ฑํด๋ด๋ ๋ฅ๋ ฅ์ ํค์์ฃผ๋ ๊ฒ
2. Adversarial nets
๋ณธ๋ฌธ
An alternative to directed graphical models with latent variables are undirected graphical models with latent variables, such as restricted Boltzmann machines (RBMs) [27, 16], deep Boltzmann machines (DBMs) [26] and their numerous variants. The interactions within such models are represented as the product of unnormalized potential functions, normalized by a global summation/integration over all states of the random variables. This quantity (the partition function) and its gradient are intractable for all but the most trivial instances, although they can be estimated by Markov chain Monte Carlo (MCMC) methods. Mixing poses a significant problem for learning algorithms that rely on MCMC [3, 5]. Deep belief networks (DBNs) [16] are hybrid models containing a single undirected layer and several directed layers. While a fast approximate layer-wise training criterion exists, DBNs incur the computational difficulties associated with both undirected and directed models. ์ ์ฌ ๋ณ์๋ฅผ ํฌํจํ๋ ๋ฐฉํฅ์ด ์๋ ๊ทธ๋ํผ์ปฌ ๋ชจ๋ธ์ ๋์์ผ๋ก๋ ์ ํ๋ ๋ณผ์ธ ๋ง ๋จธ์ (RBM) [27, 16], ๋ฅ ๋ณผ์ธ ๋ง ๋จธ์ (DBM) [26] ๋ฐ ๊ทธ ์ฌ๋ฌ ๋ณํ๊ณผ ๊ฐ์ ์ ์ฌ ๋ณ์๋ฅผ ํฌํจํ๋ ๋ฌด๋ฐฉํฅ ๊ทธ๋ํผ์ปฌ ๋ชจ๋ธ์ด ์์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ ๋ด์ ์ํธ์์ฉ์ ํ๋ฅ ๋ณ์์ ๋ชจ๋ ์ํ์ ๋ํ ์ ์ญ ํฉ์ฐ/์ ๋ถ์ผ๋ก ์ ๊ทํ๋ ๋น์ ๊ทํ๋ ํฌํ ์ ํจ์์ ๊ณฑ์ผ๋ก ํํ๋ฉ๋๋ค. ์ด๋ฐ ์(๋ถํ ํจ์)๊ณผ ๊ทธ ๊ฒฝ์ฌ๋ ๊ฐ์ฅ ๋จ์ํ ๊ฒฝ์ฐ๋ฅผ ์ ์ธํ๊ณ ๋ ๊ณ์ฐํ๊ธฐ ์ด๋ ค์ฐ๋ฉฐ, ๋ง๋ฅด์ฝํ ์ฒด์ธ ๋ชฌํ ์นด๋ฅผ๋ก(MCMC) ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ถ์ ํ ์ ์์ต๋๋ค. MCMC์ ์์กดํ๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์์๋ ํผํฉ(mixing)์ด ์ค์ํ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค [3, 5]. ์ฌ์ธต ์ ๋ขฐ ๋คํธ์ํฌ(DBN) [16]์ ํ๋์ ๋ฌด๋ฐฉํฅ ๋ ์ด์ด์ ์ฌ๋ฌ ๊ฐ์ ๋ฐฉํฅ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๋๋ค. ๋น ๋ฅธ ๊ทผ์ฌ์ ์ธ ๋ ์ด์ด๋ณ ํ์ต ๊ธฐ์ค์ด ์กด์ฌํ์ง๋ง, DBN์ ๋ฌด๋ฐฉํฅ ๋ชจ๋ธ๊ณผ ๋ฐฉํฅ ๋ชจ๋ธ ๋ชจ๋์ ๊ด๋ จ๋ ๊ณ์ฐ์ ์ธ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. Alternative criteria that do not approximate or bound the log-likelihood have also been proposed, such as score matching [18] and noise-contrastive estimation (NCE) [13]. Both of these require the learned probability density to be analytically specified up to a normalization constant. Note that in many interesting generative models with several layers of latent variables (such as DBNs and DBMs), it is not even possible to derive a tractable unnormalized probability density. Some models such as denoising auto-encoders [30] and contractive autoencoders have learning rules very similar to score matching applied to RBMs. In NCE, as in this work, a discriminative training criterion is employed to fit a generative model. However, rather than fitting a separate discriminative model, the generative model itself is used to discriminate generated data from samples a fixed noise distribution. Because NCE uses a fixed noise distribution, learning slows dramatically after the model has learned even an approximately correct distribution over a small subset of the observed variables. ๋ก๊ทธ ์ฐ๋๋ฅผ ๊ทผ์ฌํ๊ฑฐ๋ ์ ํํ๋ ๋์ ์ ๋ค๋ฅธ ๋์์ ์ธ ๊ธฐ์ค๋ค์ด ์ ์๋์์ต๋๋ค. ์๋ฅผ ๋ค๋ฉด, score matching [18] ๋ฐ noise-contrastive estimation (NCE) [13]๊ฐ ์์ต๋๋ค. ์ด ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ํ์ต๋ ํ๋ฅ ๋ฐ๋๋ฅผ ์ ๊ทํ ์์๊น์ง ํด์์ ์ผ๋ก ๋ช ์ํด์ผ ํ๋ค๋ ์ ์ด ๊ณตํต์ ์ ๋๋ค. ์ฃผ๋ชฉํ ๋งํ ๋ช ๊ฐ์ ์ ์ฌ ๋ณ์ ์ธต์ ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ์์ฑ ๋ชจ๋ธ(์: DBN ๋ฐ DBM)์์๋ ์ฌ์ง์ด ๊ณ์ฐ ๊ฐ๋ฅํ ๋น์ ๊ทํ๋ ํ๋ฅ ๋ฐ๋๋ฅผ ์ ๋ํ๋ ๊ฒ์กฐ์ฐจ ์ด๋ ค์ด ๊ฒฝ์ฐ๋ ์์ต๋๋ค. ๋ ธ์ด์ฆ ์ ๊ฑฐ ์คํ ์ธ์ฝ๋ [30] ๋ฐ ์ปจํธ๋ํฐ๋ธ ์คํ ์ธ์ฝ๋์ ๊ฐ์ ๋ช๋ช ๋ชจ๋ธ๋ค์ RBM์ ์ ์ฉ๋ score matching๊ณผ ๋งค์ฐ ์ ์ฌํ ํ์ต ๊ท์น์ ๊ฐ์ง๊ณ ์์ต๋๋ค. NCE์์๋ ์ด ์์ ๊ณผ ๊ฐ์ด ์์ฑ ๋ชจ๋ธ์ ํผํ ํ๊ธฐ ์ํด ์๋ณ์ ์ธ ํ์ต ๊ธฐ์ค์ด ์ฌ์ฉ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ณ๋์ ์๋ณ ๋ชจ๋ธ์ ํผํ ํ๋ ๋์ ์ ์์ฑ ๋ชจ๋ธ ์์ฒด๊ฐ ๊ณ ์ ๋ ๋ ธ์ด์ฆ ๋ถํฌ๋ก๋ถํฐ ์์ฑ๋ ๋ฐ์ดํฐ์ ์ํ๋ค์ ๊ตฌ๋ณํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. NCE๋ ๊ณ ์ ๋ ๋ ธ์ด์ฆ ๋ถํฌ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ด ์ผ๋ถ ๊ด์ธก ๋ณ์์ ๋ํด ์ค์ง์ ์ผ๋ก ์ฌ๋ฐ๋ฅธ ๋ถํฌ๋ฅผ ํ์ตํ ํ์ ํ์ต ์๋๊ฐ ํฌ๊ฒ ๋๋ ค์ง๋๋ค.
Finally, some techniques do not involve defining a probability distribution explicitly, but rather train a generative machine to draw samples from the desired distribution. This approach has the advantage that such machines can be designed to be trained by back-propagation. Prominent recent work in this area includes the generative stochastic network (GSN) framework [5], which extends generalized denoising auto-encoders [4]: both can be seen as defining a parameterized Markov chain, i.e., one learns the parameters of a machine that performs one step of a generative Markov chain. Compared to GSNs, the adversarial nets framework does not require a Markov chain for sampling. Because adversarial nets do not require feedback loops during generation, they are better able to leverage piecewise linear units [19, 9, 10], which improve the performance of backpropagation but have problems with unbounded activation when used ina feedback loop. More recent examples of training a generative machine by back-propagating into it include recent work on auto-encoding variational Bayes [20] and stochastic backpropagation [24]. ๋ง์ง๋ง์ผ๋ก, ๋ช ๊ฐ์ง ๊ธฐ๋ฒ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ช ์์ ์ผ๋ก ์ ์ํ๋ ๋์ ์ํ๋ ๋ถํฌ์์ ์ํ์ ์์ฑํ๊ธฐ ์ํด ์์ฑ ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ด๋ฌํ ๊ธฐ๊ณ๊ฐ ์ญ์ ํ๋ก ํ์ต๋ ์ ์๋๋ก ์ค๊ณ๋ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์ด ๋ถ์ผ์์ ์ฃผ๋ชฉํ ๋งํ ์ต๊ทผ ์ฐ๊ตฌ๋ก๋ ์์ฑ์ ํ๋ฅ ์ ๊ฒฝ๋ง (GSN) ํ๋ ์์ํฌ [5]๊ฐ ์์ผ๋ฉฐ, ์ด๋ ์ผ๋ฐํ๋ ๋ ธ์ด์ฆ ์ ๊ฑฐ ์คํ ์ธ์ฝ๋ [4]๋ฅผ ํ์ฅํ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด ๋์ ๋งค๊ฐ๋ณ์ํ๋ ๋ง๋ฅด์ฝํ ์ฒด์ธ์ ์ ์ํ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ์ฆ, ์์ฑ์ ์ธ ๋ง๋ฅด์ฝํ ์ฒด์ธ์ ํ ๋จ๊ณ๋ฅผ ์ํํ๋ ๊ธฐ๊ณ์ ๋งค๊ฐ๋ณ์๋ฅผ ํ์ตํฉ๋๋ค. GSN๊ณผ ๋น๊ตํ์ฌ, ์ ๋์ ๋คํธ์ํฌ ํ๋ ์์ํฌ๋ ์ํ๋ง์ ์ํด ๋ง๋ฅด์ฝํ ์ฒด์ธ์ ํ์๋กํ์ง ์์ต๋๋ค. ์ ๋์ ๋คํธ์ํฌ๋ ์์ฑ ์ค์ ํผ๋๋ฐฑ ๋ฃจํ๊ฐ ํ์ํ์ง ์๊ธฐ ๋๋ฌธ์, ์ญ์ ํ์ ์ฑ๋ฅ์ ํฅ์์ํค๋๋ฐ ๋์์ด ๋๋ ๋ถ๋ฆฌ ์ ํ ์ ๋ [19, 9, 10]์ ๋ ์ ํ์ฉํ ์ ์์ต๋๋ค. ์์ฑ ๊ธฐ๊ณ๋ฅผ ์ญ์ ํ๋ก ํ์ตํ๋ ๋ ์ต๊ทผ์ ์๋ก๋ ์คํ ์ธ์ฝ๋ฉ ๋ณ์ด ๋ฒ ์ด์ฆ [20] ๋ฐ ํ๋ฅ ์ ์ญ์ ํ [24]์ ๋ํ ์ต๊ทผ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค.
- ํ์ต ์ด๋ฐ์๋ G๊ฐ ์์ฑํด๋ด๋ ์ด๋ฏธ์ง๋ D๊ฐ G๊ฐ ์์ฑํด๋ธ ๊ฐ์ง ์ํ์ธ์ง ์ค์ ๋ฐ์ดํฐ์ ์ํ์ธ์ง ๋ฐ๋ก ๊ตฌ๋ณํ ์ ์์ ๋งํผ ํํธ์๊ธฐ ๋๋ฌธ์ D(G(z))์ ๊ฒฐ๊ณผ๊ฐ 0์ ๊ฐ๊น์.
- ๊ทธ๋ฆฌ๊ณ ํ์ต์ด ์งํ๋ ์๋ก, G๋ ์ค์ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๋ชจ์ฌํ๋ฉด์ D(G(z))์ ๊ฐ์ด 1์ด ๋๋๋ก ๋ฐ์ ํจ
- G๋ ์ค๋ฅธ์ชฝ ์์ ์ต์ํํ๋ ๊ฒ์ด ๋ชฉ์ , D๋ ์ต๋ํ ํ๋ ๊ฒ์ด ๋ชฉ์
2.1 ๋๋์ ๊ด์
- G(z) : ๊ฐ์ง ์ด๋ฏธ์ง
- D(G(z)): ๊ฐ์ง ์ด๋ฏธ์ง๊ฐ ๋ค์ด์์ ๋ D๊ฐ ์ด๋ป๊ฒ ํ๋ณํ ๊น?
→ ๋๋์ ๊ฒฝ์ฐ, ๊ฐ์ง ์ด๋ฏธ์ง๊ฐ ๋ค์ด์์ ๋, ์ง์ง ์ด๋ฏธ์ง๋ผ๊ณ ํ๋จํ๋ ๊ฒ์ด ๋ชฉ์ ์
→ ๋ฐ๋ผ์ D(G(z))๊ฐ 1์ด ๋๋ ๊ฒ์ด ์ต์ข ๋ชฉํ
→ ๊ทธ๋ ๊ฒ ๋๋ฉด log(1-1)์ด ๋จ. ์ฆ, ์ค๋ฅธ์ชฝ ์์ด ์ต์ํ๋๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์์
- D(G(z))๊ฐ 1์ด ๋๋ ๊ฒ์ด ์ข์๊ฑฐ
2.2 ๊ฒฝ์ฐฐ์ ๊ด์
- logD(x)๊ฐ 1์ด ๋๋ ๊ฒ์ ๋ชฉํ๋ก ํจ → ์ง์ง ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ์ง์ง๋ผ๊ณ ํ๋ณํด์ผ ํ๊ธฐ ๋๋ฌธ
- D(G(z)) : ๊ฐ์ง๋ฅผ ์ต๋ํ ๊ฐ์ง๋ก ๊ตฌ๋ถํด์ผ ํ๊ธฐ ๋๋ฌธ์ 0์ผ๋ก ๋ง๋๋ ๊ฒ์ด ๊ฒฝ์ฐฐ์ ๋ชฉ์ . ์ฆ log(1-0) =0 ์ ๊ฐ๊น๋๋ก ๋ง๋๋ ๊ฒ์ด ์ต์ข ๋ชฉํ
- D(G(z))๊ฐ 0์ด ๋๋ ๊ฒ์ด ์ข์
- ์ฆ, ์ต๋๊ฐ์ 0, ์ต์๊ฐ์ ๋ง์ด๋์ค ๋ฌดํ๋
- ํ๋์ ์ ์ : discriminative distribution
- ๊ฒ์์ ์ ์ : data generating distribution(real)
- ๋ น์ ์ค์ : generative distribution(fake)
- z(noise): x(์ด๋ฏธ์ง) ๊ณต๊ฐ์ผ๋ก ๋งตํ์ด ์๋ ์ด๋ฏธ์ง์ ๋ถํฌ์ ๋ค๋ฅธ ๋ถํฌ๋ฅผ ์์ฑ(fake data)ex) ์ซ์ ๋ฐ์ดํฐ 2๋ผ๊ณ ํ๊ฒ ๋๋ฉด ์ด๋ฐ์๋ ๋ญ๊ฐ์ง ์ซ์๋ก ๋์จ๋ค๋
- (a): ํ์ต์ด๊ธฐ์๋ real๊ณผ fake์ ๋ถํฌ๊ฐ ์ ํ ๋ค๋ฆ. D์ ์ฑ๋ฅ๋ ์ฉ ์ข์ง ์์
- (b): ํ์ต์ํฌ ๋, G ๋๋ D ์ค ํ๋๋ฅผ ๊ณ ์ ์์ผ์ ๋๋จธ์ง๋ฅผ ํ์ต์ํด (์ด ๋ ์ฌ๊ธฐ์์๋ G๋ฅผ ๊ณ ์ . ์ดํ D๋ฅผ ํ์ต์ํจ ๊ฒ์)D๊ฐ (a)์ฒ๋ผ ๋ค์ฅ๋ ์ฅํ๊ฒ ํ๋ฅ ์ ํ๋จํ์ง ์๊ณ , real๊ณผ fake๋ฅผ ๋ถ๋ช ํ๊ฒ ํ๋ณํด ๋ด๊ณ ์์์ ํ์ธํ ์ ์. ์ด๋ D๊ฐ ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ ๊ฒ์ด๋ผ๊ณ ๋งํ ์ ์์
- (c): ์ด๋ฒ์๋ D๋ฅผ ๊ณ ์ ํ๊ณ G๋ฅผ ํ์ต์ํด์ด๋์ ๋ D๊ฐ ํ์ต์ด ์ด๋ฃจ์ด์ง๋ฉด, G๋ ์ค์ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๋ชจ์ฌํ๋ฉฐ D๊ฐ ๊ตฌ๋ณํ๊ธฐ ํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ํจ
- (d): ์ด ๊ณผ์ ์ ๋ฐ๋ณต์ ๊ฒฐ๊ณผ๋ก real๊ณผ fake์ ๋ถํฌ๊ฐ ๊ฑฐ์ ๋น์ทํด์ ธ ๊ตฌ๋ถํ ์ ์์ ๋งํผ G๊ฐ ํ์ต์ ํ๊ฒ ๋๊ณ ๊ฒฐ๊ตญ, D๊ฐ ์ด ๋์ ๊ตฌ๋ถํ ์ ์๊ฒ ๋์ด ํ๋ฅ ์ 1/2๋ก ๊ณ์ฐํ๊ฒ ๋จ
3. ์ด๋ก /์ฆ๋ช
3-1) Global Optimality of pg(G์ถ๋ ฅ๋ถํฌ) = pdata(์ค์ data)
- (์ต์ ํ ๊ตฌํ๋ ๋ฒ)
- ์ด๋ ํ G๊ฐ ๋ค์ด์ค๋์ง ๊ฐ์, ์ต์ ์ D๋ ๋ญ๊น? ⇒ ์์ ์์ ๊ฐ์ง ๋ ๊ฐ์ฅ ์ต์ ์ด๋ค! ๋ผ๋ ๊ฒ์ ์ฆ๋ช ํจ
- D ์ ์ฅ์์๋ V(G,D)๋ฅผ ์ต๋ํ, G์ ์ฅ์์๋ ์ต์
- V(G,D)๋ฅผ ์ต์ํ ์ํค๋ ์ต์ ํด๊ฐ ๋ฌด์์ผ๊น
- D*G(x)๋ฅผ ํ ์ด์ ๋ ์์ D์ ๋ํด ํ๋ฒ maximize๋ฅผ ํ๊ธฐ ๋๋ฌธ
3-2) Convergence of Algorithm 1
- ํ์ต ๊ตฌํ ๋ฐฉ๋ฒ
- ํ์ต ๋ฐ๋ณต ํ์๋งํผ ๋ฐ๋ณต(์ํญ)
- ๋งค ์ํญ๋น k๋ฒ D ํ์ตํ ์ดํ์, G ํ์ต
- D์ ํ์ต: m๊ฐ์ ๋ ธ์ด์ฆ๋ฅผ ๋ฝ๊ณ , m๊ฐ์ ์๋ณธ ๋ฐ์ดํฐ ์ํ๋ง ํ ํ, ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ํตํด maximize ์งํ → ์๋ณธ๋ฐ์ดํฐ D(x)์ ๋ํด์๋ 1, D(G(z))์ ๋ํด์๋ 0์ ์ถ๋ ฅํ๋๋ก ํ์ต
- G์ ํ์ต: m๊ฐ์ ๋ ธ์ด์ฆ๋ฅผ ๋ฝ๊ณ m๊ฐ์ fake data๋ฅผ ๋ง๋ค๊ณ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ๋ฎ์ถ๋ ์์ผ๋ก ํ์ต
4. Experiments
- MNIST, TFD, CIFAR-10์ ๋ํด ํ๋ จ
- generator net๋ rectifier linear activation์ ์๊ทธ๋ชจ์ด๋๋ฅผ ํผํฉํ์ฌ ์ฌ์ฉ
- discriminator ํ๋ จ์ ๋๋กญ์์์ ์ฌ์ฉํ๊ณ maxout activation์ ์ฌ์ฉ
- ์ด๋ก ์ ํ๋ ์์ํฌ์์๋ generator์ ์ค๊ฐ์ธต์ ๋๋กญ์์๊ณผ ๋ ธ์ด์ฆ๋ฅผ ํ์ฉํ์ง ์์ง๋ง, ์คํ์์๋ ๋งจ ํ์ ๊ณ์ธต์ ๋ ธ์ด์ฆ input์ ์ฌ์ฉํ์
- ํ์ตํ ๊ฒ์ ๋จ์ ์๊ธฐํด์ ์ถ๋ ฅํ ๊ฒ์ด ์๋๋ผ ์์ฑํ๋ค!
- ๋ ธ๋๋ฐ์ค: ํ์ต ์ด๋ฏธ์ง
5. ์ฅ๋จ์
๋ณธ๋ฌธ
This new framework comes with advantages and disadvantages relative to previous modeling frameworks. The disadvantages are primarily that there is no explicit representation of pg(x), and that D must be synchronized well with G during training (in particular, G must not be trained too much without updating D, in order to avoid “the Helvetica scenario” in which G collapses too many values of z to the same value of x to have enough diversity to model pdata), much as the negative chains of a Boltzmann machine must be kept up to date between learning steps. The advantages are that Markov chains are never needed, only backprop is used to obtain gradients, no inference is needed during learning, and a wide variety of functions can be incorporated into the model. Table 2 summarizes the comparison of generative adversarial nets with other generative modeling approaches. The aforementioned advantages are primarily computational. Adversarial models may also gain some statistical advantage from the generator network not being updated directly with data examples, but only with gradients flowing through the discriminator. This means that components of the input are not copied directly into the generator’s parameters. Another advantage of adversarial networks is that they can represent very sharp, even degenerate distributions, while methods based on Markov chains require that the distribution be somewhat blurry in order for the chains to be able to mix between modes.
์ด ์๋ก์ด ํ๋ ์์ํฌ๋ ์ด์ ๋ชจ๋ธ๋ง ํ๋ ์์ํฌ์ ๋นํด ์ฅ๋จ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ฃผ์ํ ๋จ์ ์ ๋ช ์์ ์ผ๋ก pg(x)๋ฅผ ํํํ์ง ์์ผ๋ฉฐ, ํ๋ จ ์ค์ D๊ฐ G์ ์ ๋๊ธฐํ๋์ด์ผ ํ๋ค๋ ์ ์ ๋๋ค. ํนํ, G๋ฅผ ์ ๋ฐ์ดํธํ์ง ์๊ณ ๋๋ฌด ๋ง์ด ํ๋ จํ๋ฉด G๊ฐ ์ถฉ๋ถํ ๋ค์์ฑ์ ๊ฐ์ง๊ธฐ ์ํด z์ ๋ง์ ๊ฐ์ x์ ๋์ผํ ๊ฐ์ผ๋ก ์ถ์ํ๋ "Helvetica ์๋๋ฆฌ์ค"๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, ๋ณผ์ธ ๋ง ๋จธ์ ์ ๋ถ์ ์ ์ธ ์ฒด์ธ์ ํ์ต ๋จ๊ณ ์ฌ์ด์์ ์ต์ ์ํ๋ฅผ ์ ์งํด์ผ ํฉ๋๋ค. ์ด๋ฌํ ๋จ์ ๊ณผ๋ ๋์กฐ์ ์ผ๋ก ์ด ๋ชจ๋ธ์ ์ฅ์ ์ ๋ง๋ฅด์ฝํ ์ฒด์ธ์ด ํ์ํ์ง ์์ผ๋ฉฐ, ๊ธฐ์ธ๊ธฐ๋ฅผ ์ป๊ธฐ ์ํด ์ญ์ ํ๋ง ์ฌ์ฉ๋๋ค๋ ๊ฒ์ ๋๋ค. ํ์ต ์ค์๋ ์ถ๋ก ์ด ํ์ํ์ง ์์ผ๋ฉฐ, ๋ค์ํ ํจ์๋ฅผ ๋ชจ๋ธ์ ํตํฉํ ์ ์์ต๋๋ค. ํ 2๋ ์์ฑ์ ์ ๋ ์ ๊ฒฝ๋ง๊ณผ ๋ค๋ฅธ ์์ฑ ๋ชจ๋ธ๋ง ์ ๊ทผ ๋ฐฉ์์ ๋น๊ตํ ๊ฒ์ ์์ฝํ ๊ฒ์ ๋๋ค.
์ธ๊ธ๋ ์ฅ์ ๋ค์ ์ฃผ๋ก ๊ณ์ฐ์ ์ธ ์ธก๋ฉด์์์ ๋๋ค. ์ ๋์ ๋ชจ๋ธ์ ์์ฑ์ ๋คํธ์ํฌ๊ฐ ๋ฐ์ดํฐ ์์ ์ ์ง์ ์ ์ผ๋ก ์ ๋ฐ์ดํธ๋์ง ์๊ณ , ํ๋ณ์๋ฅผ ํตํด ๊ทธ๋๋์ธํธ๋ง์ด ํ๋ฅธ๋ค๋ ์ ์์ ํต๊ณ์ ์ธ ์ด์ ์ ์ป์ ์๋ ์์ต๋๋ค. ์ด๋ ์ ๋ ฅ ๊ตฌ์ฑ ์์๊ฐ ์์ฑ์์ ๋งค๊ฐ ๋ณ์๋ก ์ง์ ๋ณต์ฌ๋์ง ์๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ ๋์ ๋คํธ์ํฌ์ ๋ ๋ค๋ฅธ ์ฅ์ ์ ๋ง๋ฅด์ฝํ ์ฒด์ธ์ ๊ธฐ๋ฐํ ๋ฐฉ๋ฒ๋ค์ ์ฒด์ธ์ด ๋ชจ๋ ๊ฐ์ ํผํฉํ ์ ์๋๋ก ๋ถํฌ๊ฐ ๋ค์ ํ๋ฆฟํด์ผ ํ๋ค๋ ์ ์ ํ์๋ก ํ์ง๋ง, ์ ๋์ ๋คํธ์ํฌ๋ ๋งค์ฐ ๋ ์นด๋ก์ด, ์ฌ์ง์ด ํดํ๋ ๋ถํฌ๋ฅผ ํํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
- ๋จ์
- D์ G๊ฐ ๊ท ํ์ ์ ๋ง์ถฐ ์ฑ๋ฅ์ด ํฅ์๋์ด์ผ ํจ (G๋ D๊ฐ ๋๋ฌด ๋ฐ์ ํ๊ธฐ ์ ์ ๋๋ฌด ๋ฐ์ ๋์ด์๋ ์๋จ. G๊ฐ z ๋ฐ์ดํฐ๋ฅผ ๋๋ฌด ๋ง์ด ๋ถ๊ดด์์ผ๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ)
- ์ฅ์
- Markov chains์ด ์ ํ ํ์ ์๊ณ gradients๋ฅผ ์ป๊ธฐ ์ํด back-propagation๋ง์ด ์ฌ์ฉ๋จ
- Markov chains๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฐฉ๋ฒ๋ณด๋ค ์ ๋ช ํ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์์
- ํ์ต ์ค ์ด๋ ํ inference๊ฐ ํ์ ์์
- ๋ค์ํ ํจ์๋ค์ด ๋ชจ๋ธ์ด ์ ๋ชฉ๋ ์ ์์
โป ๋ง์ฝ๋ธ ์ฒด์ธ
- ๋ง์ฝ๋ธ ์ฒด์ธ์ ํ์ฌ ์ํ๊ฐ ์ด์ ์ํ์๋ง ์์กดํ๋ ํน์ฑ์ ๊ฐ์ง๋ฉฐ, ์ด์ ์ํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ํ๋ฅผ ์์ธกํ๋ ํ๋ฅ ๋ชจ๋ธ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
cGAN/Pix2Pix (0) | 2023.07.07 |
---|---|
R-CNN (0) | 2023.07.06 |
AE (0) | 2023.07.06 |
SPPNet (0) | 2023.07.06 |
Faster R-CNN (0) | 2023.07.06 |