- XLNet์ GPT๋ก ๋ํ๋๋ auto-regressive(AR) ๋ชจ๋ธ๊ณผ BERT๋ก ๋ํ๋๋ auto-encoder(AE) ๋ชจ๋ธ์ ์ฅ์ ๋ง์ ํฉํ generalized AR pretraining model.
- ์ด๋ฅผ ์ํด permutation language modeling objective๊ณผ two-stream attention mechanism์ ์ ์.
- ๋ค์ํ NLP ํ ์คํฌ์์ ๊ธฐ์กด ๋๋น ์๋นํ ํฅ์์ ๋ณด์ด๋ฉฐ state-of-the-art ์ฑ๋ฅ์ ๋ณด์.
1. Intro
- ์ต๊ทผ ๋ง์ ์์ corpus๋ฅผ ์ด์ฉํ๋ unsupervised representation learning์ด ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์์
- Pre-training์ ํตํด ์ป์ด์ง representation (word2vec, ELMO ๋ฑ)์ ์ง์ ์ ์ผ๋ก ํ์ฉํ๊ฑฐ๋ pre-trained model์ downstream task์ ๋ํด fine-tuning ํ๋ ๋ฐฉ๋ฒ(GPT, BERT ๋ฑ)์ด ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค.
- Pre-training ๋จ๊ณ์์๋ ์ฌ๋ฌ objective๋ค์ด ์ด์ฉ๋์ด ์๋๋ฐ, ๊ทธ ์ค ๊ฐ์ฅ ๋ํ์ ์ธ ๋ ๊ฐ์ง๋ฅผ ์๊ฐํจ (AR + AE)
1-1) Autogressive(AR)
- ์ผ๋ฐ์ ์ธ Language Model (LM)์ ํ์ต ๋ฐฉ๋ฒ์ผ๋ก ์ด์ token๋ค์ ๋ณด๊ณ ๋ค์ token์ ์์ธกํ๋ ๋ฌธ์ . ex) ELMO, GPT RNNLM ๋ฑ์ด ํฌํจ
- ๋จ์ผ ๋ฐฉํฅ ์ ๋ณด๋ฅผ ํตํ ์์ธก
- AR์ ๋ฐฉํฅ์ฑ(forward, backward)์ด ์ ํด์ ธ์ผ ํ๋ฏ๋ก, ํ์ชฝ ๋ฐฉํฅ์ ์ ๋ณด๋ง์ ์ด์ฉํ ์ ์์
- ๋ฐ๋ผ์ ์๋ฐฉํฅ ๋ฌธ๋งฅ์ ํ์ฉํด ๋ฌธ์ฅ์ ๋ํด ๊น์ด ์ดํดํ๊ธฐ ์ด๋ ค์.
- ELMO์ ๊ฒฝ์ฐ ์๋ฐฉํฅ์ ์ด์ฉํ์ง๋ง, ๊ฐ๊ฐ์ ๋ฐฉํฅ์ ๋ํด ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ด์ฉํ๋ฏ๋ก ์์ ์ดํด๋ง ๊ฐ๋ฅํจ
1-2) Auto Encoding(AE)
- Auto Encoder๋ ์ฃผ์ด์ง input์ ๋ํด ๊ทธ input์ ๊ทธ๋๋ก ์์ธกํ๋ ๋ฌธ์ ๋ฅผ ํ๊ณ , Denoising Auto Encoder์ noise๊ฐ ์์ธ input์ ์๋์ input์ผ๋ก ์์ธกํ๋ ๋ฌธ์ ๋ฅผ ํ.
- BERT๊ฐ์ ๊ฒฝ์ฐ๋์ฃผ์ด์ง input sequence์ ์์๋ก ์ถ๊ฐํ noise(
[MASK]
token)๊ฐ ์ฃผ์ด์ก์ ๋,[MASK]
token ์ ์๋ input token์ผ๋ก ๋ณต๊ตฌํ๊ณ ์ ํจ.
- ๋ฐ๋ผ์ Denoising Auto Encoder์ ๋ฐฉ์์ผ๋ก ๋ณผ ์ ์์
1-3) AR๊ณผ AE์ ๋ฌธ์ ์
- AR
- ๋จ์ผ ๋ฐฉํฅ ์ ๋ณด๋ง ์ด์ฉํด์ ํ์ต ๊ฐ๋ฅํจ
- AE
- [Mask] token์ด ๋ ๋ฆฝ์ ์ผ๋ก ์์ธก (independent assumption) ๋๊ธฐ ๋๋ฌธ์, token ์ฌ์ด์ dependency๋ ํ์ตํ ์ ์์
- Fine tuning ๊ณผ์ ์์ [Mask] token์ด ๋ฑ์ฅํ์ง ์๊ธฐ ๋๋ฌธ์, pre-training๊ณผ fine-tuning ์ฌ์ด์ ๋ถ์ผ์น ๋ฐ์ํ ์ ์์
2. Proposed Method: XLNet
- ์์ ๋จ์ ์ ๋ณด์ํ๊ณ , ์ฅ์ ์ ์ด๋ฆฌ๊ธฐ ์ํด ์๋ 3๊ฐ์ง์ ๋ฐฉ๋ฒ๋ก ์ด ์ ์๋จ
- ์๋ก์ด Objective (Permutation Language Modeling)
- ์ด๋ฅผ ๋ฐ์ํ๊ธฐ ์ํ Target-Aware Representation
- ์ ๋ด์ฉ๋ค๊ณผ Transformer ๊ตฌ์กฐ๋ฅผ ๋์์ ์ด์ฉํ๊ธฐ ์ํ ์๋ก์ด Two-Stream Self-Attention ๊ตฌ์กฐ
1. Permutation Language Modeling Objective
- AR๋ชจ๋ธ์ ์ฅ์ ์ ์ ์งํ๋, ์๋ฐฉํฅ ์ปจํ ์คํธ๋ฅผ ํ๋ณด(AE์ ์ฅ์ ์ ํ์ฉํ๊ณ ์..ํ ๋ฏ)ํ ์ ์๋๋ก ํ๋ ๋ชจ๋ธ.
- input sequence index(์์)์ ๋ชจ๋ permutation์ ๊ณ ๋ คํ AR ๋ฐฉ์ ์ฌ์ฉ.
- input sequence [x1,x2,x3,x4]์ ๋ํด์ index(์์)์ permutation์ ์งํฉ์ ์ด 4!=24๊ฐ๊ฐ ์กด์ฌํ๋ฉฐ ZT=[[1,2,3,4],[1,2,4,3],[1,3,2,4]…[4,3,2,1]]๋ก ๋ํ๋ผ ์ ์์
→ Permutation ์งํฉ์ ํตํด ๋ค์ํ sequence ๊ณ ๋ คํ๊ฒ ๋จ
→ AR(๋จ๋ฐฉํฅ)์ผ๋ก๋ ์ถ๊ตฌํ์ง ๋ชปํ๋ ์๋ฐฉํฅ์ฑ์ AR objective function์ ๋์ ํจ์ผ๋ก์จ ํน์ ํ ํฐ์ ๋ํ ์๋ฐฉํฅ context๋ฅผ ๊ณ ๋ คํ ์ ์์
โก๏ธ AR ๋ฐฉ์์ด๋ฏ๋ก independent assumption(๋
๋ฆฝ ๊ฐ์ )์ ํ ํ์๊ฐ ์๊ณ , [MASK]
token์ ์ด์ฉํ์ง ์์ผ๋ฏ๋ก, pre-training๊ณผ fine-tuning์ฌ์ด์ ๋ถ์ผ์น๋ ์๊ณ AE๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์์.
- ์๋ฅผ ๋ค์ด, ํ ํฐ 3์ ๋ํด ์์ธกํ๊ณ ์ ํ๋ค๊ณ ๊ฐ์
- [3,2,4,1]→ ํ ํฐ์ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ค์ง ์์
- [2,4,3,1]→ 2,4,3,1 ์์์ด๊ธฐ์, 2,4์ ์ ๋ณด์ ๋ํ ํ ํฐ์ ๊ฐ์ ธ์ด
- [1,4,2,3]→ 1,4,2์ ์ ๋ณด์ ๋ํ ํ ํฐ์ ๊ฐ์ ธ์ด
2. Architecture: Two-Stream Self-Attention for Target-Aware Representations
- ํ์ง๋ง ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์, Standard Transformer parameterixation์์๋ ์๋ํ์ง ์์→ ํ์ต ์์ permutationํด์ ์์ธกํ token์ด ๋ช ํํ์ง ์๋๋ค๋ ๋ฌธ์ ๋ฐ์์๋ฅผ ๋ค์ด, [1,2,3,4] ์์๋ก x3์ ๋ง์ถฐ์ผ ํ๋ค๋ฉด, x1๊ณผ x2์ ์ ๋ณด๋ฅผ ํตํด x3์ ๋ง์ถฐ์ผ ํจ.์ฆ, ๋์ผํ representation์ผ๋ก ๋ค๋ฅธ target์ ๋ง์ถฐ์ผ ํ๋๋ฐ, ์์ ๋ฐฉ์์ ํตํด ์ ์ฉํ๋ค๋ฉด ๋ญ๊ฐ์ง๋ ํ์์ด ๋ฐ์ํ ์ ์๋ค๋ ๊ฒ์ (ํ์ต์ด ์ ์๋๊ฒ์ฃ )
- ๋ํ [1,2,4,3]์ ๊ฒฝ์ฐ๋ x4๋ฅผ ๋ง์ถฐ์ผํ ๊ฒฝ์ฐ, x1,x2์ ์ ๋ณด๋ฅผ ํตํด x4๋ฅผ ๋ง์ถฐ์ผ ํจ.
โก๏ธ ์ด ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ด์ ์ context token๋ค์ ์ ๋ณด (xz<t)๋ฟ๋ง ์๋๋ผ target index์ position ์ ๋ณด (zt)๋ ํจ๊ป ์ด์ฉํ๋ ์๋ก์ด Target Position-Aware Representation์ ์ ์ํจ ⇒ hθ(xz<t)→gθ(xz<t,zt)
1. Two-Stream Self-Attention
→ target position ์ ๋ณด๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ์ด์ฉํ๋ gθ ๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ฑํ ์ง์ ๋ฌธ์ ๊ฐ ๋จ์์์. gθ์ ์กฐ๊ฑด ๋ ๊ฐ์ง๋ฅผ ๊ณ ๋ คํด์ผ ํจ
- ํน์ ์์ t์์ target position zt ์ token xzt์ ์์ธกํ๊ธฐ ์ํด, hidden representation g(xz<t,zt)๋ t ์์ ์ด์ ์ context ์ ๋ณด xz<t ์ target position ์ ๋ณด zt ๋ง์ ์ด์ฉํด์ผ ํจ.→ zt(target)์ ์์น๋ง ์ฌ์ฉํ๊ณ , ๋ด์ฉ์ ์ฌ์ฉํ๋ฉด ์๋จ
- ํน์ ์์ t ์ดํ์ธ j (>t) ์ ํด๋นํ๋ xzj ๋ฅผ ์์ธกํ๊ธฐ ์ํด, hidden representation g(xz<t,zt) ๊ฐ t ์์ ์ content์ธ xzt ๋ฅผ ์ธ์ฝ๋ฉํด์ผ ํจ.→ T ์์ ์ context๋ ๊ฐ์ง๊ณ ์์ด์ผ ํ๋ค ๋ญ ์ด๋ฐ๋ง์ธ๋ฏ.
2. Query Representation
- ํ์ฌ ์์ ์ ์ ์ธํ ์ด์ ์์ token๋ค์ content์ ํ์ฌ ์์ ์ ์์น์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ๊ณ์ฐ๋๋ representation
ex)
- position 3์ ๊ฒฝ์ฐ
: 3๋ฒ์ ํด๋นํ๋ position ์ ๋ณด ๊ฐ๋ง w(weight)๋ง ๊ฐ์ง๊ณ ํ์ต
- position 2์ ๊ฒฝ์ฐ
: 2๋ฒ์ ์์น ์ ๋ณด์ 3๋ฒ์ token ์ ๋ณด๋ฅผ ํ์ต
- position 4์ ๊ฒฝ์ฐ
: 4๋ฒ ์์น ์ ๋ณด์ 2,3๋ฒ์ token ์ ๋ณด๋ฅผ ํ์ต
- position 1์ ๊ฒฝ์ฐ
: 1๋ฒ ์์น ์ ๋ณด์ 2,3,4๋ฒ์ token ์ ๋ณด ํ์ต
โป ์๋์ x1,x2,x3,x4๋ ํน์ ํ ํฐ์ embedding๋ ๊ฐ์ ์๋ฏธํจ
3. Context Representation (๊ธฐ์กด transformer๊ณผ ๋์ผ)
- ํ์ฌ ์์ ๋ฐ ์ด์ ์์ token๋ค์ content๋ฅผ ์ด์ฉํ์ฌ ๊ณ์ฐ๋๋ representation
- Standard transformer์ hidden state์ ๋์ผํ ์ญํ
ex)
- position 3์ ๊ฒฝ์ฐ
: 3๋ฒ์ ํด๋นํ๋ ํ ํฐ ์ ๋ณด๋ง ๊ฐ์ง๊ณ ํ์ต
- position 2์ ๊ฒฝ์ฐ
: 2๋ฒ๊ณผ 3๋ฒ์ token ์ ๋ณด๋ฅผ ํ์ต
- position 4์ ๊ฒฝ์ฐ
: 4, 2,3๋ฒ์ token ์ ๋ณด๋ฅผ ํ์ต
- position 1์ ๊ฒฝ์ฐ
: 1, 2,3,4๋ฒ์ token ์ ๋ณด ํ์ต
โป ์๋์ x1,x2,x3,x4๋ ํน์ ํ ํฐ์ embedding๋ ๊ฐ์ ์๋ฏธํจ
4. Partial Prediction
- ์๊ฐ๋ Objective๋ Permutation์ ์ด์ฉํ์ฌ ๋ชจ๋ ์กฐํฉ์ ์์๋ก Maximum Likelihood๋ฅผ ์ํํจ
- ํ์ง๋ง ์ด๋ ํ์ต ์์ ๋๋ฆฐ ์๋ ด์ ์ ๋ฐ์ํด
- ์ด๋ฌํ Optimization difficulty๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์ ์๋ค์ ํน์ ์์์์ ๋ง์ง๋ง ๋ช ๊ฐ์ ์์ธก๋ง ์ด์ฉํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉ
- ex) 3 → 2 → 4 → 1 ์ ์์์์ ๋ง์ง๋ง 2๊ฐ๋ง ์์ธก์ ์ด์ฉํ๋ ๊ฒ์ ์๋ฏธํจ
3. Incorporating Ideas from Transformer-XL
- XLNet์ ๊ธด ๋ฌธ์ฅ์ ๋ํ ์ฒ๋ฆฌ๋ฅผ ์ํด Transformer-XL (Dai et al., 2019)์์ ์ฌ์ฉ๋ 2๊ฐ์ง ํ ํฌ๋์ ์ฐจ์ฉํจ
- ์ฒซ ๋ฒ์งธ๋ Relative Positional Encoding, ๋ ๋ฒ์งธ๋ Segment Recurrence Mechanism
1. Relative Positional Encoding
- Self-attention์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Transformer (Vaswani et al., 2017)๋ CNN์ด๋ RNN๊ณผ ๋ฌ๋ฆฌ ๋จ์ด๋ค์ ์๋์ ํน์ ์ ๋์ ์์น ์ ๋ณด๋ฅผ ์ง์ ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ ์์ง ์์.
- ๋์ input์ ๋จ์ด์ ์ ๋์ ์์น์ ๋ํ representation (absolute positional encoding)์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ์์์ ๋ํ ๋ชจ๋ธ๋ง์ ํ ์ ์๋๋ก ํ์์.
- ํ์ง๋ง ์ด๋ฐ absolute positional encoding ๋ฐฉ๋ฒ์ ํ๋์ segment ๋ด์์๋ ์์น์ ๋ํ ์๋ฏธ๋ฅผ ํํํ ์ ์์ผ๋ Transformer-XL๊ณผ ๊ฐ์ด ์ฌ๋ฌ segment์ ๋ํด recurrent ๋ชจ๋ธ๋ง์ ํ๋ ๊ฒฝ์ฐ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ ๋จ. (์ ๋์ ์ธ ์์น ์ ๋ณด๋ง์ผ๋ก๋ ๋ฌธ์ฅ ๋ด์์ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ถฉ๋ถํ ๋ชจ๋ธ๋งํ๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ ๋งํจ)
ex)
"The cat sat on the mat”
- ์๋์ ์ธ ๊ฑฐ๋ฆฌ:
- "cat"์ "sat" ์ฌ์ด์ ์๋์ ์ธ ๊ฑฐ๋ฆฌ๋ 1์ ๋๋ค. ์ฆ, ๋ ๋จ์ด๋ ๋ฌธ์ฅ์์ ๋ฐ๋ก ์์ ์์นํฉ๋๋ค.
- "on"๊ณผ "mat" ์ฌ์ด์ ์๋์ ์ธ ๊ฑฐ๋ฆฌ๋ 2์ ๋๋ค. ๋ ๋จ์ด ์ฌ์ด์ "the cat sat"๋ผ๋ ๊ตฌ๊ฐ ์์นํ๊ธฐ ๋๋ฌธ์ ์๋์ ์ธ ๊ฑฐ๋ฆฌ๊ฐ ๋ ํฝ๋๋ค.
- ์ ๋์ ์ธ ๊ฑฐ๋ฆฌ:
- "The"๋ ๋ฌธ์ฅ์์ ์ฒซ ๋ฒ์งธ ๋จ์ด์ด๋ฏ๋ก ์ ๋์ ์ธ ๊ฑฐ๋ฆฌ๋ 1์ ๋๋ค.
- "mat"๋ ๋ฌธ์ฅ์์ ๋ง์ง๋ง ๋จ์ด์ด๋ฏ๋ก ์ ๋์ ์ธ ๊ฑฐ๋ฆฌ๋ 6์ ๋๋ค.
์ด๋ ๊ฒ ์๋์ ์ธ ๊ฑฐ๋ฆฌ๋ ๋จ์ด๋ค ๊ฐ์ ์๋์ ์ธ ์์น ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ๋ฐ๋ฉด, ์ ๋์ ์ธ ๊ฑฐ๋ฆฌ๋ ๋จ์ด๋ค์ด ๋ฌธ์ฅ ๋ด์์ ์ด๋์ ์์นํ๋์ง๋ฅผ ๋ํ๋ ๋๋ค. ๊ฐ๊ฐ์ ์ ๋ณด๋ ๋ฌธ์ฅ์ ๊ตฌ์กฐ์ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ดํดํ๋ ๋ฐ์ ๋์์ ์ค ์ ์์ต๋๋ค.
<์์ ์ฐธ๊ณ >
1. Term (b)์ (d)์์ ๊ธฐ์กด absolute positional embedding Uj ๋ฅผ relative positional embedding Ri−j๋ก ๋์ฒดํฉ๋๋ค. R ์ learnable parameters๊ฐ ์๋ sinusoid encoding matrix (Vaswani et al., 2017)์ ๋๋ค.
2. Term (c) ์ (d) ์์ UโคiWโคq ๋ฅผ ๊ฐ๊ฐ uโค∈Rd์ vโค∈Rd๋ก ๋์ฒดํฉ๋๋ค. Query vector๊ฐ ๋ชจ๋ query position์ ๋ํด ๊ฐ๊ธฐ ๋๋ฌธ์, ๋ค๋ฅธ ๋จ์ด๋ค์ ๋ํ attention bias๊ฐ query position์ ์๊ด์์ด ๋์ผํ๊ฒ ์ ์ง๋์ด์ผ ํฉ๋๋ค.
3. Wk ๋ฅผ Wk,E ์ Wk,R ๋ก ๋ถ๋ฆฌํฉ๋๋ค. ์ด๋ content ๊ธฐ๋ฐ์ key vector์ location ๊ธฐ๋ฐ์ key vector๋ฅผ ๊ฐ๊ฐ ๋ง๋ค์ด๋ด๊ธฐ ์ํ ๊ฒ์ ๋๋ค.๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ term๋ค์ ๋ค์์ ์ง๊ด์ ์ธ ์๋ฏธ๋ฅผ ์ง๋๋๋ค: 1) Term (a)๋ content๋ฅผ ๊ธฐ๋ฐ์ ์ฒ๋ฆฌ๋ฅผ ํ๊ณ , 2) (b)๋ content์ ์์กดํ positional bias๋ฅผ ์ก์๋ด๊ณ , 3) (c)๋ global content bias๋ฅผ, 4) (d)๋ global positional bias๋ฅผ ์ธ์ฝ๋ฉํจ
2. Segment Recurrence Mechanism
- ์๋ฅผ ๋ค์ด ๊ธด ์ํ์ค์์ ๋ ๊ฐ์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ ํํ๋ค๊ณ ๊ฐ์ .
- ์ฒซ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ๋ฅผ ์ฒ๋ฆฌํ ํ ์ป์ ๋ด์ฉ ํํ์ ์บ์(cache)์ ์ ์ฅ
- ๊ทธ๋ฐ ๋ค์ ๋ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ๋ฅผ ์ฒ๋ฆฌํ ๋, ์ด์ ์ธ๊ทธ๋จผํธ์์ ์ป์ ๋ด์ฉ ํํ์ ์ฌ์ฉํ์ฌ ์ดํ ์ (attention)์ ์ ๋ฐ์ดํธ ์ํด
- ์ฆ, ๊ธฐ์กด์๋ ๋จ์ด ์์๋๋ก ์ ๋ฆฌํด์ factorization order๋ฅผ ์์์ด์ผ ํ๋๋ฐ, segment recurrence mechanism์ ๋ฌธ์ฅ ๋จ์๋ก ์ ์ฅ์ ํ๊ธฐ ๋๋ฌธ์, ํด๋น segment ๋ด์ฉ ํํ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ ๋ค์, ์ดํ segment์์ ์ฌ์ฌ์ฉํ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํจ → ์ด๋ฅผ ํตํด ๊ณผ๊ฑฐ segment์ ๋ํ factorization order๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ memory์ caching๊ณผ reusing์ด ๊ฐ๋ฅํจ (์ด๊ฒ ์์ ์๋ฏธ์ ๊ฐ์ ๋ง)
- "๋๋ ์ฌ๊ณผ๋ฅผ ์ข์ํฉ๋๋ค."
- "์ฌ๊ณผ๋ ๋ง์์ด์."
- ์์ด ๊ธฐ๋ฐ ์ค์ ์์๋ ์ฒซ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ๋ฅผ ์ฒ๋ฆฌํ ํ, ํด๋น ์ธ๊ทธ๋จผํธ์ ๋ด์ฉ ํํ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํฉ๋๋ค. ์ดํ ๋ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ๋ฅผ ์ฒ๋ฆฌํ ๋, ์ด์ ์ธ๊ทธ๋จผํธ์์ ์ป์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์ฉํ ์ ์์ต๋๋ค. ์ด๋, ์ด์ ์ธ๊ทธ๋จผํธ์ ์ธ์ํ ์์๋ฅผ ์ ํ์ ์์ด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์บ์ฑํ๊ณ ์ฌ์ฌ์ฉํ ์ ์์ต๋๋ค.
- ๋ฐ๋ผ์, ๋ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ์์ "์ฌ๊ณผ๋ ๋ง์์ด์"๋ผ๋ ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ ๋, ์ฒซ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ์ ์ ๋ณด์ธ "๋๋ ์ฌ๊ณผ๋ฅผ ์ข์ํฉ๋๋ค"๋ฅผ ํ์ฉํ ์ ์์ต๋๋ค. ์ด์ ์ธ๊ทธ๋จผํธ์์ ์ป์ ์ ๋ณด๋ฅผ ์ฌ์ฌ์ฉํจ์ผ๋ก์จ ๋ ์ธ๊ทธ๋จผํธ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์ต๋๋ค.
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
SegNet (0) | 2023.07.06 |
---|---|
CycleGAN (0) | 2023.07.05 |
Inception-v4, Inception-ResNetand the Impact of Residual Connections on Learning (0) | 2023.07.05 |
Seq2Seq (0) | 2023.07.05 |
U-Net (0) | 2023.07.05 |