728x90
๋ฐ์ํ
1. Intro
- Text์ unlabeled๋ ๋ฐ์ดํฐ๋ ํ๋ถํจ
- ๋ฐ๋ฉด์ labeled๋ ๋ฐ์ดํฐ๋ ํ๋ถํ์ง ์๊ณ ๋น์ฝํจ
- ๋ฐ๋ผ์ model์ด ์ ์ ํ ์์ ์ ์ํํ๊ธฐ ์ฝ์ง ์๋๋ค๋ ๋ฌธ์ ์ ๋ฐ์
- ๊ทธ๋์ ๋์จ ์์ด๋์ด๊ฐ unsupervisedํ ๋ฐ์ดํฐ๋ฅผ ๋จผ์ ํ์ต์ํค๊ณ , label๊ฐ์ด ์๋ ๋ฐ์ดํฐ๋ก ์ฌํ์ต์ํค๋ ๋ฐฉ์์ด ๋์ค๊ฒ ๋จ.
2. Overall architectudre
- unsupervised pre-training + supervised fine-tuning ๊ตฌ์กฐ๋ก ์ด๋ฃจ์ด์ง
3. Unsupervised pre-training
- label๊ฐ์ด ์๋ unsupervised data๋ฅผ input์ผ๋ก ๋ฃ์
- word embedding ์งํํ๊ณ positional encoding ํด์ค
- decoder์ masked self-attention ๋ถ๋ถ์ ๋ฐ์จ 12๊ฐ์ ์ธต์ ๊ฑฐ์นจ
- ๊ฑฐ์น๊ณ ๋์จ ๊ฐ์ด ๋ฐ๋ก h1,h2…hm๊ฐ.
- ์ด ๊ฐ์ linear ํจ์๋ฅผ ๊ฑฐ์นจ ⇒ WeT๊ฐ์ ๊ณฑํจ(word embedding ๊ฐ์ ์ ์น ํ๋ ฌ) ⇒ ์ ์ถ๋ ฅ ํฌ๊ธฐ ๊ฐ๊ฒ ํด์ค
- ์ดํ softmax ํจ์๋ฅผ ๊ฑฐ์น ์ต์ข output ๋์ถ
- L1(U)์ ๊ฒฝ์ฐ ๋จ์ด๋ค์ ๋ถํฌ ํ์ ์ ์ํด์ ๋์จ ์์ธ๋ฐ, softmax์์ ๋์ถ๋ ๊ฐ์ log๋ฅผ ์์ด ํ ํฉํ ๊ฐ์ด ๋ฐ๋ก L1(U).
- ์ด ๊ณผ์ ์ด ๋ฐ๋ก pre-training
4. Supervised fine-tuning
- ์ด ์น๊ตฌ๋ ๋ฐ์ดํฐ label์ด ์๋ ๋ฐ์ดํฐ ์ฌ์ฉ( unsupervised data๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์ )
- unsupervised pre-training์ ํตํ ๋ชจ๋ธ์ ๊ฐ์ ธ์ค๊ณ , input์ผ๋ก labeled data๋ฅผ ๋ฃ์
- labeled data๋ฅผ pre-training ๋ชจ๋ธ์ ๋ฃ์ด์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ๊ฟ์ฃผ๋ ๊ฒ์.
- ์ด ํ์ต๋ ๊ฐ์ Wy์ ๊ณฑํด์ค ⇒ ์๋ ํ์ต์ํค๋ฉด์ ์ ํด์ง๋ ํ๋ผ๋ฏธํฐ์(๋ง์ฐฌ๊ฐ์ง๋ก ์ ์ถ๋ ฅ ํฌ๊ธฐ ๊ฐ๊ฒ ํด์ฃผ๋ ค๊ณ )
- h๊ฐ๊ณผ Wy ๊ฐ์ ๊ณฑํด์ค ๊ฒ์ softmax ํจ์์ ๋ฃ์
- L2(C) ⇒ 4๋ฒ ๊ฐ์ log ์์ฐ๊ณ ๋ค ๋ํด์ค ๊ฐ.
5. L3(C)
- L3(C)⇒ ์ต๋์ฐ๋๋ฒ
- : data์ ๋ถํฌ๊ฐ ์ด๋ค ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋์ง ์ฐพ๋ ๊ฒ(๋จ์ด๋ค์ ๋ถํฌ ํ์ )
- L3(C)= L2(C) + ๋๋ค * L1(C)⇒ ์ด๋ L1(U)๊ฐ๊ณผ L1(C)๋ ๊ฐ์ ๊ฐ์.
- ๋๋ค์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๊ฐ ์ ํ๋ ํ๋ผ๋ฏธํฐ๊ฐ.
6. Task Specific Input Transformation
- Classification : ๋ถ๋ฅํ๊ณ ์ ํ๋ ๋ฌธ์ฅ์ GPT-1์ ๊ทธ๋ฅ ํต๊ณผ์ํจ๋ค. ๊ทธ๋ฆฌ๊ณ ์ป์ ๋ง์ง๋ง ํ ํฐ(<\s> ํ ํฐ์ด ์์ฑ๋ ์์น)์ output์ classification layer์ ์ค์๋ค๊ณ ํ๋ค.
- Entailment : <s>Premise$Hypothesis<\s>์ ํํ๋ก ์ ๋ ฅํ๊ณ , ๋ง์ง๋ง ํ ํฐ์ output์ linear layer์ ์ค์๋ค.
- Similarity : Entailment์ ๋ค๋ฅด๊ฒ ๋น๊ตํ๊ณ ์ ํ๋ ๋ ๋ฌธ์ฅ์ด ์ด๋ค ์์๋ก ์ ๋ ฅ๋์ด์ผ ํ๋์ง์ ๋ํ ๊ท์น์ด ์กด์ฌํ์ง ์๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ๊ฐ ๋ฌธ์ฅ์ ์์๋ฅผ ๋ฐ๊ฟ์ ๋ ๋ฒ ์ค๊ณ , ๋ ๊ฐ์ ๋ง์ง๋ง ํ ํฐ output์ element-wise sumํ์ฌ linear layer์ ์ค์๋ค.
- Multiple Choice : Context๋ฅผ ๋จผ์ ๋ฃ๊ณ ๊ฐ ํ๋ณด Answer๋ฅผ ๋ค์ ๋ฃ์ด ์ป์ ๋ง์ง๋ง ํ ํฐ์ output์ linear์ softmax layer์ ์์ฐจ์ ์ผ๋ก ์ค์๋ค.
⇒ ์ฌ๊ธฐ์ ๋ง์ง๋ง ํ ํฐ output์ ์ฌ์ฉํด์ classification์ ์ํํ๋ ์ด์ ๋ decoder์ ๊ฒฝ์ฐ, ์์์ ๋ค๋ก๋ง ์ ๋ณด๊ฐ ํ๋ฅด๊ฒ ๋จ. ์ฆ, ๋ฌธ์ฅ์ ๋ชจ๋ ํ ํฐ์ ์ ๋ณด๋ ๋งจ ๋ง์ง๋ง ํ ํฐ์ ์ ๋ณด๋ง์ด ๊ฐ๊ณ ์์. ๊ทธ๋ ๊ธฐ์ ๋ง์ง๋ง output ํ ํฐ์ ์ด์ฉํด์ classification ์งํ
7. ์ฅ์
- ๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ณํ์ด ์์⇒ ๊ธฐ์กด์ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค์ finetuning ์์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ณํํด์ผ ํ๋ ๋ฌธ์ ์ ์ด ์กด์ฌํ์์. ํ์ง๋ง GPT์ ๊ฒฝ์ฐ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ํ ๊ฑด๋ค์ง ์์ ์ฌํ์ต์ด ๋งค์ฐ ์ฉ์ดํจ.
- ์ถ๊ฐ๋๋ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋งค์ฐ ์ ์⇒ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ณํํ์ง ์๊ธฐ ๋๋ฌธ์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ ์ ๋ฐ์.
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
U-Net (0) | 2023.07.05 |
---|---|
Bert (0) | 2023.07.05 |
VIT [AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE] (0) | 2023.07.05 |
RetinaNet (0) | 2023.07.05 |
DeepLab V2: Semantic Image Segmentation with Convolutional Nets, Atrous Convolution and Fully Connected CRFs (0) | 2023.07.05 |