728x90
๋ฐ์ํ
1. Intro
1) DNNs(Deep Neural Networks)
- ์์ฑ ์ธ์, ์ฌ๋ฌผ ์ธ์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ์์ฃผ ์ข์
- ํ์ง๋ง ์ด ์น๊ตฌ๋ input, output์ด ๊ณ ์ ๋ ์ฐจ์์ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉ ๋ ๋ฌธ์ ์๋ง ์ ์ฉํ ์ ์๋ค๋ ๋จ์ ๋ฐ์
- ์์ฑ์ธ์์ด๋ ๊ธฐ๊ณ ๋ฒ์ญ ๊ฐ์ ๋ฌธ์ ๋ค์ ๊ธธ์ด๋ฅผ ์ ์ ์๋ ์ํ์ค๋ก ํํ๋จ
- ๋ํ ์๋ก) question-answering ๋ฌธ์ ๋ ์ง๋ฌธ์ ๋ํ ์ ๋ต ์ํ์ค๋ก ๋งค์นญํด์ค์ผ ํจ
- ๋ฐ๋ผ์ DNN์ ์ ์ถ๋ ฅ ์ฐจ์์ ์์์ผ ํ๊ณ , ๊ณ ์ ๋์ด์ผ ํ๊ธฐ ๋๋ฌธ์, ๊ธฐ์กด์ ๋ฐฉ๋ฒ์ ํด๊ฒฐํ๊ธฐ์ ์ด๋ ค์์ด ๋ฐ์
- ex) ‘๋๋ ๋๋ฅผ ์ ๋ง ์ฌ๋ํด’ ⇒ ‘ I love you so much’
- ex) ๋ฌธ์ฅ ๋จ์ด ๊ฐ์์ ๋ง์ถฐ์ I love you very ๋ผ๋ ์ด์ํ ๋ฌธ์ฅ ์ถ๋ ฅ
- ๊ทธ๋์ ๋์จ๊ฒ LSTM์ด๋ค.
- RNN vs LSTM
- RNN์ ๊ฒฝ์ฐ, ๋ฌธ์ฅ ๊ตฌ์ฑ ๋จ์ด๋ฅผ ์ ๋ ฅํ๋ฉด ๊ทธ ๋๋ง๋ค ์ถ๋ ฅ์ ๋ด๋์
- LSTM์ ๊ฒฝ์ฐ, ๋ฌธ์ฅ ํ๋๋ฅผ ๋๊น์ง ๋ฃ๊ณ , ํ๋์ ์์ ํ ๋ฌธ์ฅ ๋ง๋ฌ
- ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ํ๋์ ๋จ์๋ก ๋ณด๊ธฐ ๋๋ฌธ์, input๊ณผ output(target)์ ํ ํฐ ๊ฐ์๊ฐ ๋ฌ๋ผ๋ ๋๋ค๋ ์ฅ์
2. Overall architecture
- encoder + decoder๋ก ๊ตฌ์ฑ
- ์ ๋ ฅ ์ํ์ค๋ฅผ ํ๋์ context vector๋ก ํํ, ๋์ฝ๋์์๋ context vector์ ๊ธฐ๋ฐ์ผ๋ก ์ํ์ค ์ถ๋ ฅ
- encoder : ์ ๋ ฅ๋ sequence๋ฅผ ๋ฒกํฐ์ ํํ๋ก ์์ถํ์ฌ decoder๋ก ์ ๋ฌ
- decoder : ์ ๋ฌ ๋ฐ์ ๋ฒกํฐ๋ฅผ ์ฒซ ์ ์ hidden state๋ก ๋ฃ์ด์ฃผ๊ณ ์ด ๋ฌธ์ฅ์ด ์์ํ๋ค๋ start flag์ ํจ๊ป ๋ชจ๋ธ ์์. ์ ์์ ๋์จ output์ ๋ฌธ์ฅ์ ์ฒซ ๋จ์ด๋ก ๋๊ณ ์ด๊ฒ์ด ๋ค์ ๋๋ฒ์งธ ์ ์ input๊ณผ ํจ๊ป ๋ค์ด๊ฐ๋ ๊ณผ์ ๋ฐ๋ณต=> "encoder์์ ๋ชจ๋ ๋ฌธ์ฅ์ ๋ค์ ํ" decoder์์๋ ํ๋์ ์์ ํ ๋ฌธ์ฅ ์ถ๋ ฅ
3. RNN VS LSTM
1) RNN
- ์ ๋ ฅ (x1,x2 ~ xt)
- ์ถ๋ ฅ(y1,y2 ~ yt)
- output์ ๊ฒฝ์ฐ, ์ ์๊ณผ ๊ฐ์ด ๊ณ์ฐ
- but, ์ ์ถ๋ ฅ ๊ธธ์ด์ ์ฐ๊ด์ฑ (๋๋ ๋๋ฅผ ๋ง์ด ์ฌ๋ํด ⇒ I love you so much I // love you very)์ ์ ์ ์์ ๋๋ ์ ์ฉํ๊ธฐ ์ด๋ ค์
- LSTM ๊ณต์
4. LSTM
- encoder
- ์์์ ๊ฒฝ์ฐ, 4๊ฐ์ ํ ํฐ์ด ์กด์ฌ
- ์ฒซ๋ฒ์งธ ํ ํฐ์ ์๋ฒ ๋ฉ์ ํต๊ณผ์ํจ ์ ๋ ฅ๊ฐ์ ์ด๊ธฐ h0(์๋๊ฐ)์ ์ธ์ฝ๋์ ํต๊ณผ
- ์ถ๋ ฅ๋ h1๊ณผ guten์ ์๋ฒ ๋ฉ ํฌ์ฌํ ๊ฐ๊ณผ ๊ฐ์ด ์ธ์ฝ๋์ ํต๊ณผ
- ์ด๋ฐ์์ผ๋ก ๊ณ์ ๋ฐ๋ณตํด์ ๊ณ ์ ๊ธธ์ด๋ฒกํฐ(context vector)์ ์ถ์ถ.
- decoder
- ๋์ฝ๋์ ๊ฒฝ์ฐ, context vector๋ฅผ sos์ ํจ๊ป ๋ฃ์ด์ s1 ์ถ์ถ.
- s1์ด linear function์ ๊ฑฐ์ณ์ ‘good’ ๋ํ๋ด๋ ๋ฒกํฐ ์ถ์ถ
- ์ด ์ถ๋ ฅ๊ฐ(y1)์ s1๊ณผ ํจ๊ป ๋ค์ ๋์ฝ๋ ์ ๋ ฅ๊ฐ์ผ๋ก ์ฌ์ฉ.
- ์ด๋ฐ์์ผ๋ก ๋ฐ๋ณต
5. Add
- encoder์ decoder์ ์๋ก ๋ค๋ฅธ LSTM ๊ตฌ์กฐ
- 4๊ฐ์ ์ธต LSTM ์ฌ์ฉ
- ํ ํฐ ์์๋ฅผ ๋ค์ง์๋๋ ์ฑ๋ฅ ํฅ์
- ex) a,b,c/g,d,e ⇒ c,b,a/g,d,e ์ด๋ฐ์์ผ๋ก.⇒ a๋ g์ ๊ฐ๊น๊ณ , b๋ d์ ๊ฐ๊น๊ณ ์ด๋ฐ์์ผ๋ก ํจ์ผ๋ก์จ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฌ์ด์ ํต์ ์ ์ฝ๊ฒ ๋ง๋ฌ (๋ฐ์ดํฐ ๋ณํ)์ด๋ผ๋ ์์๋ก ๋ฐ๊พธ๋ฉด, ๋์ฝ๋์์ ์ถ๋ ฅ๊ฐ์ ์์ฑํ๊ธฐ ์์ํ๋ ๊ฒ์ ์กฐ๊ธ ๋ ์ฝ๊ฒ ๋ง๋ค์ด์ค. ๊ทธ๋์ ์ ์ฒด ์ถ๋ ฅ๊ฐ์ ์์ฑํ๋ ๊ฒ์ ์์ด์ ์กฐ๊ธ ๋ ์ ํฉํ๊ฒ ๋ง๋ค์ด์ค.
- ์๋ค ๋ธ๊ธฐ์ผ์ ๋๋ → I ~๋ก ๋ฐ๋ก ์ถ๋ ฅ์ธต์์ ๋์ค๊ฒ
- ⇒ ์ฝ๊ฒ ๋งํ์๋ฉด, ๋๋ ๋ธ๊ธฐ์ผ์ ์๋ค→ ์๋ค ๋ธ๊ธฐ์ผ์ ๋๋
6. Decoding- Beam Search
1. Gready Search
- ๋์ฝ๋: ์ด์ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ๋จ์ด๋ฅผ ์์ธกํจ
- ๊ธฐ๋ณธ์ ์ผ๋ก๋ FC๋ฅผ ํต๊ณผํ ๊ฒฐ๊ณผ์ softmax๋ฅผ ํตํด ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ๊ฐ์ง๋ ๋จ์ด ํ๋๋ฅผ ์ ํํจ
- ํ์ง๋ง ํ๋ฆฐ๊ฐ์ ๋ด๋๊ฒ ๋๋ฉด, ๊ทธ ๊ฐ์ด ๊ทธ๋๋ก ๋ค๋ก ์ ๋ฌํด์ ํ์ต์ด ๋๊ธฐ ๋๋ฌธ์, ์๋ชป๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ฒ ๋จ.
2. Beam Search
- ์์ gready search์ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ณ ์, beam search๊ฐ ๋์ค๊ฒ ๋จ
- ํ๋์ ์ถ๋ ฅ๊ฐ๋ง ๋ด๋ณด๋ด๋ ๊ฒ์ด ์๋๋ผ, beam(k)๊ฐ์ ๋งํผ ์ถ๋ ฅ๊ฐ์ ๋ด๋์ ์ฌ๋ฌ ํ๋ณด๊ตฐ์ ์ค์ ๋ฌธ์ฅ์ ์ถ๋ ฅ์ํด ⇒ ๋ง์ง๋ง์ ๊ฐ์ฅ ์ข์ ์ถ๋ ฅ ๋ฌธ์ฅ์ด ๋ญ์ง๋ฅผ ํ๋จํ๋ ๋ฐฉ๋ฒ์ ๋งํจ
์ฅ์ : ๋ค์์ฑ์ ์ค ⇒ ํ๋ฆฐ ๋ต์ ๋ด๋๋ ๋ค๋ฅธ ํ๋ณด ๋ฌธ์ฅ๋ค์์ ๋ ์๋ง์ ๋ต์ ๋ด๋์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํจ ⇒ ์ต์ ํ์ ์ข ๋ ๊ฐ์ธํด์ง!
๋จ์ : ์ฐ์ฐ๋ ์ฆ๊ฐ, ๋ฌธ์ฅ์ด ๊ธธ์ด์ง๊ฒ ๋๋ฉด ์ ํ๋ ๋จ์ด์ง์๋
- ์ฒซ๋ฒ์งธ decoding ๋จ๊ณ์์ ์์ k๊ฐ ํ๋ณด ๊ณ ๋ ค(softmax ๊ธฐ์ค ํ๋ฅ ๋์ k๊ฐ)
- k๊ฐ์ ์ฒซ ๋จ์ด์ ๋ํด k๊ฐ ๋๋ฒ์งธ ๋จ์ด ์์ฑ
- ์ฒซ๋ฒ์งธ, ๋๋ฒ์งธ ๋จ์ด๋ฅผ ์กฐํฉํด์ ์์ k๊ฐ ์กฐํฉ ์ ํ
- ์์ k๊ฐ ์กฐํฉ์์ k๊ฐ ์ธ๋ฒ์งธ ๋จ์ด ์ ํ ํ 3,4๋ฒ ๋ฐ๋ณต
- ์ข ๋ฃ๋๋ฉด ์ ์๊ฐ ๊ฐ์ฅ ๋์ ๋ฌธ์ฅ์ ์
7. Reference
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
XLNet: Generalized Autoregressive Pretraining for Language Understanding (1) | 2023.07.05 |
---|---|
Inception-v4, Inception-ResNetand the Impact of Residual Connections on Learning (0) | 2023.07.05 |
U-Net (0) | 2023.07.05 |
Bert (0) | 2023.07.05 |
VIT [AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE] (0) | 2023.07.05 |