728x90
๋ฐ์ํ
1. Intro
- ๊ฐ์ read๋ผ๊ณ ํด๋ ํ์ฌํ๊ณผ ๊ณผ๊ฑฐํ์ด ์์ -> ์์์๋ง ์์ธก์ ํด์ ์ถ๋ ฅํ๋ฉด ์ ํํ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์, ๋ค์์๋ถํฐ ์ค๋ ์ ๋ค์ ๊ฐ์ง๊ณ ์์ธก์ ํด์ read๊ฐ ๊ณผ๊ฑฐํ์ผ๋ก ์ฐ์ธ๋ค! ๋ผ๊ณ ์๋ ค์ฃผ๋๊ฒ ์๋ชจ์ ์ญํ
2. Overall architecture
- read์ ํด๋นํ๋ ์น๊ตฌ๋ฅผ ๋ฝ๋๋ค
- forward ๋ถ๋ถ๊ณผ backward ๋ถ๋ถ์ ํจ๊ป ํ์ต์ํด
- ์ด๋, word embedding ๋ถ๋ถ, LSTM1์ธต, LSTM2์ธต ๋ฑ ๊ฐ๊ฐ์embedding๊ณผ LSTM๋ผ๋ฆฌ concat์ ์ํด
- ์ดํ, ์๋ง๊ฒ ๊ฐ์ค์น๋ฅผ ๊ณฑํด์ค ( ์ด๋ ์๋์ ์์์๋ก ๋ฌธ๋ฒ์ ์ธ ์ธก๋ฉด์์์ ๋ฒกํฐ์ด๊ณ , ์๋ก ๊ฐ์๋ก ๋ฌธ๋งฅ์ ๋ง๋ ๋ฒกํฐ๋ผ๊ณ ํจ)
- ์ดํ, ๊ฐ์คํฉ์ ํ๋ฉด ํ๋์ ๋ฒกํฐ๊ฐ ๋ง๋ค์ด์ง → read์ ๋ํ embedding ์ธต์ elmo ๊ฐ์ ๋ถ์ธ ํ, output ์ ์ LSTM ์ธต์๋ ์์ elmo ๊ฐ์ ๋ถ์ฌ์ ํ์ต ์งํ
3. Bidirectional language models (biLM)
- t(k) k๋ฒ์งธ์ ๋ํ ํ ํฐ ๊ตฌํ๋ ์
- token Sequence์ ํ๋ฅ ์ ๊ณ์ฐํ ๋, token tk ์ ํ๋ฅ ์ ์ด์ token๋ค (t1,...,tk−1)์ ํ์ฉํด์ ๋ชจ๋ธ๋งํจ
- ๋ฐ๋๋ก backward LM์ Token Sequence์ ํ๋ฅ ์ ๊ณ์ฐํ ๋, token tk์ ํ๋ฅ ์ k ์์ ์ดํ์ token๋ค (tk+1,...,tN) ์ ํ์ฉํ์ฌ ๋ชจ๋ธ๋ง
- ์์ forward, backward Language Model์ ํฉ์ณ ํจ๊ป ํ๋ฅ ์ ์ต๋ํ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์งํ
4. ELMo
- ์ด 2L +1 ๊ฐ์ representation์ ๊ณ์ฐ (์์ ํ LSTM + ์ญ์ ํ LSTM + input embedding)
- ์ฆ, LSTM์ด ๋๊ฐ๋ฉด, ์ด 5๊ฐ์ representation์ ๊ณ์ฐํ๋ค๊ณ ์๊ฐํ๋ฉด ๋จ
- ์์ ์๊ณผ ๊ฐ์ ์ค๋ช
- (๊ฐ์ค์น(s0,s1,s2) x ๊ฐ LSTM ์ธต์ ๊ฐ์ ํฉ) x scaling๊ฐ
- ๊ฐ๋ง task: ELMo vector ํฌ๊ธฐ๋ฅผ scaling ํด์ค
5. Where to include ELMo?
- input๊ณผ output ์ง์
- input๋ง
- output ์ง์ ⇒ input๊ณผ output์ ๋ฃ์์ ๋๊ฐ ๊ฐ์ฅ ์ฑ๋ฅ ์ข์์
6. Evaluation
ELMo๋ฅผ ๋จ์ํ๊ฒ ์ถ๊ฐํ๋ ๊ฒ๋ง์ผ๋ก๋ baseline model์ ๋นํด ์ฑ๋ฅ์ด ํฅ์๋๊ณ , ์ด๋ฅผ ํตํด SOTA๋ฅผ ๋ฌ์ฑํ ์ ์์์
7. Outro
- biLM์ ์ฌ์ฉํด ๋์ ์์ค์ context๋ฅผ ํ์ตํ๋ ELMo model์ ์ ์ํจ.
- ELMo model์ ์ฌ์ฉํ๋ฉด ๋๋ถ๋ถ์ NLP task์์ ์ฑ๋ฅ์ด ํฅ์๋จ.
- layer์ ์ธต์ด ์ฌ๋ผ๊ฐ์๋ก syntax๋ณด๋ค๋ semanticํ ์ ๋ณด๋ฅผ ๋ด์๋ธ๋ค๋ ์ฌ์ค๋ ๋ฐ๊ฒฌํด๋.
- ๋๋ฌธ์ ์ด๋ ํ layer๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค๋ ๋ชจ๋ layer์ representation์ ๊ฒฐํฉํด ์ฌ์ฉํ๋ ๊ฒ์ด ์ ๋ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์.
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Transformer (0) | 2023.07.06 |
---|---|
Inception V2/3 (0) | 2023.07.06 |
SegNet (0) | 2023.07.06 |
CycleGAN (0) | 2023.07.05 |
XLNet: Generalized Autoregressive Pretraining for Language Understanding (1) | 2023.07.05 |