ELMO

728x90

1. Intro

같은 read라고 해도 현재형과 과거형이 있음 -> 앞에서만 예측을 해서 출력하면 정확히 모르기 때문에, 뒤에서부터 오는 애들을 가지고 예측을 해서 read가 과거형으로 쓰인다! 라고 알려주는게 엘모의 역할

2. Overall architecture

이후, 가중합을 하면 하나의 벡터가 만들어짐 → read에 대한 embedding 층에 elmo 값을 붙인 후, output 전에 LSTM 층에도 옆에 elmo 값을 붙여서 학습 진행

3. Bidirectional language models (biLM)

반대로 backward LM은 Token Sequence의 확률을 계산할 때, token tk의 확률을 k 시점 이후의 token들 (tk+1,...,tN) 을 활용하여 모델링

4. ELMo

5. Where to include ELMo?

6. Evaluation

ELMo를 단순하게 추가하는 것만으로도 baseline model에 비해 성능이 향상됐고, 이를 통해 SOTA를 달성할 수 있었음

7. Outro

때문에 어느 한 layer를 사용하는 것보다는 모든 layer의 representation을 결합해 사용하는 것이 전반적인 성능 향상에 도움이 된다는 결론을 내릴 수 있음.

728x90

Transformer (0)	2023.07.06
Inception V2/3 (0)	2023.07.06
SegNet (0)	2023.07.06
CycleGAN (0)	2023.07.05
XLNet: Generalized Autoregressive Pretraining for Language Understanding (1)	2023.07.05

Be a Data Scientist