0. Abstract
์ต๊ทผ ์ฐ๊ตฌ๋ค์ ์์ด ์์ฐ์ด ์ดํด์ ๋ํ ์์ฑ ์ฌ์ ํ๋ จ์ ํจ์จ์ฑ์ ์ ์ฆํ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด ์ ๊ทผ๋ฒ์ ๋ค๊ตญ์ด๋ก ํ์ฅํ์ฌ ๊ต์ฐจ ์ธ์ด ์ฌ์ ํ๋ จ์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฐ๋ฆฌ๋ ๊ต์ฐจ ์ธ์ด ์ธ์ด ๋ชจ๋ธ (XLM)์ ํ์ตํ๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ํ๋๋ ๋จ์ผ ์ธ์ด ๋ฐ์ดํฐ์๋ง ์์กดํ๋ ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ๋ณ๋ ฌ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๊ฐ๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค. ์ฐ๋ฆฌ๋ ๊ต์ฐจ ์ธ์ด ๋ถ๋ฅ, ๋น์ง๋ ๋ฐ ๊ฐ๋ ๊ธฐ๊ณ ๋ฒ์ญ์์ ์ต๊ณ ์์ค์ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค. XNLI์์ ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์ 4.9%์ ์ ๋์ ์ธ ์ ํ๋ ํฅ์์ ์ด๋์ด๋์ต๋๋ค. ๋น์ง๋ ๊ธฐ๊ณ ๋ฒ์ญ์์๋ WMT'16 ๋ ์ผ์ด-์์ด์์ 34.3 BLEU๋ฅผ ๋ฌ์ฑํ์ฌ ์ด์ ์ต๊ณ ์์ค๋ณด๋ค 9 BLEU ์ด์ ํฅ์๋์์ต๋๋ค. ๊ฐ๋ ๊ธฐ๊ณ ๋ฒ์ญ์์๋ WMT'16 ๋ฃจ๋ง๋์์ด-์์ด์์ 38.5 BLEU์ ์๋ก์ด ์ต๊ณ ์์ค์ ๋ฌ์ฑํ์ฌ ์ด์ ์ต์์ ์ ๊ทผ๋ฒ๋ณด๋ค 4 BLEU ์ด์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์ฐ๋ฆฌ์ ์ฝ๋์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๊ณต๊ฐ์ ์ผ๋ก ์ ๊ณต๋ ์์ ์ ๋๋ค.
1. Introduction
๋ฌธ์ฅ ์ธ์ฝ๋์ ์์ฑ์ ์ฌ์ ํ๋ จ(Radford et al., 2018; Howard and Ruder, 2018; Devlin et al., 2018)์ ๋ง์ ์์ฐ์ด ์ดํด ๋ฒค์น๋งํฌ(Wang et al., 2018)์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋์ต๋๋ค. ์ด ๋ฌธ๋งฅ์์, ๋๊ท๋ชจ ๋น์ง๋ ํ ์คํธ ์ฝํผ์ค์์ Transformer(Vaswani et al., 2017) ์ธ์ด ๋ชจ๋ธ์ ํ์ตํ ํ, ๋ถ๋ฅ(Socher et al., 2013)๋ ์์ฐ์ด ์ถ๋ก (Bowman et al., 2015; Williams et al., 2017)๊ณผ ๊ฐ์ ์์ฐ์ด ์ดํด(NLU) ์์ ์ ๋ํด ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ์ํํฉ๋๋ค. ์ผ๋ฐ์ ์ธ ๋ฌธ์ฅ ํํ ํ์ต์ ๋ํ ๊ด์ฌ์ด ๊ธ์ฆํ์์ง๋ง, ์ด ๋ถ์ผ์ ์ฐ๊ตฌ๋ ๋ณธ์ง์ ์ผ๋ก ๋จ์ผ ์ธ์ด์ ์ด์ ์ ๋ง์ถ๊ณ , ์ฃผ๋ก ์์ด ๋ฒค์น๋งํฌ๋ฅผ ์ค์ฌ์ผ๋ก ์ด๋ฃจ์ด์ก์ต๋๋ค(Conneau and Kiela, 2018; Wang et al., 2018).
๋ง์ ์ธ์ด์์ ๊ต์ฐจ-์ธ์ด ๋ฌธ์ฅ ํํ์ ํ์ตํ๊ณ ํ๊ฐํ๋ ์ต๊ทผ ์ฐ๊ตฌ ๊ฐ๋ฐ(Conneau et al., 2018b)์ ์์ด ์ค์ฌ์ ํธํฅ์ ์ํํ๊ณ ์ด๋ค ๋ฌธ์ฅ์ด๋ ๊ณต์ ๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ์ธ์ฝ๋ฉํ ์ ์๋ ๋ฒ์ฉ ๊ต์ฐจ-์ธ์ด ์ธ์ฝ๋๋ฅผ ๊ตฌ์ถํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ฐ๋ฆฌ๋ ๊ต์ฐจ-์ธ์ด ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ๋ จ์ ํจ๊ณผ๋ฅผ ๋ค๊ตญ์ด ๊ต์ฐจ-์ธ์ด ์ดํด(XLU) ๋ฒค์น๋งํฌ์์ ์ ์ฆํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค:
- ๊ต์ฐจ-์ธ์ด ์ธ์ด ๋ชจ๋ธ๋ง์ ์ฌ์ฉํ ๊ต์ฐจ-์ธ์ด ํํ ํ์ต์ ์ํ ์๋ก์ด ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ , ๋ ๊ฐ์ง ๋จ์ผ ์ธ์ด ์ฌ์ ํ๋ จ ๋ชฉ์ ์ ์กฐ์ฌํฉ๋๋ค.
- ๋ณ๋ ฌ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ ๊ต์ฐจ-์ธ์ด ์ฌ์ ํ๋ จ์ ๊ฐ์ ํ๋ ์๋ก์ด ๊ฐ๋ ํ์ต ๋ชฉ์ ์ ์ ์ํฉ๋๋ค.
- ๊ต์ฐจ-์ธ์ด ๋ถ๋ฅ, ๋น์ง๋ ๊ธฐ๊ณ ๋ฒ์ญ ๋ฐ ๊ฐ๋ ๊ธฐ๊ณ ๋ฒ์ญ์์ ์ด์ ์ต๊ณ ์ฑ๋ฅ์ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค.
- ๊ต์ฐจ-์ธ์ด ์ธ์ด ๋ชจ๋ธ์ด ์ ์์ ์ธ์ด์ ๋ํดํจ(perplexity)์ ์๋นํ ๊ฐ์ ์ ์ ๊ณตํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
- ์ฐ๋ฆฌ๋ ์ฝ๋์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๊ณต๊ฐ์ ์ผ๋ก ์ ๊ณตํ ์์ ์ ๋๋ค.
2. Related Work
์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ Radford et al. (2018), Howard and Ruder (2018), Devlin et al. (2018)์ ์ฐ๊ตฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ด๋ค ์ฐ๊ตฌ๋ Transformer ์ธ์ฝ๋ ์ฌ์ ํ๋ จ์ ์ํ ์ธ์ด ๋ชจ๋ธ๋ง์ ์กฐ์ฌํ์์ต๋๋ค. ์ด๋ค์ ์ ๊ทผ ๋ฐฉ์์ GLUE ๋ฒค์น๋งํฌ(Wang et al., 2018)์ ์ฌ๋ฌ ๋ถ๋ฅ ์์ ์์ ๊ธ๊ฒฉํ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋์ต๋๋ค. Ramachandran et al. (2016)์ ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ๋ จ์ด ๊ธฐ๊ณ ๋ฒ์ญ ์์ ์์๋ ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ฌ์ง์ด ์์ด-๋ ์ผ์ด์ ๊ฐ์ ๊ณ ์์ ์ธ์ด ์์์๋ ์๋นํ ์์ ๋ณ๋ ฌ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ์๋ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃฐ ์ ์์์ต๋๋ค. ์ฐ๋ฆฌ์ ์ฐ๊ตฌ์ ๋์์, ๊ต์ฐจ-์ธ์ด ์ธ์ด ๋ชจ๋ธ๋ง ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ ๊ต์ฐจ-์ธ์ด ๋ถ๋ฅ ๊ฒฐ๊ณผ๊ฐ BERT ์ ์ฅ์์์ ์๊ฐ๋์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ์น์ 5์์ ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ๊ณผ ๋น๊ตํฉ๋๋ค.
ํ ์คํธ ํํ์ ๋ถํฌ๋ฅผ ๋ง์ถ๋ ์์ ์ ๋จ์ด ์๋ฒ ๋ฉ์ ๋ถํฌ ๋ง์ถค๊ณผ ํจ๊ป ์ค๋ ์ ํต์ด ์์ต๋๋ค. Mikolov et al. (2013a)์ ์์ ๋ถํฐ ์์ ์ฌ์ ์ ํ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ ์ธ์ด์ ๋จ์ด ํํ์ ๋ง์ถ๋ ์์ ์ ์์์ผ๋ก ๋ง์ ํ์ ์ฐ๊ตฌ๋ค์ด ๊ต์ฐจ-์ธ์ด ํํ์ ํ์ฉํ์ฌ ๋จ์ผ ์ธ์ด ํํ์ ํ์ง์ ํฅ์์ํฌ ์ ์์์ ๋ณด์์ต๋๋ค(Faruqui and Dyer, 2014; Xing et al., 2015; Ammar et al., 2016). ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ๋ฐ๋ผ ๊ต์ฐจ-์ธ์ด ๊ฐ๋ ํ์์ฑ์ ์ ์ ๊ฐ์๋์๊ณ (Conneau et al., 2018a), ์ต์ข ์ ์ผ๋ก ์์ ํ ์ ๊ฑฐ๋์์ต๋๋ค(Smith et al., 2017; Conneau et al., 2018a). ๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ์์ด๋์ด๋ฅผ ํ ๋จ๊ณ ๋ ๋์๊ฐ ๋ฌธ์ฅ์ ๋ถํฌ๋ฅผ ๋ง์ถ๋ ์์ ์ ํตํด ๊ต์ฐจ-์ธ์ด ์ธ์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ๋ํ ๋ณ๋ ฌ ๋ฐ์ดํฐ์ ํ์์ฑ์ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๋ฅผ ์งํํฉ๋๋ค.
๋ค๊ตญ์ด์์ ๋ฌธ์ฅ ํํ์ ๋ง์ถ๋ ์์ ์ ๊ดํ ๋ค์ํ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค. Hermann and Blunsom (2014), Conneau et al. (2018b), Eriguchi et al. (2018)๋ ๋ณ๋ ฌ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ต์ฐจ-์ธ์ด ๋ฌธ์ฅ ๋ถ๋ฅ ์์ ์ ์กฐ์ฌํ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ฐ์ฅ ์ฑ๊ณต์ ์ธ ์ต๊ทผ ๊ต์ฐจ-์ธ์ด ์ธ์ฝ๋ ์ ๊ทผ๋ฒ์ ์๋ง๋ Johnson et al. (2017)์ ๋ค๊ตญ์ด ๊ธฐ๊ณ ๋ฒ์ญ ์ฐ๊ตฌ์ ๋๋ค. ๊ทธ๋ค์ ํ๋์ ๊ณต์ LSTM ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ง์ ์ธ์ด ์์ ๋ํ ๊ธฐ๊ณ ๋ฒ์ญ์ ์ํํ ์ ์๋ ๋จ์ผ ์ํ์ค-ํฌ-์ํ์ค ๋ชจ๋ธ์ ์ ์ํ์์ต๋๋ค. ๊ทธ๋ค์ ๋ค๊ตญ์ด ๋ชจ๋ธ์ ์ ์ฐจ์ ์ธ์ด ์์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฐํํ๊ณ ์ ๋ก์ท ๋ฒ์ญ์ ๊ฐ๋ฅํ๊ฒ ํ์์ต๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋ฐ๋ผ์ Artetxe and Schwenk (2018)๋ ์ด๋ฌํ ์ธ์ฝ๋๋ฅผ ํ์ฉํ์ฌ ๊ต์ฐจ-์ธ์ด ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ์์ฑํ ์ ์์์ ๋ณด์์ต๋๋ค. ๊ทธ๋ค์ ์ ๊ทผ๋ฒ์ 2์ต๊ฐ ์ด์์ ๋ณ๋ ฌ ๋ฌธ์ฅ์ ํ์ฉํ์์ผ๋ฉฐ, ๊ณ ์ ๋ ๋ฌธ์ฅ ํํ ์์ ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ตํ์ฌ XNLI ๊ต์ฐจ-์ธ์ด ๋ถ๋ฅ ๋ฒค์น๋งํฌ์์ ์ต์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์๋น๋์ ๋ณ๋ ฌ ๋ฐ์ดํฐ๊ฐ ํ์ํ์ง๋ง, ์ต๊ทผ ์ฐ๋ฆฌ์ ์ฐ๊ตฌ์ ๊ฐ์ฅ ์ ์ฌํ ์ฐ๊ตฌ๋ ์๋ง๋ Wada์ Iwata (2018)์ ์ฐ๊ตฌ์ ๋๋ค. ๊ทธ๋ค์ ์๋ก ๋ค๋ฅธ ์ธ์ด์ ๋ฌธ์ฅ์ผ๋ก LSTM (Hochreiter์ Schmidhuber, 1997) ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ์์ผฐ์ต๋๋ค. ๊ทธ๋ค์ LSTM ๋งค๊ฐ๋ณ์๋ฅผ ๊ณต์ ํ์ง๋ง ๊ฐ ์ธ์ด์ ๋จ์ด๋ฅผ ๋ํ๋ด๋ ๋ฐ์๋ ๋ค๋ฅธ ๋ฃฉ์ ํ ์ด๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ค์ ๋จ์ด ๋ฒ์ญ ์์ ์์ ๊ทธ๋ค์ ์ ๊ทผ๋ฒ์ด ์ ์๋ํ๋ ๊ฒ์ ๋ณด์์ต๋๋ค.
3. Cross-lingual language models
์ด ์น์ ์์๋ ์ฐ๋ฆฌ๊ฐ ์ด ์ฐ๊ตฌ๋ฅผ ํตํด ๊ณ ๋ คํ ์ธ ๊ฐ์ง ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉ์ ์ ์ค๋ช ํฉ๋๋ค. ๊ทธ ์ค ๋ ๊ฐ์ง๋ ๋จ์ผ ์ธ์ด ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ๋ ๋น์ง๋ ํ์ต ๋ฐฉ์์ด๋ฉฐ, ๋๋จธ์ง ํ ๊ฐ์ง๋ ๋ณ๋ ฌ ๋ฌธ์ฅ์ ํ์๋ก ํ๋ ๊ฐ๋ ํ์ต ๋ฐฉ์์ ๋๋ค. ์ฐ๋ฆฌ๋ N๊ฐ์ ์ธ์ด๋ฅผ ๊ณ ๋ คํฉ๋๋ค. ๋ค๋ฅธ ์ธ๊ธ์ด ์๋ ํ, ์ฐ๋ฆฌ๋ N๊ฐ์ ๋จ์ผ ์ธ์ด ๋ง๋ญ์น {Ci}i=1...N๋ฅผ ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํ๋ฉฐ, ni๋ฅผ Ci์ ๋ฌธ์ฅ ์๋ก ๋ํ๋ ๋๋ค.
3.1 Shared sub-word vocabulary
์ฐ๋ฆฌ์ ๋ชจ๋ ์คํ์์ ์ฐ๋ฆฌ๋ Byte Pair Encoding (BPE) (Sennrich et al., 2015)์ ํตํด ์์ฑ๋ ๋์ผํ ๊ณต์ ์ดํ๋ก ๋ชจ๋ ์ธ์ด๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. Lample et al. (2018a)์์ ๋ณด์ฌ์ง ๋๋ก, ์ด๋ ๋์ผํ ์ํ๋ฒณ์ด๋ ์ซ์ (Smith et al., 2017) ๋๋ ๊ณ ์ ๋ช ์ฌ์ ๊ฐ์ ์ต์ปค ํ ํฐ์ ๊ณต์ ํ๋ ์ธ์ด ๊ฐ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์ ๋ ฌ์ ํฌ๊ฒ ๊ฐ์ ์ํต๋๋ค. ์ฐ๋ฆฌ๋ ๋จ์ผ ์ธ์ด ๋ง๋ญ์น์์ ์์๋ก ์ํ๋งํ ๋ฌธ์ฅ์ ์ฐ๊ฒฐ์์ BPE ๋ถํ ์ ํ์ตํฉ๋๋ค. ๋ฌธ์ฅ์ ๋ค์๊ณผ ๊ฐ์ ๋คํญ ๋ถํฌ์ ๋ฐ๋ผ ์ํ๋ง๋ฉ๋๋ค. {qi}i=1...N์์ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฐ๋ฆฌ๋ α = 0.5๋ก ์ค์ ํฉ๋๋ค. ์ด ๋ถํฌ๋ก ์ํ๋งํ๋ ๊ฒ์ ์ ์์ ์ธ์ด์ ๊ด๋ จ๋ ํ ํฐ์ ์๋ฅผ ๋๋ฆฌ๊ณ , ๊ณ ์์ ์ธ์ด์ ๋ํ ํธํฅ์ ์ํํ๊ธฐ ์ํ ๊ฒ์ ๋๋ค. ํนํ, ์ด๋ ์ ์์ ์ธ์ด์ ๋จ์ด๊ฐ ๋ฌธ์ ์์ค์์ ๋ถํ ๋๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค.
3.2 Causal Language Modeling (CLM)
์ฐ๋ฆฌ์ ์ธ๊ณผ ์ธ์ด ๋ชจ๋ธ๋ง (CLM) ์์ ์ ๋ฌธ์ฅ ๋ด ์ด์ ๋จ์ด๋ค์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๋จ์ด์ ํ๋ฅ ์ ๋ชจ๋ธ๋งํ๋ Transformer ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ์ ๋๋ค. ์ด์ ์ ์ํ ์ ๊ฒฝ๋ง์ ์ธ์ด ๋ชจ๋ธ๋ง ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค(Mikolov et al., 2010; Jozefowicz et al., 2016), ๊ทธ๋ฌ๋ Transformer ๋ชจ๋ธ๋ ๋งค์ฐ ๊ฒฝ์๋ ฅ์ด ์์ต๋๋ค(Dai et al., 2019).
LSTM ์ธ์ด ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ์๊ฐ์ ๊ฑธ์น ์ญ์ ํ (Werbos, 1990) (BPTT)๋ LSTM์ ์ด์ ๋ฐ๋ณต์ ๋ง์ง๋ง ์จ๊ฒจ์ง ์ํ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ์ํ๋ฉ๋๋ค. Transformer์ ๊ฒฝ์ฐ, ์ด์ ์จ๊ฒจ์ง ์ํ๋ฅผ ํ์ฌ ๋ฐฐ์น๋ก ์ ๋ฌํจ์ผ๋ก์จ ํ์ฌ ๋ฐฐ์น์ ์ฒซ ๋จ์ด์ ๋ฌธ๋งฅ์ ์ ๊ณตํ ์ ์์ต๋๋ค(Al-Rfou et al., 2018). ๊ทธ๋ฌ๋ ์ด ๊ธฐ์ ์ ๊ต์ฐจ-์ธ์ด ์ค์ ์ ํ์ฅ๋์ง ์์ผ๋ฏ๋ก ๊ฐ๋จํจ์ ์ํด ๊ฐ ๋ฐฐ์น์ ์ฒซ ๋จ์ด์๋ ๋ฌธ๋งฅ์ ์ ๊ณตํ์ง ์์ต๋๋ค.
3.3 Masked Language Modeling (MLM)
์ฐ๋ฆฌ๋ ๋ํ Devlin et al. (2018)์ ๊ฐ๋ ค์ง ์ธ์ด ๋ชจ๋ธ๋ง (MLM) ๋ชฉ์ , ์ฆ ํด๋ก์ฆ ํ์คํฌ (Taylor, 1953)๋ฅผ ๊ณ ๋ คํฉ๋๋ค. Devlin et al. (2018)์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ํ ์คํธ ์คํธ๋ฆผ์์ BPE ํ ํฐ์ 15%๋ฅผ ์์๋ก ์ํ๋งํ๊ณ , 80%์ ๊ฒฝ์ฐ [MASK] ํ ํฐ์ผ๋ก ๋์ฒดํ๊ณ , 10%์ ๊ฒฝ์ฐ ์์์ ํ ํฐ์ผ๋ก ๋์ฒดํ๋ฉฐ, 10%์ ๊ฒฝ์ฐ ๋ณ๊ฒฝํ์ง ์์ต๋๋ค. ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์๊ณผ Devlin et al. (2018)์ MLM๊ณผ์ ์ฐจ์ด์ ์ ๋ฌธ์ฅ ์ ๋์ ์์์ ์์ ๋ฌธ์ฅ (256 ํ ํฐ์ผ๋ก ์ ํ)์ ํ ์คํธ ์คํธ๋ฆผ์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค. ๋๋ฌผ๊ณ ๋น๋ฒํ ํ ํฐ ์ฌ์ด์ ๋ถ๊ท ํ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ Mikolov et al. (2013b)์ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ๋น๋์ ์ ๊ณฑ๊ทผ์ ๋ฐ๋น๋กํ๋ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง ๋คํญ ๋ถํฌ์ ๋ฐ๋ผ ํ ์คํธ ์คํธ๋ฆผ์ ํ ํฐ์ ์ํ๋งํฉ๋๋ค. ์ฐ๋ฆฌ์ MLM ๋ชฉ์ ์ ๊ทธ๋ฆผ 1์์ ์ค๋ช ๋์ด ์์ต๋๋ค.
3.4 Translation Language Modeling (TLM)
CLM๊ณผ MLM ๋ชฉํ๋ ๋น์ง๋ ํ์ต์ด๋ฉฐ, ๋จ์ผ ์ธ์ด ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ชฉํ๋ ๋ณ๋ ฌ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋ฒ์ญ ์ธ์ด ๋ชจ๋ธ๋ง(TLM) ๋ชฉํ๋ฅผ ๋์ ํ์ฌ ํฌ๋ก์ค-์ธ์ด ์ฌ์ ํ๋ จ์ ๊ฐ์ ํฉ๋๋ค. TLM ๋ชฉํ๋ MLM์ ํ์ฅ์ผ๋ก, ๋จ์ผ ์ธ์ด ํ ์คํธ ์คํธ๋ฆผ ๋์ ์ ๋ณ๋ ฌ ๋ฌธ์ฅ์ ์ฐ๊ฒฐํ์ฌ ์ฌ์ฉํฉ๋๋ค. ์์ค ๋ฌธ์ฅ๊ณผ ๋์ ๋ฌธ์ฅ ๋ชจ๋์์ ๋ฌด์์๋ก ๋จ์ด๋ฅผ ๋ง์คํนํฉ๋๋ค. ์์ด ๋ฌธ์ฅ์์ ๋ง์คํน๋ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ชจ๋ธ์ ์ฃผ๋ณ ์์ด ๋จ์ด ๋๋ ํ๋์ค์ด ๋ฒ์ญ์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ฌ ์์ด์ ํ๋์ค์ด์ ํํ์ ์ ๋ ฌํ๋๋ก ์ ๋ํฉ๋๋ค. ํนํ, ์์ด ๋ฌธ๋งฅ๋ง์ผ๋ก ๋ง์คํน๋ ์์ด ๋จ์ด๋ฅผ ์ถ๋ก ํ๊ธฐ์ ์ถฉ๋ถํ์ง ์์ ๊ฒฝ์ฐ์๋ ํ๋์ค์ด ๋ฌธ๋งฅ์ ํ์ฉํ ์ ์์ต๋๋ค. ์ ๋ ฌ์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด ๋์ ๋ฌธ์ฅ์ ์์น๋ ์ฌ์ค์ ํฉ๋๋ค.
3.5 Cross-lingual Language Models
์ด ์ฐ๊ตฌ์์๋ CLM, MLM ๋๋ TLM๊ณผ ๊ฒฐํฉํ์ฌ ํฌ๋ก์ค-์ธ์ด ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ๋ จ์ ๊ณ ๋ คํฉ๋๋ค. CLM๊ณผ MLM ๋ชฉํ์ ๊ฒฝ์ฐ, 256๊ฐ์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ์ฐ์ ๋ฌธ์ฅ ์คํธ๋ฆผ์ 64๊ฐ ์คํธ๋ฆผ์ผ๋ก ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค. ๊ฐ ๋ฐ๋ณต์์ ๋ฐฐ์น๋ ๋์ผํ ์ธ์ด์์ ๋์จ ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ธ์ด๋ ์์์ ์ธ๊ธํ {qi}i=1...N ๋ถํฌ์์ ์ํ๋ง๋๋ฉฐ, α = 0.7๋ก ์ค์ ๋ฉ๋๋ค. TLM์ด MLM๊ณผ ๊ฒฐํฉ๋๋ ๊ฒฝ์ฐ, ์ด ๋ ๋ชฉํ๋ฅผ ๋ฒ๊ฐ์๊ฐ๋ฉฐ ์ํํ๊ณ , ์ธ์ด ์์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์ํ๋ง๋ฉ๋๋ค.
4. Cross-lingual language model pretraining
์ด ์น์ ์์๋ ํฌ๋ก์ค-์ธ์ด ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ค์์ ์ป๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํฉ๋๋ค: • ์ ๋ก์ท ํฌ๋ก์ค-์ธ์ด ๋ถ๋ฅ๋ฅผ ์ํ ๋ฌธ์ฅ ์ธ์ฝ๋์ ์ด๊ธฐํ ๊ฐ์ • ์ง๋ ๋ฐ ๋น์ง๋ ํํ์ ์ ๊ฒฝ ๊ธฐ๊ณ ๋ฒ์ญ ์์คํ ์ ์ด๊ธฐํ ๊ฐ์ • ์ ์์ ์ธ์ด๋ฅผ ์ํ ์ธ์ด ๋ชจ๋ธ • ๋น์ง๋ ํฌ๋ก์ค-์ธ์ด ๋จ์ด ์๋ฒ ๋ฉ
๊ทธ๋ฆผ 1: ํฌ๋ก์ค-์ธ์ด ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ๋ จ. MLM ๋ชฉ์ ์ Devlin et al. (2018)์ ๋ชฉ์ ๊ณผ ์ ์ฌํ์ง๋ง ๋ฌธ์ฅ ์ ๋์ ์ฐ์๋ ํ ์คํธ ์คํธ๋ฆผ์ ์ฌ์ฉํฉ๋๋ค. TLM ๋ชฉ์ ์ MLM์ ๋ณ๋ ฌ ๋ฌธ์ฅ ์์ ํ์ฅํ ๊ฒ์ ๋๋ค. ๋ง์คํฌ ์ฒ๋ฆฌ๋ ์์ด ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ชจ๋ธ์ ์์ด ๋ฌธ์ฅ๊ณผ ํด๋น ํ๋์ค์ด ๋ฒ์ญ์ ๋ชจ๋ ์ฐธ๊ณ ํ ์ ์์ผ๋ฉฐ, ์์ด์ ํ๋์ค์ด ํํ์ ์กฐ์ ํ๋ ๋ฐ ๋์์ด ๋๋๋ก ์ ๋๋ฉ๋๋ค. ๋์ ๋ฌธ์ฅ์ ์์น ์๋ฒ ๋ฉ์ ์ ๋ ฌ์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด ์ด๊ธฐํ๋ฉ๋๋ค.
4.1 Cross-lingual classification
์ฐ๋ฆฌ๊ฐ ์ฌ์ ํ๋ จํ XLM ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ๋ชฉ์ ์ ํฌ๋ก์ค-์ธ์ด ํ ์คํธ ํํ์ ์ ๊ณตํฉ๋๋ค. ์์ด ๋ถ๋ฅ ์์ ์ ๋ํ ๋จ์ผ ์ธ์ด ๋ชจ๋ธ์ ์ธ๋ถ ํ๋ จ(Radford et al., 2018; Devlin et al., 2018)๊ณผ ์ ์ฌํ๊ฒ, ์ฐ๋ฆฌ๋ XLM์ ํฌ๋ก์ค-์ธ์ด ์์ฐ์ด ์ถ๋ก (XNLI) ๋ฐ์ดํฐ์ ์์ ์ธ๋ถ ํ๋ จํ์ฌ ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ ํ๊ฐํฉ๋๋ค. ์ ํํ๊ฒ๋, ์ฌ์ ํ๋ จ๋ Transformer์ ์ฒซ ๋ฒ์งธ ์๋ ์ํ ์์ ์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ถ๊ฐํ๊ณ , ์์ด NLI ํ๋ จ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ์ธ๋ถ ํ๋ จํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ด 15๊ฐ์ XNLI ์ธ์ด์์ ์ฌ๋ฐ๋ฅธ NLI ์์ธก์ ํ ์ ์๋ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. Conneau et al. (2018b)๋ฅผ ๋ฐ๋ผ, ํ๋ จ ๋ฐ ํ ์คํธ ์ธํธ์ ๊ธฐ๊ณ ๋ฒ์ญ ๊ธฐ์ค์ ๋ ํฌํจํฉ๋๋ค. ๊ฒฐ๊ณผ๋ ํ 1์ ๋ณด๊ณ ๋ฉ๋๋ค.
4.2 Unsupervised Machine Translation
์ฌ์ ํ๋ จ์ ๋น์ง๋ ์ ๊ฒฝ ๊ธฐ๊ณ ๋ฒ์ญ(UNMT)์ ํต์ฌ ๊ตฌ์ฑ ์์์ ๋๋ค (Lample et al., 2018a; Artetxe et al., 2018). Lample et al. (2018b)์ ์ฌ์ ํ๋ จ๋ ํฌ๋ก์ค-์ธ์ด ๋จ์ด ์๋ฒ ๋ฉ์ ํ์ง์ด ๋ฏธ์ง๋ ๊ธฐ๊ณ ๋ฒ์ญ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ฏธ์น๋ค๊ณ ๋ณด์ฌ์ค๋๋ค. ์ฐ๋ฆฌ๋ ์ด ์์ด๋์ด๋ฅผ ํ ๋จ๊ณ ๋ ๋์๊ฐ, ์ฌ์ ํ๋ จ๋ ํฌ๋ก์ค-์ธ์ด ์ธ์ด ๋ชจ๋ธ๋ก ์ ์ฒด ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ์ฌ์ ํ๋ จํ์ฌ UNMT์ ๋ฐ๋ณต์ ์ธ ๊ณผ์ ์ ์์ํ๋ ๊ธฐ๋ฐ์ผ๋ก ํ์ฉํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ค์ํ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ํ๊ตฌํ๊ณ , WMT'14 ์์ด-ํ๋์ค์ด, WMT'16 ์์ด-๋ ์ผ์ด ๋ฐ WMT'16 ์์ด-๋ฃจ๋ง๋์์ด๋ฅผ ํฌํจํ ์ฌ๋ฌ ํ์ค ๊ธฐ๊ณ ๋ฒ์ญ ๋ฒค์น๋งํฌ์์ ์ด๋ค์ ์ํฅ์ ํ๊ฐํฉ๋๋ค. ๊ฒฐ๊ณผ๋ ํ 2์ ์ ์๋ฉ๋๋ค.
4.3 Supervised Machine Translation
์ฐ๋ฆฌ๋ ๊ฐ๋ ํ์ต ๊ธฐ๊ณ ๋ฒ์ญ์ ๋ํ ํฌ๋ก์ค-์ธ์ด ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ๋ จ์ ์ํฅ๋๋ฅผ ์กฐ์ฌํ๊ณ , Ramachandran et al. (2016)์ ์ ๊ทผ ๋ฐฉ์์ ๋ค๊ตญ์ด NMT(Johnson et al., 2017)๋ก ํ์ฅํฉ๋๋ค. CLM ๋ฐ MLM ์ฌ์ ํ๋ จ์ WMT'16 ๋ฃจ๋ง๋์์ด-์์ด์ ๋ํ ์ํฅ์ ํ๊ฐํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ํ 3์ ์ ์ํฉ๋๋ค.
4.4 Low-resource language modeling
์ ์์ ์ธ์ด์์๋ ๊ณ ์์ ์ธ์ด์์์ ๋ฐ์ดํฐ ํ์ฉ์ด ์ข ์ข ์ ๋ฆฌํฉ๋๋ค. ํนํ ์ดํ์ ์๋น ๋ถ๋ถ์ ๊ณต์ ํ๋ ๊ฒฝ์ฐ์ ๊ทธ๋ ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ํคํผ๋์์๋ ๋คํ์ด๋ก ์์ฑ๋ ์ฝ 10๋ง ๋ฌธ์ฅ์ด ์์ผ๋ฉฐ, ํ๋์ด๋ก ์์ฑ๋ ๋ฌธ์ฅ์ ๊ทธ๋ณด๋ค 6๋ฐฐ ์ด์ ๋ง์ต๋๋ค. ์ด ๋ ์ธ์ด๋ 10๋ง ๊ฐ์ ์๋ธ์๋ ์ ๋์ผ๋ก ๊ตฌ์ฑ๋ ๊ณต์ BPE ์ดํ๋ฅผ ๊ณต์ ํ๊ธฐ ๋๋ฌธ์ ํ ํฐ์ 80% ์ด์์ด ๊ณตํต์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ํ 4์์๋ ๋คํ์ด ์ธ์ด ๋ชจ๋ธ๊ณผ ํ๋์ด์ ์์ด ๋ฐ์ดํฐ์ ๋ค์ํ ์กฐํฉ์ผ๋ก ํํ๋ ์ํฐ๋ฅผ ๋น๊ตํฉ๋๋ค.
4.5 Unsupervised cross-lingual word embeddings
Conneau et al. (2018a)์ ์ ๋์ ํ๋ จ์ ์ฌ์ฉํ์ฌ ๋จ์ผ ์ธ์ด ๋จ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์ ๋ ฌํจ์ผ๋ก์จ ๋น์ง๋ ๋จ์ด ๋ฒ์ญ์ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค (MUSE). Lample et al. (2018a)์ ๋ ๊ฐ์ ์ธ์ด ์ฌ์ด์์ ๊ณต์ ์ดํ๋ฅผ ์ฌ์ฉํ๊ณ ๊ทธ๋ค์ ๋จ์ผ ์ธ์ด ๋ง๋ญ์น๋ฅผ ์ฐ๊ฒฐํ ๋ค์ fastText (Bojanowski et al., 2017)๋ฅผ ์ ์ฉํจ์ผ๋ก์จ ๊ณ ํ์ง์ ํฌ๋ก์ค-์ธ์ด ๋จ์ด ์๋ฒ ๋ฉ (Concat)์ ์ง์ ์ป์ ์ ์๋ค๊ณ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด ์์ ์์๋ ๊ณต์ ์ดํ๋ฅผ ์ฌ์ฉํ์ง๋ง ๋จ์ด ์๋ฒ ๋ฉ์ ํฌ๋ก์ค-์ธ์ด ์ธ์ด ๋ชจ๋ธ (XLM)์ ๋ฃฉ์ ํ ์ด๋ธ์ ํตํด ์ป์ต๋๋ค. ์น์ 5์์๋ ์ฝ์ฌ์ธ ์ ์ฌ๋, L2 ๊ฑฐ๋ฆฌ ๋ฐ ํฌ๋ก์ค-์ธ์ด ๋จ์ด ์ ์ฌ์ฑ์ด๋ผ๋ ์ธ ๊ฐ์ง ๋ค๋ฅธ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ์ด ์ธ ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ ๋น๊ตํฉ๋๋ค.
1. Abstract
- ์ต๊ทผ ์ฐ๊ตฌ๋ค์ NLU (Natural Lanuage Understanding-์์ฐ์ด ์ดํด) ์ ์ํ pre-train์ ํจ์จ์ฑ์ ์ ์ฆํ์
⇒ ๋ณธ ์ฐ๊ตฌ์์๋ ๋ค๊ตญ์ด๋ก ํ์ฅํด์, cross-lingual pre-train์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค
- XLM(cross-lingual language models)์ ํ์ต ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง๊ฐ ์กด์ฌ
- ๋จ์ผ ์ธ์ด ๋ฐ์ดํฐ์๋ง ์์กดํ๋ unsuperviese learning
- ๋ณ๋ ฌ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ supervised learning
โก๏ธ cross-lingual classification unsupervised, supervised machine translation์ ๋ํด SOTA ๋ฌ์ฑํจ
2. Introduction
- ๊ธฐ์กด: general-purpose sentence representation์ ๋ํ ๊ด์ฌ์ ๋ง์์ก์ผ๋, ๋ณธ์ง์ ์ผ๋ก๋ ๋จ์ผ ์ธ์ด์๋ง ์ด์ ์ ๋ง์ถ๊ณ ์๊ณ , ์์ด์ ๋ํด์๋ง ์ฐ๊ตฌ๊ฐ ์งํ๋์์
- ์ต๊ทผ: ๋ง์ ์ธ์ด์์ cross-lingual sentence representation์ ํ์ตํ๊ณ , ์์ด ์ค์ฌ์ ํธํฅ์ ์ํํ๊ณ , ์ด๋ค ๋ฌธ์ฅ์ด๋ shared embedding ๊ณต๊ฐ์ผ๋ก ์ธ์ฝ๋ฉํ ์ ์๋ universal cross-lingual encoder์ ๊ตฌ์ถํ ์ ์์์ ์ ์ํจ
<contribution>
- cross-lingual language modeling์ ์ฌ์ฉํ cross-lingual language representation ํ์ต์ ์ํ ์๋ก์ด ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ์ ์ ์ํจ. ๋ ๊ฐ์ง monolingual pretraining objective๋ฅผ ์ ์
- ๋ณ๋ ฌ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ cross-lingual pretraining์ ๊ฐ์ ํ๋ ์๋ก์ด ์ง๋ ํ์ต ์ ์
- cross-lingual classification, unsupervised machine translation, supervised translation์์ ์ด์ ์ต๊ณ ์ฑ๋ฅ์ ํฌ๊ฒ ๋ฅ๊ฐ
- cross-lingual language model์ด low-resource ์ธ์ด์ ๋ณต์ก๋ ๊ฐ์ ํจ
3. Cross-lingual language models
- ์ด 3๊ฐ์ง ์ธ์ด ๋ชจ๋ธ๋ง์ ์ค๋ช ํจ
- 2๊ฐ์ง๋ ๋จ์ผ ์ธ์ด data๋ง ์ฌ์ฉํ๋ unsupervised learning
- 1๊ฐ์ง๋ ๋ณ๋ฌธ์ฅ์ ์ฌ์ฉํ๋ supervised learning
3.1 Shared sub-word vocabulary
- ๊ธฐ๋ณธ์ ์ผ๋ก BPE์ฌ์ฉ
- ์ธ์ด ๊ฐ ๊ฐ์ ๋จ์ด(์ซ์๋ ๊ณ ์ ๋ช
์ฌ ๋ฑ)์ ๊ณต์
- ex) “.”์ ๊ฒฝ์ฐ, ๋ฌธ์ฅ์ ๋์ ์๋ฏธํ๊ณ , ์์ด์์๋(finish), ํ๊ตญ์ด๋ก๋(-๋ค)๋ก ํ์.→ ์ฆ ๊ฒฐ๊ตญ์ ์ธ์ด๊ฐ ๊ฐ์ ๋จ์ด๋ฅผ ์๋ฏธํ๊ธฐ ๋๋ฌธ์ embedding ๊ณต๊ฐ์ ๊ณต์ ํ๋ค์ ์๋ฏธ๋ก ํ์ ํ๋ฉด ๋ ๋ฏ
- ๋ฌธ์ฅ๋ค์ monolingual corpora์์ ์ผ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ด์ฉํด์ ์ถ์ถ(a = 0.5)
- low-resource ์ธ์ด์ ๊ด๋ จ๋ ํ ํฐ์ ์๋ฅผ ๋๋ฆฌ๊ณ , high-resource ์ธ์ด์ ๋ํด์๋ ํธํฅ์ ์ํํ๊ธฐ ์ํ ๊ฒ์
- low-resource language๊ฐ ๋ฌธ์ ์์ค์์ ๋ถํ ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฌ์ฉ
3.2 Causal Language Modeling (CLM)
- ์ธ๊ณผ ์ธ์ด ๋ชจ๋ธ(CLM): ๋ฌธ์ฅ ๋ด ์ด์ ๋จ์ด๋ค์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๋จ์ด์ ํ๋ฅ ์ ๋ชจ๋ธ๋งํ๋ ๋ชจ๋ธ (๊ทธ๋ฅ ์ฐ๋ฆฌ๊ฐ ์๋๊ฑฐ - ๋ฌธ์ฅ ๋ฃ๊ณ ๋งจ ๋ง์ง๋ง ๋จ์ด ์ถ๋ก ํ๋ ๊ทธ๋ฐ๊ฑฐ)ex) ๊ฐ์ ์ค๋ฌด๋ฌ๋ฅผ ๊ฐ์ง ์๊ณ ํธ์ด ๋ณด์กํ ์๊ธฐ [ ] ์ผ ๊ฒฝ์ฐ, ์ ๋ต ํ๋ณด๊ฐ ๊ณ ์์ด, ํธ๋์ด, ๊ฐ์์ง์์ ๋ ๊ณ ์์ด๋ผ๊ณ ํํ ๊ฒ์.
- โก๏ธ ๊ทธ ์ด์ ๋ ์์ ๊ฐ์ ์ค๋ฌด๋ฌ๋ ์๊ณ ํธ์ด ๋ณด์กํ ๊ณผ ๊ฐ์ ๋ฌธ๋งฅ์ ๊ธฐ์ค์ผ๋ก ๋ต์ด ์ถ๋ก ๋๋๋ฐ ์ด๋ฅผ ์ธ๊ณผ๊ด๊ณ, ์ฆ ์ธ๊ณผ ์ธ์ด ๋ชจ๋ธ์ ๋ํ์ ์ธ ์๋ผ๊ณ ํ ์ ์๋ค.
3.3 Masked Language Modeling (MLM)
- BERT์ ๊ฐ์ ํํ
- BPE ํ ํฐ์ 15%๋ฅผ ์์๋ก ์ํ๋งํ๊ณ , 80%์ ๊ฒฝ์ฐ [MASK] ํ ํฐ์ผ๋ก ๋์ฒดํ๊ณ , 10%์ ๊ฒฝ์ฐ ์์์ ํ ํฐ์ผ๋ก ๋์ฒดํ๋ฉฐ, 10%์ ๊ฒฝ์ฐ ๋ณ๊ฒฝํ์ง ์์
- ๊ฒฐ๋ก ์ ์ผ๋ก CLM๊ณผ MLM์ ๊ณตํต์ ์ ๋น์ง๋ ํ์ต์
3.4 Translation Language Modeling (TLM)
- ๋ฒ์ญ ๋ง๋ญ์น์์ ์๋ณธ ๋ฌธ์ฅ๊ณผ ๋ฒ์ญ ๋ฌธ์ฅ์ ์ด์ฉ
- ๋ ๋ณ๋ ฌ ๋ฌธ์ฅ ์์ ์์ ๋ถ์ฌ์ ์ฒ๋ฆฌํจ (๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ ์ธ์ด๊ฐ ๋ค๋ฅธ ๋ ๊ฐ์ ๋ฌธ์ฅ ํ์ฉ)
ex) the์ blue๋ง ๋ณด๊ณ mask ๋ถ๋ถ์ ์์ธกํ๊ธฐ์ ์ฌ์ค์ ๋ถ๊ฐ. ๋ฐ๋ผ์ ์์ ๋ถ์ ๋ฒ์ญ๋ ๋ฌธ์ฅ์ ์ฐธ๊ณ ํด์ mask ๋ถ๋ถ์ ์์ธกํ ์ ์๋๋ก ํจ
- position embedding๋ ์ฌ์ค์ → ๊ฐ ๋ฌธ์ฅ์ ์์์ ์ 0์ผ๋ก ์ค์
3.5 Cross-lingual Language Models
- 3๊ฐ์ง์ ๋ฐฉ๋ฒ์ผ๋ก pretraining ์งํ : CLM, MLM, CLM used in combination with TML
- CLM, MLM
- Batch size : 64
- Token length : 256
- ๊ฐ์ ๋ฐฐ์น ๋ด์์๋ ๊ฐ์ ์ธ์ด๋ง
- CLM used in combination with TML
- ๊ฐ์ ๋ฐฐ์น๋ด์์๋ ๊ฐ์ ์ธ์ด์์ด ๋์ค๋๋ก ํจ
4. Cross-lingual language model pretraining
- Cross-lingual LM ๋ฅผ ํตํด ์ป๊ณ ์ ํ๋ ๊ฒ(์ด๊ธฐํ๋ฅผ ์ด๋ป๊ฒ ํด์ผ ์ข์๊น?)
- a better initialization of sentence encoders for zero-shot cross-lingual classification
- a better initialization of supervised and unsupervised neural machine translation systems
- language models for low-resource languages
- unsupervised cross-lingual word embeddings
4.1 Cross-lingual classification
- NLI: ์ ์ ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ ๋ฌธ์ฅ์ ์ ์ฌ๋๋ฅผ ํตํด ๊ฐ์ค์ด ์ฐธ(ํฌํจ, ์๋ฐ), ๊ฑฐ์ง(๋ชจ์) ํน์ ์ค๋ฆฝ(๊ฒฐ์ ๋์ง ์์) ์ค ์ด๋ค ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ ์์
- XNLI ๋ฐ์ดํฐ ์ ์ ํ๋ จ์์ผ์ ํ๊ฐ
ex) '๊ฐ์์ง', '๊ณ ์์ด', 'ํ ๋ผ' ๋ฑ์ ๋๋ฌผ ๋ถ๋ฅ ๋ชจ๋ธ์ด ์๋ค๊ณ ๊ฐ์ . ์ด ๋ชจ๋ธ์ด '์ฌ์'๋ผ๋ ํด๋์ค์ ๋ํด์๋ ํ์ต๋์ง ์์์ง๋ง, '์ฌ์'๋ผ๋ ๋๋ฌผ์ ํน์ง์ ์ค๋ช ํ๋ ํ ์คํธ ์ ๋ณด๋ฅผ ์ ๋ ฅํ๋ฉด, ๋ชจ๋ธ์ ์ด๋ฅผ ์ด์ฉํ์ฌ '์ฌ์'๋ฅผ ๋ถ๋ฅํจ.
ex)
⇒ 15๊ฐ ๋ค๊ตญ์ด ๋ณ๋ ฌ ๋ฐ์ดํฐ๋ฅผ TLM์ผ๋ก ํ์ตํ ํ, ์์ด NLI๋ก Fine Tuning ์งํ
⇒ 15๊ฐ ๊ตญ์ด๋ก ๊ณต๋ถํ๊ณ ์์ด๋ก ์ถ๋ก ํ๋ ๋ฒ์ ํ์ต.
⇒ 15๊ฐ ๊ตญ์ด๋ก inference ์งํ
⇒ ์ค์ ํ ์คํธํ ๋, ์ฒ์ ๋ณด๋ unseen data๋ฅผ ๋ฃ์ผ๋ฉด ๊ทธ๊ฒ์ ์์ด๋ก ์ ๋ฒ์ญํ๋๋ก ํ๊ฒ ๋จ
4.2 Unsupervised Machine Translation
- ๋น์ง๋ ํ์ต์ผ๋ก ๋ฒ์ญ์ ํด์ผ ํ๊ธฐ์ TML์ ์ฌ์ฉ x
- ๊ธฐ์กด์๋ transformer์ embedding ๋ถ๋ถ๋ง ๊ฐ์ ธ์์ ์ฌ์ฉํ์์ผ๋, Encoder์ Decoder๋ฅผ ๊ฐ๊ฐ CLM, MLM์ ์กฐํฉ์ผ๋ก ๋ค์ํ๊ฒ ์คํ ์งํ
- CLM๊ณผ MLM์ ๋ฒ๊ฐ์๊ฐ๋ฉด์ ์คํํ์ (TLM์ ์ฌ์ฉ ์ํจ)
4.3 Supervised Machine Translation
- ์ง๋ํ์ต์ ๊ฒฝ์ฐ MLM๊ณผ Back-translation ์กฐํฉํ ๋ฐฉ๋ฒ์ด ์ ์ผ ์ข์์
4.4 Low-resource language modeling
- Wikipedia์๋ ๋คํ์ด๊ฐ 100k ๋ฌธ์ฅ์ด ์กด์ฌ.
- ๋ฐ๋ฉด, ํ๋์ด๋ ๋คํ์ด๋ณด๋ค 66๋ฐฐ ์ ๋ ๋ง์.
- ๋ ์ธ์ด๋ ๋งค์ฐ ์ ์ฌํด์ 80%์ ๋์ BPE vocabulary๋ฅผ ๊ณต์ ํ๋ค๊ณ ํจ⇒ ๋ณต์ก๋๊ฐ ๋ฎ์์๋ก ์ธ์ด ๋ชจ๋ธ์ ํ์ต์ด ์ ๋๋ค๊ณ ํ ์ ์์.
- ⇒ ๋คํ์ด๋ก๋ง ํ์ตํ์ ๋์ PPL์ 157์ธ ๋ฐ๋ฉด ๋ค๋ฅธ ์ธ์ด์ง๋ง ๋น์ทํ๊ณ ์์ด ๋ง์ ํ๋์ด๋ฅผ ํฉ์ณ์ XLM์ ํ์ตํ๋ฉด 109 PPL๋ก ์ธ์ด ๋ชจ๋ธ ํ์ต์ด ์๋จ
4.5 Unsupervised cross-lingual word embeddings
- ๋ณ๋ ฌ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ ์๋ฏธ์ ๋ฌธ์ฅ์ด๋ ๋จ์ด๋ผ๋ฉด ์๋ก ๋ค๋ฅธ ์ธ์ด์ผ ์ง๋ผ๋ ๊ฐ์ ๊ณต๊ฐ์ ๋งตํํ๊ณ ์ ํ๋ ์ฐ๊ตฌ ๋ฐฉ์
- pretraining์ ํ๋ฉด ์ด๋ ์ ๋ ํ๋ จ์ด ๋ ์ํ
- x: ์์ด, y: ํ๊ฒ ์๋ฒ ๋ฉ
- x๋ฅผ ์ ํ ๋ณํ์์ผ์ ํ์ต์ํค๋ค๋ณด๋ฉด ์ ์ฌํ๊ฒ ๋๋ ๊ทธ๋ฐ ๋ฐฉ์..
5. Inference
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Noisy Student: Self-training with Noisy Student improves ImageNet classification(2019) (0) | 2023.07.14 |
---|---|
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (1) | 2023.07.13 |
YOLOv4: Optimal Speed and Accuracy of Object Detection (0) | 2023.07.09 |
EfficientNet (0) | 2023.07.07 |
cGAN/Pix2Pix (0) | 2023.07.07 |