๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[๋…ผ๋ฌธ] Paper Review

XLM: Cross-lingual Language Model Pretraining

by ์ œ๋ฃฝ 2023. 7. 9.
728x90
๋ฐ˜์‘ํ˜•

 

๐Ÿ’ก
<๋ฒˆ์—ญ>
0. Abstract

์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์€ ์˜์–ด ์ž์—ฐ์–ด ์ดํ•ด์— ๋Œ€ํ•œ ์ƒ์„ฑ ์‚ฌ์ „ ํ›ˆ๋ จ์˜ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๊ตญ์–ด๋กœ ํ™•์žฅํ•˜์—ฌ ๊ต์ฐจ ์–ธ์–ด ์‚ฌ์ „ ํ›ˆ๋ จ์˜ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ต์ฐจ ์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ (XLM)์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” ๋‹จ์ผ ์–ธ์–ด ๋ฐ์ดํ„ฐ์—๋งŒ ์˜์กดํ•˜๋Š” ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•์ด๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฐ๋… ํ•™์Šต ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ต์ฐจ ์–ธ์–ด ๋ถ„๋ฅ˜, ๋น„์ง€๋„ ๋ฐ ๊ฐ๋… ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. XNLI์—์„œ ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ๋ฒ•์€ 4.9%์˜ ์ ˆ๋Œ€์ ์ธ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋น„์ง€๋„ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ๋Š” WMT'16 ๋…์ผ์–ด-์˜์–ด์—์„œ 34.3 BLEU๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์ด์ „ ์ตœ๊ณ  ์ˆ˜์ค€๋ณด๋‹ค 9 BLEU ์ด์ƒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ๋… ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ๋Š” WMT'16 ๋ฃจ๋งˆ๋‹ˆ์•„์–ด-์˜์–ด์—์„œ 38.5 BLEU์˜ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ์ˆ˜์ค€์„ ๋‹ฌ์„ฑํ•˜์—ฌ ์ด์ „ ์ตœ์ƒ์˜ ์ ‘๊ทผ๋ฒ•๋ณด๋‹ค 4 BLEU ์ด์ƒ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์ฝ”๋“œ์™€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ ๊ณต๊ฐœ์ ์œผ๋กœ ์ œ๊ณต๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

1. Introduction

๋ฌธ์žฅ ์ธ์ฝ”๋”์˜ ์ƒ์„ฑ์  ์‚ฌ์ „ ํ›ˆ๋ จ(Radford et al., 2018; Howard and Ruder, 2018; Devlin et al., 2018)์€ ๋งŽ์€ ์ž์—ฐ์–ด ์ดํ•ด ๋ฒค์น˜๋งˆํฌ(Wang et al., 2018)์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฌธ๋งฅ์—์„œ, ๋Œ€๊ทœ๋ชจ ๋น„์ง€๋„ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์—์„œ Transformer(Vaswani et al., 2017) ์–ธ์–ด ๋ชจ๋ธ์„ ํ•™์Šตํ•œ ํ›„, ๋ถ„๋ฅ˜(Socher et al., 2013)๋‚˜ ์ž์—ฐ์–ด ์ถ”๋ก (Bowman et al., 2015; Williams et al., 2017)๊ณผ ๊ฐ™์€ ์ž์—ฐ์–ด ์ดํ•ด(NLU) ์ž‘์—…์— ๋Œ€ํ•ด ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ๋ฌธ์žฅ ํ‘œํ˜„ ํ•™์Šต์— ๋Œ€ํ•œ ๊ด€์‹ฌ์ด ๊ธ‰์ฆํ•˜์˜€์ง€๋งŒ, ์ด ๋ถ„์•ผ์˜ ์—ฐ๊ตฌ๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๋‹จ์ผ ์–ธ์–ด์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ , ์ฃผ๋กœ ์˜์–ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค(Conneau and Kiela, 2018; Wang et al., 2018).

๋งŽ์€ ์–ธ์–ด์—์„œ ๊ต์ฐจ-์–ธ์–ด ๋ฌธ์žฅ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” ์ตœ๊ทผ ์—ฐ๊ตฌ ๊ฐœ๋ฐœ(Conneau et al., 2018b)์€ ์˜์–ด ์ค‘์‹ฌ์  ํŽธํ–ฅ์„ ์™„ํ™”ํ•˜๊ณ  ์–ด๋–ค ๋ฌธ์žฅ์ด๋“  ๊ณต์œ ๋œ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ๊ต์ฐจ-์–ธ์–ด ์ธ์ฝ”๋”๋ฅผ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ ์šฐ๋ฆฌ๋Š” ๊ต์ฐจ-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ ํ›ˆ๋ จ์˜ ํšจ๊ณผ๋ฅผ ๋‹ค๊ตญ์–ด ๊ต์ฐจ-์–ธ์–ด ์ดํ•ด(XLU) ๋ฒค์น˜๋งˆํฌ์—์„œ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค:

  1. ๊ต์ฐจ-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ์‚ฌ์šฉํ•œ ๊ต์ฐจ-์–ธ์–ด ํ‘œํ˜„ ํ•™์Šต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๊ณ , ๋‘ ๊ฐ€์ง€ ๋‹จ์ผ ์–ธ์–ด ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชฉ์ ์„ ์กฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  1. ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ๊ต์ฐจ-์–ธ์–ด ์‚ฌ์ „ ํ›ˆ๋ จ์„ ๊ฐœ์„ ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ฐ๋… ํ•™์Šต ๋ชฉ์ ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  1. ๊ต์ฐจ-์–ธ์–ด ๋ถ„๋ฅ˜, ๋น„์ง€๋„ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋ฐ ๊ฐ๋… ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ ์ด์ „ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  1. ๊ต์ฐจ-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ์ด ์ €์ž์› ์–ธ์–ด์˜ ๋‚œํ•ดํ•จ(perplexity)์— ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  1. ์šฐ๋ฆฌ๋Š” ์ฝ”๋“œ์™€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ๊ณต๊ฐœ์ ์œผ๋กœ ์ œ๊ณตํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.
2. Related Work

์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ๋Š” Radford et al. (2018), Howard and Ruder (2018), Devlin et al. (2018)์˜ ์—ฐ๊ตฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋“ค ์—ฐ๊ตฌ๋Š” Transformer ์ธ์ฝ”๋” ์‚ฌ์ „ ํ›ˆ๋ จ์„ ์œ„ํ•œ ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ์กฐ์‚ฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋“ค์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ GLUE ๋ฒค์น˜๋งˆํฌ(Wang et al., 2018)์˜ ์—ฌ๋Ÿฌ ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ ๊ธ‰๊ฒฉํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค. Ramachandran et al. (2016)์€ ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ ํ›ˆ๋ จ์ด ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์ž‘์—…์—์„œ๋„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ฌ์ง€์–ด ์˜์–ด-๋…์ผ์–ด์™€ ๊ฐ™์€ ๊ณ ์ž์› ์–ธ์–ด ์Œ์—์„œ๋„ ์ƒ๋‹นํ•œ ์–‘์˜ ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ์—๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ฃฐ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ์™€ ๋™์‹œ์—, ๊ต์ฐจ-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ๋ง ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•œ ๊ต์ฐจ-์–ธ์–ด ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ๊ฐ€ BERT ์ €์žฅ์†Œ์—์„œ ์†Œ๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ์„น์…˜ 5์—์„œ ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ๋ฒ•๊ณผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.

ํ…์ŠคํŠธ ํ‘œํ˜„์˜ ๋ถ„ํฌ๋ฅผ ๋งž์ถ”๋Š” ์ž‘์—…์€ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์˜ ๋ถ„ํฌ ๋งž์ถค๊ณผ ํ•จ๊ป˜ ์˜ค๋žœ ์ „ํ†ต์ด ์žˆ์Šต๋‹ˆ๋‹ค. Mikolov et al. (2013a)์˜ ์ž‘์—…๋ถ€ํ„ฐ ์ž‘์€ ์‚ฌ์ „์„ ํ™œ์šฉํ•˜์—ฌ ์„œ๋กœ ๋‹ค๋ฅธ ์–ธ์–ด์˜ ๋‹จ์–ด ํ‘œํ˜„์„ ๋งž์ถ”๋Š” ์ž‘์—…์„ ์‹œ์ž‘์œผ๋กœ ๋งŽ์€ ํ›„์† ์—ฐ๊ตฌ๋“ค์ด ๊ต์ฐจ-์–ธ์–ด ํ‘œํ˜„์„ ํ™œ์šฉํ•˜์—ฌ ๋‹จ์ผ ์–ธ์–ด ํ‘œํ˜„์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค(Faruqui and Dyer, 2014; Xing et al., 2015; Ammar et al., 2016). ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์„ ๋”ฐ๋ผ ๊ต์ฐจ-์–ธ์–ด ๊ฐ๋… ํ•„์š”์„ฑ์€ ์ ์  ๊ฐ์†Œ๋˜์—ˆ๊ณ (Conneau et al., 2018a), ์ตœ์ข…์ ์œผ๋กœ ์™„์ „ํžˆ ์ œ๊ฑฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค(Smith et al., 2017; Conneau et al., 2018a). ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์•„์ด๋””์–ด๋ฅผ ํ•œ ๋‹จ๊ณ„ ๋” ๋‚˜์•„๊ฐ€ ๋ฌธ์žฅ์˜ ๋ถ„ํฌ๋ฅผ ๋งž์ถ”๋Š” ์ž‘์—…์„ ํ†ตํ•ด ๊ต์ฐจ-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๋˜ํ•œ ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ์˜ ํ•„์š”์„ฑ์„ ์ค„์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

๋‹ค๊ตญ์–ด์—์„œ ๋ฌธ์žฅ ํ‘œํ˜„์„ ๋งž์ถ”๋Š” ์ž‘์—…์— ๊ด€ํ•œ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Hermann and Blunsom (2014), Conneau et al. (2018b), Eriguchi et al. (2018)๋Š” ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ต์ฐจ-์–ธ์–ด ๋ฌธ์žฅ ๋ถ„๋ฅ˜ ์ž‘์—…์„ ์กฐ์‚ฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ฐ€์žฅ ์„ฑ๊ณต์ ์ธ ์ตœ๊ทผ ๊ต์ฐจ-์–ธ์–ด ์ธ์ฝ”๋” ์ ‘๊ทผ๋ฒ•์€ ์•„๋งˆ๋„ Johnson et al. (2017)์˜ ๋‹ค๊ตญ์–ด ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๊ทธ๋“ค์€ ํ•˜๋‚˜์˜ ๊ณต์œ  LSTM ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋งŽ์€ ์–ธ์–ด ์Œ์— ๋Œ€ํ•œ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹จ์ผ ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค ๋ชจ๋ธ์„ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋“ค์˜ ๋‹ค๊ตญ์–ด ๋ชจ๋ธ์€ ์ €์ฐจ์› ์–ธ์–ด ์Œ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๊ณ  ์ œ๋กœ์ƒท ๋ฒˆ์—ญ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์„ ๋”ฐ๋ผ์„œ Artetxe and Schwenk (2018)๋Š” ์ด๋Ÿฌํ•œ ์ธ์ฝ”๋”๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ต์ฐจ-์–ธ์–ด ๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋“ค์˜ ์ ‘๊ทผ๋ฒ•์€ 2์–ต๊ฐœ ์ด์ƒ์˜ ๋ณ‘๋ ฌ ๋ฌธ์žฅ์„ ํ™œ์šฉํ•˜์˜€์œผ๋ฉฐ, ๊ณ ์ •๋œ ๋ฌธ์žฅ ํ‘œํ˜„ ์œ„์— ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ XNLI ๊ต์ฐจ-์–ธ์–ด ๋ถ„๋ฅ˜ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์‹  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ์ƒ๋‹น๋Ÿ‰์˜ ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ, ์ตœ๊ทผ ์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ์™€ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ๋Š” ์•„๋งˆ๋„ Wada์™€ Iwata (2018)์˜ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๊ทธ๋“ค์€ ์„œ๋กœ ๋‹ค๋ฅธ ์–ธ์–ด์˜ ๋ฌธ์žฅ์œผ๋กœ LSTM (Hochreiter์™€ Schmidhuber, 1997) ์–ธ์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ทธ๋“ค์€ LSTM ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณต์œ ํ•˜์ง€๋งŒ ๊ฐ ์–ธ์–ด์˜ ๋‹จ์–ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฐ์—๋Š” ๋‹ค๋ฅธ ๋ฃฉ์—… ํ…Œ์ด๋ธ”์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋“ค์€ ๋‹จ์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ ๊ทธ๋“ค์˜ ์ ‘๊ทผ๋ฒ•์ด ์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

3. Cross-lingual language models

์ด ์„น์…˜์—์„œ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ด ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ๊ณ ๋ คํ•œ ์„ธ ๊ฐ€์ง€ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉ์ ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ค‘ ๋‘ ๊ฐ€์ง€๋Š” ๋‹จ์ผ ์–ธ์–ด ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ•˜๋Š” ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์ด๋ฉฐ, ๋‚˜๋จธ์ง€ ํ•œ ๊ฐ€์ง€๋Š” ๋ณ‘๋ ฌ ๋ฌธ์žฅ์„ ํ•„์š”๋กœ ํ•˜๋Š” ๊ฐ๋… ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” N๊ฐœ์˜ ์–ธ์–ด๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ์–ธ๊ธ‰์ด ์—†๋Š” ํ•œ, ์šฐ๋ฆฌ๋Š” N๊ฐœ์˜ ๋‹จ์ผ ์–ธ์–ด ๋ง๋ญ‰์น˜ {Ci}i=1...N๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉฐ, ni๋ฅผ Ci์˜ ๋ฌธ์žฅ ์ˆ˜๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

3.1 Shared sub-word vocabulary

์šฐ๋ฆฌ์˜ ๋ชจ๋“  ์‹คํ—˜์—์„œ ์šฐ๋ฆฌ๋Š” Byte Pair Encoding (BPE) (Sennrich et al., 2015)์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ๋™์ผํ•œ ๊ณต์œ  ์–ดํœ˜๋กœ ๋ชจ๋“  ์–ธ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. Lample et al. (2018a)์—์„œ ๋ณด์—ฌ์ง„ ๋Œ€๋กœ, ์ด๋Š” ๋™์ผํ•œ ์•ŒํŒŒ๋ฒณ์ด๋‚˜ ์ˆซ์ž (Smith et al., 2017) ๋˜๋Š” ๊ณ ์œ ๋ช…์‚ฌ์™€ ๊ฐ™์€ ์•ต์ปค ํ† ํฐ์„ ๊ณต์œ ํ•˜๋Š” ์–ธ์–ด ๊ฐ„ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์˜ ์ •๋ ฌ์„ ํฌ๊ฒŒ ๊ฐœ์„ ์‹œํ‚ต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‹จ์ผ ์–ธ์–ด ๋ง๋ญ‰์น˜์—์„œ ์ž„์˜๋กœ ์ƒ˜ํ”Œ๋งํ•œ ๋ฌธ์žฅ์˜ ์—ฐ๊ฒฐ์—์„œ BPE ๋ถ„ํ• ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์žฅ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹คํ•ญ ๋ถ„ํฌ์— ๋”ฐ๋ผ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค. {qi}i=1...N์—์„œ ํ™•๋ฅ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” α = 0.5๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ถ„ํฌ๋กœ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒƒ์€ ์ €์ž์› ์–ธ์–ด์™€ ๊ด€๋ จ๋œ ํ† ํฐ์˜ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๊ณ , ๊ณ ์ž์› ์–ธ์–ด์— ๋Œ€ํ•œ ํŽธํ–ฅ์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ, ์ด๋Š” ์ €์ž์› ์–ธ์–ด์˜ ๋‹จ์–ด๊ฐ€ ๋ฌธ์ž ์ˆ˜์ค€์—์„œ ๋ถ„ํ• ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.

3.2 Causal Language Modeling (CLM)

์šฐ๋ฆฌ์˜ ์ธ๊ณผ ์–ธ์–ด ๋ชจ๋ธ๋ง (CLM) ์ž‘์—…์€ ๋ฌธ์žฅ ๋‚ด ์ด์ „ ๋‹จ์–ด๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ˜„์žฌ ๋‹จ์–ด์˜ ํ™•๋ฅ ์„ ๋ชจ๋ธ๋งํ•˜๋Š” Transformer ์–ธ์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด์ „์˜ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์€ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค(Mikolov et al., 2010; Jozefowicz et al., 2016), ๊ทธ๋Ÿฌ๋‚˜ Transformer ๋ชจ๋ธ๋„ ๋งค์šฐ ๊ฒฝ์Ÿ๋ ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค(Dai et al., 2019).

LSTM ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ์‹œ๊ฐ„์— ๊ฑธ์นœ ์—ญ์ „ํŒŒ (Werbos, 1990) (BPTT)๋Š” LSTM์— ์ด์ „ ๋ฐ˜๋ณต์˜ ๋งˆ์ง€๋ง‰ ์ˆจ๊ฒจ์ง„ ์ƒํƒœ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. Transformer์˜ ๊ฒฝ์šฐ, ์ด์ „ ์ˆจ๊ฒจ์ง„ ์ƒํƒœ๋ฅผ ํ˜„์žฌ ๋ฐฐ์น˜๋กœ ์ „๋‹ฌํ•จ์œผ๋กœ์จ ํ˜„์žฌ ๋ฐฐ์น˜์˜ ์ฒซ ๋‹จ์–ด์— ๋ฌธ๋งฅ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(Al-Rfou et al., 2018). ๊ทธ๋Ÿฌ๋‚˜ ์ด ๊ธฐ์ˆ ์€ ๊ต์ฐจ-์–ธ์–ด ์„ค์ •์— ํ™•์žฅ๋˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๊ฐ„๋‹จํ•จ์„ ์œ„ํ•ด ๊ฐ ๋ฐฐ์น˜์˜ ์ฒซ ๋‹จ์–ด์—๋Š” ๋ฌธ๋งฅ์„ ์ œ๊ณตํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

3.3 Masked Language Modeling (MLM)

์šฐ๋ฆฌ๋Š” ๋˜ํ•œ Devlin et al. (2018)์˜ ๊ฐ€๋ ค์ง„ ์–ธ์–ด ๋ชจ๋ธ๋ง (MLM) ๋ชฉ์ , ์ฆ‰ ํด๋กœ์ฆˆ ํƒœ์Šคํฌ (Taylor, 1953)๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. Devlin et al. (2018)์„ ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ํ…์ŠคํŠธ ์ŠคํŠธ๋ฆผ์—์„œ BPE ํ† ํฐ์˜ 15%๋ฅผ ์ž„์˜๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , 80%์˜ ๊ฒฝ์šฐ [MASK] ํ† ํฐ์œผ๋กœ ๋Œ€์ฒดํ•˜๊ณ , 10%์˜ ๊ฒฝ์šฐ ์ž„์˜์˜ ํ† ํฐ์œผ๋กœ ๋Œ€์ฒดํ•˜๋ฉฐ, 10%์˜ ๊ฒฝ์šฐ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ Devlin et al. (2018)์˜ MLM๊ณผ์˜ ์ฐจ์ด์ ์€ ๋ฌธ์žฅ ์Œ ๋Œ€์‹  ์ž„์˜์˜ ์ˆ˜์˜ ๋ฌธ์žฅ (256 ํ† ํฐ์œผ๋กœ ์ œํ•œ)์˜ ํ…์ŠคํŠธ ์ŠคํŠธ๋ฆผ์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋“œ๋ฌผ๊ณ  ๋นˆ๋ฒˆํ•œ ํ† ํฐ ์‚ฌ์ด์˜ ๋ถˆ๊ท ํ˜•์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” Mikolov et al. (2013b)์™€ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋นˆ๋„์˜ ์ œ๊ณฑ๊ทผ์— ๋ฐ˜๋น„๋ก€ํ•˜๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง„ ๋‹คํ•ญ ๋ถ„ํฌ์— ๋”ฐ๋ผ ํ…์ŠคํŠธ ์ŠคํŠธ๋ฆผ์˜ ํ† ํฐ์„ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ MLM ๋ชฉ์ ์€ ๊ทธ๋ฆผ 1์—์„œ ์„ค๋ช…๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

3.4 Translation Language Modeling (TLM)

CLM๊ณผ MLM ๋ชฉํ‘œ๋Š” ๋น„์ง€๋„ ํ•™์Šต์ด๋ฉฐ, ๋‹จ์ผ ์–ธ์–ด ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ชฉํ‘œ๋Š” ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ฒˆ์—ญ ์–ธ์–ด ๋ชจ๋ธ๋ง(TLM) ๋ชฉํ‘œ๋ฅผ ๋„์ž…ํ•˜์—ฌ ํฌ๋กœ์Šค-์–ธ์–ด ์‚ฌ์ „ ํ›ˆ๋ จ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. TLM ๋ชฉํ‘œ๋Š” MLM์˜ ํ™•์žฅ์œผ๋กœ, ๋‹จ์ผ ์–ธ์–ด ํ…์ŠคํŠธ ์ŠคํŠธ๋ฆผ ๋Œ€์‹ ์— ๋ณ‘๋ ฌ ๋ฌธ์žฅ์„ ์—ฐ๊ฒฐํ•˜์—ฌ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์†Œ์Šค ๋ฌธ์žฅ๊ณผ ๋Œ€์ƒ ๋ฌธ์žฅ ๋ชจ๋‘์—์„œ ๋ฌด์ž‘์œ„๋กœ ๋‹จ์–ด๋ฅผ ๋งˆ์Šคํ‚นํ•ฉ๋‹ˆ๋‹ค. ์˜์–ด ๋ฌธ์žฅ์—์„œ ๋งˆ์Šคํ‚น๋œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์€ ์ฃผ๋ณ€ ์˜์–ด ๋‹จ์–ด ๋˜๋Š” ํ”„๋ž‘์Šค์–ด ๋ฒˆ์—ญ์— ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์—ฌ ์˜์–ด์™€ ํ”„๋ž‘์Šค์–ด์˜ ํ‘œํ˜„์„ ์ •๋ ฌํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์˜์–ด ๋ฌธ๋งฅ๋งŒ์œผ๋กœ ๋งˆ์Šคํ‚น๋œ ์˜์–ด ๋‹จ์–ด๋ฅผ ์ถ”๋ก ํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋Š” ํ”„๋ž‘์Šค์–ด ๋ฌธ๋งฅ์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •๋ ฌ์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€์ƒ ๋ฌธ์žฅ์˜ ์œ„์น˜๋„ ์žฌ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.

3.5 Cross-lingual Language Models

์ด ์—ฐ๊ตฌ์—์„œ๋Š” CLM, MLM ๋˜๋Š” TLM๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ํฌ๋กœ์Šค-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ ํ›ˆ๋ จ์„ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. CLM๊ณผ MLM ๋ชฉํ‘œ์˜ ๊ฒฝ์šฐ, 256๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ๊ตฌ์„ฑ๋œ ์—ฐ์† ๋ฌธ์žฅ ์ŠคํŠธ๋ฆผ์˜ 64๊ฐœ ์ŠคํŠธ๋ฆผ์œผ๋กœ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ฐ˜๋ณต์—์„œ ๋ฐฐ์น˜๋Š” ๋™์ผํ•œ ์–ธ์–ด์—์„œ ๋‚˜์˜จ ๋ฌธ์žฅ์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์–ธ์–ด๋Š” ์œ„์—์„œ ์–ธ๊ธ‰ํ•œ {qi}i=1...N ๋ถ„ํฌ์—์„œ ์ƒ˜ํ”Œ๋ง๋˜๋ฉฐ, α = 0.7๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. TLM์ด MLM๊ณผ ๊ฒฐํ•ฉ๋˜๋Š” ๊ฒฝ์šฐ, ์ด ๋‘ ๋ชฉํ‘œ๋ฅผ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉฐ ์ˆ˜ํ–‰ํ•˜๊ณ , ์–ธ์–ด ์Œ์€ ์œ ์‚ฌํ•œ ๋ฐฉ์‹์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค.

4. Cross-lingual language model pretraining

์ด ์„น์…˜์—์„œ๋Š” ํฌ๋กœ์Šค-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ์„ ์–ป๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค: • ์ œ๋กœ์ƒท ํฌ๋กœ์Šค-์–ธ์–ด ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ๋ฌธ์žฅ ์ธ์ฝ”๋”์˜ ์ดˆ๊ธฐํ™” ๊ฐœ์„  • ์ง€๋„ ๋ฐ ๋น„์ง€๋„ ํ˜•ํƒœ์˜ ์‹ ๊ฒฝ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์‹œ์Šคํ…œ์˜ ์ดˆ๊ธฐํ™” ๊ฐœ์„  • ์ €์ž์› ์–ธ์–ด๋ฅผ ์œ„ํ•œ ์–ธ์–ด ๋ชจ๋ธ • ๋น„์ง€๋„ ํฌ๋กœ์Šค-์–ธ์–ด ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ

๊ทธ๋ฆผ 1: ํฌ๋กœ์Šค-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ํ›ˆ๋ จ. MLM ๋ชฉ์ ์€ Devlin et al. (2018)์˜ ๋ชฉ์ ๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ๋ฌธ์žฅ ์Œ ๋Œ€์‹  ์—ฐ์†๋œ ํ…์ŠคํŠธ ์ŠคํŠธ๋ฆผ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. TLM ๋ชฉ์ ์€ MLM์„ ๋ณ‘๋ ฌ ๋ฌธ์žฅ ์Œ์— ํ™•์žฅํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋งˆ์Šคํฌ ์ฒ˜๋ฆฌ๋œ ์˜์–ด ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์€ ์˜์–ด ๋ฌธ์žฅ๊ณผ ํ•ด๋‹น ํ”„๋ž‘์Šค์–ด ๋ฒˆ์—ญ์— ๋ชจ๋‘ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์˜์–ด์™€ ํ”„๋ž‘์Šค์–ด ํ‘œํ˜„์„ ์กฐ์ •ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋„๋ก ์œ ๋„๋ฉ๋‹ˆ๋‹ค. ๋Œ€์ƒ ๋ฌธ์žฅ์˜ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์€ ์ •๋ ฌ์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์ดˆ๊ธฐํ™”๋ฉ๋‹ˆ๋‹ค.

4.1 Cross-lingual classification

์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์ „ํ›ˆ๋ จํ•œ XLM ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์ธ ๋ชฉ์ ์˜ ํฌ๋กœ์Šค-์–ธ์–ด ํ…์ŠคํŠธ ํ‘œํ˜„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์˜์–ด ๋ถ„๋ฅ˜ ์ž‘์—…์— ๋Œ€ํ•œ ๋‹จ์ผ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ธ๋ถ€ ํ›ˆ๋ จ(Radford et al., 2018; Devlin et al., 2018)๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ, ์šฐ๋ฆฌ๋Š” XLM์„ ํฌ๋กœ์Šค-์–ธ์–ด ์ž์—ฐ์–ด ์ถ”๋ก (XNLI) ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ธ๋ถ€ ํ›ˆ๋ จํ•˜์—ฌ ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ •ํ™•ํ•˜๊ฒŒ๋Š”, ์‚ฌ์ „ํ›ˆ๋ จ๋œ Transformer์˜ ์ฒซ ๋ฒˆ์งธ ์€๋‹‰ ์ƒํƒœ ์œ„์— ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ , ์˜์–ด NLI ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ชจ๋“  ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์„ธ๋ถ€ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์šฐ๋ฆฌ์˜ ๋ชจ๋ธ์ด 15๊ฐœ์˜ XNLI ์–ธ์–ด์—์„œ ์˜ฌ๋ฐ”๋ฅธ NLI ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Conneau et al. (2018b)๋ฅผ ๋”ฐ๋ผ, ํ›ˆ๋ จ ๋ฐ ํ…Œ์ŠคํŠธ ์„ธํŠธ์˜ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๊ธฐ์ค€์„ ๋„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ํ‘œ 1์— ๋ณด๊ณ ๋ฉ๋‹ˆ๋‹ค.

4.2 Unsupervised Machine Translation

์‚ฌ์ „ํ›ˆ๋ จ์€ ๋น„์ง€๋„ ์‹ ๊ฒฝ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(UNMT)์˜ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ์ž…๋‹ˆ๋‹ค (Lample et al., 2018a; Artetxe et al., 2018). Lample et al. (2018b)์€ ์‚ฌ์ „ํ›ˆ๋ จ๋œ ํฌ๋กœ์Šค-์–ธ์–ด ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์˜ ํ’ˆ์งˆ์ด ๋ฏธ์ง€๋„ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๊ณ  ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ์•„์ด๋””์–ด๋ฅผ ํ•œ ๋‹จ๊ณ„ ๋” ๋‚˜์•„๊ฐ€, ์‚ฌ์ „ํ›ˆ๋ จ๋œ ํฌ๋กœ์Šค-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ๋กœ ์ „์ฒด ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ฅผ ์‚ฌ์ „ํ›ˆ๋ จํ•˜์—ฌ UNMT์˜ ๋ฐ˜๋ณต์ ์ธ ๊ณผ์ •์„ ์‹œ์ž‘ํ•˜๋Š” ๊ธฐ๋ฐ˜์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‹ค์–‘ํ•œ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜๊ณ , WMT'14 ์˜์–ด-ํ”„๋ž‘์Šค์–ด, WMT'16 ์˜์–ด-๋…์ผ์–ด ๋ฐ WMT'16 ์˜์–ด-๋ฃจ๋งˆ๋‹ˆ์•„์–ด๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ํ‘œ์ค€ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ด๋“ค์˜ ์˜ํ–ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ํ‘œ 2์— ์ œ์‹œ๋ฉ๋‹ˆ๋‹ค.

4.3 Supervised Machine Translation

์šฐ๋ฆฌ๋Š” ๊ฐ๋… ํ•™์Šต ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์— ๋Œ€ํ•œ ํฌ๋กœ์Šค-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ํ›ˆ๋ จ์˜ ์˜ํ–ฅ๋„๋ฅผ ์กฐ์‚ฌํ•˜๊ณ , Ramachandran et al. (2016)์˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋‹ค๊ตญ์–ด NMT(Johnson et al., 2017)๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค. CLM ๋ฐ MLM ์‚ฌ์ „ํ›ˆ๋ จ์˜ WMT'16 ๋ฃจ๋งˆ๋‹ˆ์•„์–ด-์˜์–ด์— ๋Œ€ํ•œ ์˜ํ–ฅ์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ํ‘œ 3์— ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

4.4 Low-resource language modeling

์ €์ž์› ์–ธ์–ด์—์„œ๋Š” ๊ณ ์ž์› ์–ธ์–ด์—์„œ์˜ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์ด ์ข…์ข… ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์–ดํœ˜์˜ ์ƒ๋‹น ๋ถ€๋ถ„์„ ๊ณต์œ ํ•˜๋Š” ๊ฒฝ์šฐ์— ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์œ„ํ‚คํ”ผ๋””์•„์—๋Š” ๋„คํŒ”์–ด๋กœ ์ž‘์„ฑ๋œ ์•ฝ 10๋งŒ ๋ฌธ์žฅ์ด ์žˆ์œผ๋ฉฐ, ํžŒ๋””์–ด๋กœ ์ž‘์„ฑ๋œ ๋ฌธ์žฅ์€ ๊ทธ๋ณด๋‹ค 6๋ฐฐ ์ด์ƒ ๋งŽ์Šต๋‹ˆ๋‹ค. ์ด ๋‘ ์–ธ์–ด๋Š” 10๋งŒ ๊ฐœ์˜ ์„œ๋ธŒ์›Œ๋“œ ์œ ๋‹›์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ณต์œ  BPE ์–ดํœ˜๋ฅผ ๊ณต์œ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ† ํฐ์˜ 80% ์ด์ƒ์ด ๊ณตํ†ต์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ํ‘œ 4์—์„œ๋Š” ๋„คํŒ”์–ด ์–ธ์–ด ๋ชจ๋ธ๊ณผ ํžŒ๋””์–ด์™€ ์˜์–ด ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘ํ•œ ์กฐํ•ฉ์œผ๋กœ ํ’€ํ”Œ๋ ‰์‹œํ‹ฐ๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.

4.5 Unsupervised cross-lingual word embeddings

Conneau et al. (2018a)์€ ์ ๋Œ€์  ํ›ˆ๋ จ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์ผ ์–ธ์–ด ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์„ ์ •๋ ฌํ•จ์œผ๋กœ์จ ๋น„์ง€๋„ ๋‹จ์–ด ๋ฒˆ์—ญ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค (MUSE). Lample et al. (2018a)์€ ๋‘ ๊ฐœ์˜ ์–ธ์–ด ์‚ฌ์ด์—์„œ ๊ณต์œ  ์–ดํœ˜๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ๊ทธ๋“ค์˜ ๋‹จ์ผ ์–ธ์–ด ๋ง๋ญ‰์น˜๋ฅผ ์—ฐ๊ฒฐํ•œ ๋‹ค์Œ fastText (Bojanowski et al., 2017)๋ฅผ ์ ์šฉํ•จ์œผ๋กœ์จ ๊ณ ํ’ˆ์งˆ์˜ ํฌ๋กœ์Šค-์–ธ์–ด ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ (Concat)์„ ์ง์ ‘ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ž‘์—…์—์„œ๋Š” ๊ณต์œ  ์–ดํœ˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์€ ํฌ๋กœ์Šค-์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ (XLM)์˜ ๋ฃฉ์—… ํ…Œ์ด๋ธ”์„ ํ†ตํ•ด ์–ป์Šต๋‹ˆ๋‹ค. ์„น์…˜ 5์—์„œ๋Š” ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„, L2 ๊ฑฐ๋ฆฌ ๋ฐ ํฌ๋กœ์Šค-์–ธ์–ด ๋‹จ์–ด ์œ ์‚ฌ์„ฑ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ๋‹ค๋ฅธ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด ์„ธ ๊ฐ€์ง€ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ก
<๋ฆฌ๋ทฐ>
1. Abstract
  • ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์€ NLU (Natural Lanuage Understanding-์ž์—ฐ์–ด ์ดํ•ด) ์„ ์œ„ํ•œ pre-train์˜ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ–ˆ์Œ

⇒ ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค๊ตญ์–ด๋กœ ํ™•์žฅํ•ด์„œ, cross-lingual pre-train์˜ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์คŒ

  • XLM(cross-lingual language models)์˜ ํ•™์Šต ๋ฐฉ๋ฒ•์€ ๋‘ ๊ฐ€์ง€๊ฐ€ ์กด์žฌ
  1. ๋‹จ์ผ ์–ธ์–ด ๋ฐ์ดํ„ฐ์—๋งŒ ์˜์กดํ•˜๋Š” unsuperviese learning
  1. ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” supervised learning

โžก๏ธ cross-lingual classification unsupervised, supervised machine translation์— ๋Œ€ํ•ด SOTA ๋‹ฌ์„ฑํ•จ

 

2. Introduction
  1. ๊ธฐ์กด: general-purpose sentence representation์— ๋Œ€ํ•œ ๊ด€์‹ฌ์€ ๋งŽ์•„์กŒ์œผ๋‚˜, ๋ณธ์งˆ์ ์œผ๋กœ๋Š” ๋‹จ์ผ ์–ธ์–ด์—๋งŒ ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ๊ณ , ์˜์–ด์— ๋Œ€ํ•ด์„œ๋งŒ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋˜์—ˆ์Œ
  1. ์ตœ๊ทผ: ๋งŽ์€ ์–ธ์–ด์—์„œ cross-lingual sentence representation์„ ํ•™์Šตํ•˜๊ณ , ์˜์–ด ์ค‘์‹ฌ์  ํŽธํ–ฅ์„ ์™„ํ™”ํ•˜๊ณ , ์–ด๋–ค ๋ฌธ์žฅ์ด๋“  shared embedding ๊ณต๊ฐ„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•  ์ˆ˜ ์žˆ๋Š” universal cross-lingual encoder์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ œ์‹œํ•จ

<contribution>

  1. cross-lingual language modeling์„ ์‚ฌ์šฉํ•œ cross-lingual language representation ํ•™์Šต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•จ. ๋‘ ๊ฐ€์ง€ monolingual pretraining objective๋ฅผ ์ œ์‹œ
  1. ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ cross-lingual pretraining์„ ๊ฐœ์„ ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ง€๋„ ํ•™์Šต ์ œ์•ˆ
  1. cross-lingual classification, unsupervised machine translation, supervised translation์—์„œ ์ด์ „ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€
  1. cross-lingual language model์ด low-resource ์–ธ์–ด์˜ ๋ณต์žก๋„ ๊ฐœ์„ ํ•จ

 

3. Cross-lingual language models
  • ์ด 3๊ฐ€์ง€ ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ์„ค๋ช…ํ•จ
  • 2๊ฐ€์ง€๋Š” ๋‹จ์ผ ์–ธ์–ด data๋งŒ ์‚ฌ์šฉํ•˜๋Š” unsupervised learning
  • 1๊ฐ€์ง€๋Š” ๋ณ‘๋ฌธ์žฅ์„ ์‚ฌ์šฉํ•˜๋Š” supervised learning
3.1 Shared sub-word vocabulary
  1. ๊ธฐ๋ณธ์ ์œผ๋กœ BPE์‚ฌ์šฉ
  1. ์–ธ์–ด ๊ฐ„ ๊ฐ™์€ ๋‹จ์–ด(์ˆซ์ž๋‚˜ ๊ณ ์œ ๋ช…์‚ฌ ๋“ฑ)์€ ๊ณต์œ 
    • ex) “.”์˜ ๊ฒฝ์šฐ, ๋ฌธ์žฅ์˜ ๋์„ ์˜๋ฏธํ•˜๊ณ , ์˜์–ด์—์„œ๋Š”(finish), ํ•œ๊ตญ์–ด๋กœ๋Š”(-๋‹ค)๋กœ ํ‘œ์‹œ.→ ์ฆ‰ ๊ฒฐ๊ตญ์— ์–ธ์–ด๊ฐ„ ๊ฐ™์€ ๋‹จ์–ด๋ฅผ ์˜๋ฏธํ•˜๊ธฐ ๋•Œ๋ฌธ์— embedding ๊ณต๊ฐ„์„ ๊ณต์œ ํ•œ๋‹ค์˜ ์˜๋ฏธ๋กœ ํŒŒ์•…ํ•˜๋ฉด ๋  ๋“ฏ
  1. ๋ฌธ์žฅ๋“ค์€ monolingual corpora์—์„œ ์ผ์ • ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ด์šฉํ•ด์„œ ์ถ”์ถœ(a = 0.5)
    •  low-resource ์–ธ์–ด์™€ ๊ด€๋ จ๋œ ํ† ํฐ์˜ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๊ณ , high-resource ์–ธ์–ด์— ๋Œ€ํ•ด์„œ๋Š” ํŽธํ–ฅ์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ž„
    •  low-resource language๊ฐ€ ๋ฌธ์ž ์ˆ˜์ค€์—์„œ ๋ถ„ํ• ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ
3.2 Causal Language Modeling (CLM)
  • ์ธ๊ณผ ์–ธ์–ด ๋ชจ๋ธ(CLM): ๋ฌธ์žฅ ๋‚ด ์ด์ „ ๋‹จ์–ด๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ˜„์žฌ ๋‹จ์–ด์˜ ํ™•๋ฅ ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ชจ๋ธ (๊ทธ๋ƒฅ ์šฐ๋ฆฌ๊ฐ€ ์•„๋Š”๊ฑฐ - ๋ฌธ์žฅ ๋„ฃ๊ณ  ๋งจ ๋งˆ์ง€๋ง‰ ๋‹จ์–ด ์ถ”๋ก ํ•˜๋Š” ๊ทธ๋Ÿฐ๊ฑฐ)ex) ๊ฐˆ์ƒ‰ ์ค„๋ฌด๋Šฌ๋ฅผ ๊ฐ€์ง„ ์ž‘๊ณ  ํ„ธ์ด ๋ณด์†กํ•œ ์•„๊ธฐ [ ] ์ผ ๊ฒฝ์šฐ, ์ •๋‹ต ํ›„๋ณด๊ฐ€ ๊ณ ์–‘์ด, ํ˜ธ๋ž‘์ด, ๊ฐ•์•„์ง€์˜€์„ ๋•Œ ๊ณ ์–‘์ด๋ผ๊ณ  ํƒํ•  ๊ฒƒ์ž„.
  • โžก๏ธ ๊ทธ ์ด์œ ๋Š” ์•ž์— ๊ฐˆ์ƒ‰ ์ค„๋ฌด๋Šฌ๋‚˜ ์ž‘๊ณ  ํ„ธ์ด ๋ณด์†กํ•œ ๊ณผ ๊ฐ™์€ ๋ฌธ๋งฅ์„ ๊ธฐ์ค€์œผ๋กœ ๋‹ต์ด ์ถ”๋ก ๋˜๋Š”๋ฐ ์ด๋ฅผ ์ธ๊ณผ๊ด€๊ณ„, ์ฆ‰ ์ธ๊ณผ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.
3.3 Masked Language Modeling (MLM)
  • BERT์™€ ๊ฐ™์€ ํ˜•ํƒœ
  • BPE ํ† ํฐ์˜ 15%๋ฅผ ์ž„์˜๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , 80%์˜ ๊ฒฝ์šฐ [MASK] ํ† ํฐ์œผ๋กœ ๋Œ€์ฒดํ•˜๊ณ , 10%์˜ ๊ฒฝ์šฐ ์ž„์˜์˜ ํ† ํฐ์œผ๋กœ ๋Œ€์ฒดํ•˜๋ฉฐ, 10%์˜ ๊ฒฝ์šฐ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š์Œ
  • ๊ฒฐ๋ก ์ ์œผ๋กœ CLM๊ณผ MLM์˜ ๊ณตํ†ต์ ์€ ๋น„์ง€๋„ ํ•™์Šต์ž„
3.4 Translation Language Modeling (TLM)
  • ๋ฒˆ์—ญ ๋ง๋ญ‰์น˜์—์„œ ์›๋ณธ ๋ฌธ์žฅ๊ณผ ๋ฒˆ์—ญ ๋ฌธ์žฅ์„ ์ด์šฉ
  • ๋‘ ๋ณ‘๋ ฌ ๋ฌธ์žฅ ์Œ์„ ์˜†์— ๋ถ™์—ฌ์„œ ์ฒ˜๋ฆฌํ•จ (๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๋Š” ์–ธ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‘ ๊ฐœ์˜ ๋ฌธ์žฅ ํ™œ์šฉ)

ex) the์™€ blue๋งŒ ๋ณด๊ณ  mask ๋ถ€๋ถ„์„ ์˜ˆ์ธกํ•˜๊ธฐ์— ์‚ฌ์‹ค์ƒ ๋ถˆ๊ฐ€. ๋”ฐ๋ผ์„œ ์˜†์— ๋ถ™์€ ๋ฒˆ์—ญ๋œ ๋ฌธ์žฅ์„ ์ฐธ๊ณ ํ•ด์„œ mask ๋ถ€๋ถ„์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ

  • position embedding๋„ ์žฌ์„ค์ •→ ๊ฐ ๋ฌธ์žฅ์˜ ์‹œ์ž‘์ ์„ 0์œผ๋กœ ์„ค์ •
3.5 Cross-lingual Language Models
  1. 3๊ฐ€์ง€์˜ ๋ฐฉ๋ฒ•์œผ๋กœ pretraining ์ง„ํ–‰ : CLM, MLM, CLM used in combination with TML
  1. CLM, MLM
    1. Batch size : 64
    1. Token length : 256
    1. ๊ฐ™์€ ๋ฐฐ์น˜ ๋‚ด์—์„œ๋Š” ๊ฐ™์€ ์–ธ์–ด๋งŒ
  1. CLM used in combination with TML
    1. ๊ฐ™์€ ๋ฐฐ์น˜๋‚ด์—์„œ๋Š” ๊ฐ™์€ ์–ธ์–ด์Œ์ด ๋‚˜์˜ค๋„๋ก ํ•จ
4. Cross-lingual language model pretraining
  • Cross-lingual LM ๋ฅผ ํ†ตํ•ด ์–ป๊ณ ์ž ํ•˜๋Š” ๊ฒƒ(์ดˆ๊ธฐํ™”๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ์ข‹์„๊นŒ?)
    1. a better initialization of sentence encoders for zero-shot cross-lingual classification
    1. a better initialization of supervised and unsupervised neural machine translation systems
    1. language models for low-resource languages
    1. unsupervised cross-lingual word embeddings
    4.1 Cross-lingual classification
    • NLI: ์ „์ œ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋‘ ๋ฌธ์žฅ์˜ ์œ ์‚ฌ๋„๋ฅผ ํ†ตํ•ด ๊ฐ€์„ค์ด ์ฐธ(ํฌํ•จ, ์ˆ˜๋ฐ˜), ๊ฑฐ์ง“(๋ชจ์ˆœ) ํ˜น์€ ์ค‘๋ฆฝ(๊ฒฐ์ •๋˜์ง€ ์•Š์Œ) ์ค‘ ์–ด๋–ค ๊ฒƒ์ธ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ์ž‘์—…
    • XNLI ๋ฐ์ดํ„ฐ ์…‹์„ ํ›ˆ๋ จ์‹œ์ผœ์„œ ํ‰๊ฐ€
    ๐Ÿ’ก
    โ€ป Zero shot : ๋ชจ๋ธ์ด ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฐฐ์šฐ์ง€ ์•Š์€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•จ (GAN๊ณผ ๊ฐ™์€ ๋ฐฉ์‹) unseen data๋ฅผ ๋„ฃ์–ด ํ•จ๊ป˜ ํ•™์Šต์‹œ์ผœ์„œ unseen์— ๋Œ€ํ•œ ์˜ˆ์ธก๋„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•˜๋Š” ๊ฒƒ ⇒ labeling ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธ
    ๐Ÿ’ก
    โ€ป ์ œ๋กœ์ƒท ํ•™์Šต์€ ์ด์ „์— ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์—†๋Š” ์ƒˆ๋กœ์šด ํด๋ž˜์Šค๋ฅผ ์ธ์‹ํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์Œ. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ƒˆ๋กœ์šด ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์„ค๋ช… ์ •๋ณด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์•ผ ํ•จ

    ex) '๊ฐ•์•„์ง€', '๊ณ ์–‘์ด', 'ํ† ๋ผ' ๋“ฑ์˜ ๋™๋ฌผ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •. ์ด ๋ชจ๋ธ์ด '์‚ฌ์ž'๋ผ๋Š” ํด๋ž˜์Šค์— ๋Œ€ํ•ด์„œ๋Š” ํ•™์Šต๋˜์ง€ ์•Š์•˜์ง€๋งŒ, '์‚ฌ์ž'๋ผ๋Š” ๋™๋ฌผ์˜ ํŠน์ง•์„ ์„ค๋ช…ํ•˜๋Š” ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ์ž…๋ ฅํ•˜๋ฉด, ๋ชจ๋ธ์€ ์ด๋ฅผ ์ด์šฉํ•˜์—ฌ '์‚ฌ์ž'๋ฅผ ๋ถ„๋ฅ˜ํ•จ.

    ex)

    ⇒ 15๊ฐœ ๋‹ค๊ตญ์–ด ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๋ฅผ TLM์œผ๋กœ ํ•™์Šตํ•œ ํ›„, ์˜์–ด NLI๋กœ Fine Tuning ์ง„ํ–‰

    ⇒ 15๊ฐœ ๊ตญ์–ด๋กœ ๊ณต๋ถ€ํ•˜๊ณ  ์˜์–ด๋กœ ์ถ”๋ก ํ•˜๋Š” ๋ฒ•์„ ํ•™์Šต.

    ⇒ 15๊ฐœ ๊ตญ์–ด๋กœ inference ์ง„ํ–‰

    ⇒ ์‹ค์ œ ํ…Œ์ŠคํŠธํ•  ๋•Œ, ์ฒ˜์Œ ๋ณด๋Š” unseen data๋ฅผ ๋„ฃ์œผ๋ฉด ๊ทธ๊ฒƒ์„ ์˜์–ด๋กœ ์ž˜ ๋ฒˆ์—ญํ•˜๋„๋ก ํ•˜๊ฒŒ ๋จ

    4.2 Unsupervised Machine Translation
    • ๋น„์ง€๋„ ํ•™์Šต์œผ๋กœ ๋ฒˆ์—ญ์„ ํ•ด์•ผ ํ•˜๊ธฐ์— TML์€ ์‚ฌ์šฉ x
    • ๊ธฐ์กด์—๋Š” transformer์˜ embedding ๋ถ€๋ถ„๋งŒ ๊ฐ€์ ธ์™€์„œ ์‚ฌ์šฉํ–ˆ์—ˆ์œผ๋‚˜, Encoder์™€ Decoder๋ฅผ ๊ฐ๊ฐ CLM, MLM์˜ ์กฐํ•ฉ์œผ๋กœ ๋‹ค์–‘ํ•˜๊ฒŒ ์‹คํ—˜ ์ง„ํ–‰
    • CLM๊ณผ MLM์„ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉด์„œ ์‹คํ—˜ํ–ˆ์Œ (TLM์€ ์‚ฌ์šฉ ์•ˆํ•จ)
    4.3 Supervised Machine Translation
    • ์ง€๋„ํ•™์Šต์˜ ๊ฒฝ์šฐ MLM๊ณผ Back-translation ์กฐํ•ฉํ•œ ๋ฐฉ๋ฒ•์ด ์ œ์ผ ์ข‹์•˜์Œ
    4.4 Low-resource language modeling
    ๋‘˜์ด ๋น„์Šทํ•˜๊ฒŒ ์ƒ๊น€
    • Wikipedia์—๋Š” ๋„คํŒ”์–ด๊ฐ€ 100k ๋ฌธ์žฅ์ด ์กด์žฌ.
    • ๋ฐ˜๋ฉด, ํžŒ๋””์–ด๋Š” ๋„คํŒ”์–ด๋ณด๋‹ค 66๋ฐฐ ์ •๋„ ๋งŽ์Œ.
    • ๋‘ ์–ธ์–ด๋Š” ๋งค์šฐ ์œ ์‚ฌํ•ด์„œ 80%์ •๋„์˜ BPE vocabulary๋ฅผ ๊ณต์œ ํ•œ๋‹ค๊ณ  ํ•จ⇒ ๋ณต์žก๋„๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ์–ธ์–ด ๋ชจ๋ธ์˜ ํ•™์Šต์ด ์ž˜ ๋๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์Œ.
    • ⇒ ๋„คํŒ”์–ด๋กœ๋งŒ ํ•™์Šตํ–ˆ์„ ๋•Œ์˜ PPL์€ 157์ธ ๋ฐ˜๋ฉด ๋‹ค๋ฅธ ์–ธ์–ด์ง€๋งŒ ๋น„์Šทํ•˜๊ณ  ์–‘์ด ๋งŽ์€ ํžŒ๋””์–ด๋ฅผ ํ•ฉ์ณ์„œ XLM์„ ํ•™์Šตํ•˜๋ฉด 109 PPL๋กœ ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์ด ์ž˜๋จ
    ๐Ÿ’ก
    ๊ฒฐ๋ก : ํฌ์†Œ ์–ธ์–ด์ธ ๊ฒฝ์šฐ ์œ ์‚ฌํ•œ ๋‹ค๋ฅธ ์–ธ์–ด์™€ ํ•ฉ์ณ์„œ ํ•™์Šตํ•˜๋ฉด ๋” ์ข‹์€ ์„ฑ๋Šฅ์˜ ์–ธ์–ด ๋ชจ๋ธ์„ ์–ป์„ ์ˆ˜ ์žˆ์Œ
    4.5 Unsupervised cross-lingual word embeddings
    • ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ™์€ ์˜๋ฏธ์˜ ๋ฌธ์žฅ์ด๋‚˜ ๋‹จ์–ด๋ผ๋ฉด ์„œ๋กœ ๋‹ค๋ฅธ ์–ธ์–ด์ผ ์ง€๋ผ๋„ ๊ฐ™์€ ๊ณต๊ฐ„์— ๋งตํ•‘ํ•˜๊ณ ์ž ํ•˜๋Š” ์—ฐ๊ตฌ ๋ฐฉ์‹
    • pretraining์„ ํ•˜๋ฉด ์–ด๋Š ์ •๋„ ํ›ˆ๋ จ์ด ๋œ ์ƒํƒœ
    • x: ์˜์–ด, y: ํƒ€๊ฒŸ ์ž„๋ฒ ๋”ฉ
    • x๋ฅผ ์„ ํ˜• ๋ณ€ํ™˜์‹œ์ผœ์„œ ํ•™์Šต์‹œํ‚ค๋‹ค๋ณด๋ฉด ์œ ์‚ฌํ•˜๊ฒŒ ๋˜๋Š” ๊ทธ๋Ÿฐ ๋ฐฉ์‹..
5. Inference

 
728x90
๋ฐ˜์‘ํ˜•