๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90
๋ฐ˜์‘ํ˜•
XLM: Cross-lingual Language Model Pretraining ๐Ÿ’ก 0. Abstract ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์€ ์˜์–ด ์ž์—ฐ์–ด ์ดํ•ด์— ๋Œ€ํ•œ ์ƒ์„ฑ ์‚ฌ์ „ ํ›ˆ๋ จ์˜ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๊ตญ์–ด๋กœ ํ™•์žฅํ•˜์—ฌ ๊ต์ฐจ ์–ธ์–ด ์‚ฌ์ „ ํ›ˆ๋ จ์˜ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ต์ฐจ ์–ธ์–ด ์–ธ์–ด ๋ชจ๋ธ (XLM)์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” ๋‹จ์ผ ์–ธ์–ด ๋ฐ์ดํ„ฐ์—๋งŒ ์˜์กดํ•˜๋Š” ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•์ด๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฐ๋… ํ•™์Šต ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ต์ฐจ ์–ธ์–ด ๋ถ„๋ฅ˜, ๋น„์ง€๋„ ๋ฐ ๊ฐ๋… ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. XNLI์—์„œ ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ๋ฒ•์€ 4.9%์˜ ์ ˆ๋Œ€์ ์ธ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋น„์ง€๋„ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ๋Š” WMT'16 ๋…์ผ์–ด-์˜์–ด์—์„œ 34.3 BLEU๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์ด์ „ ์ตœ๊ณ  ์ˆ˜์ค€๋ณด๋‹ค 9 BLEU ์ด์ƒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ๋… ๊ธฐ๊ณ„ ๋ฒˆ.. 2023. 7. 9.
[์ž๋ฃŒ๊ตฌ์กฐ] ๊ทธ๋ž˜ํ”„ ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜: DFS/BFS 1. ํƒ์ƒ‰ ๋งŽ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ ์ค‘์—์„œ ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์„ ์ผ์ปซ์Œ ๋Œ€ํ‘œ์ ์ธ ๊ทธ๋ž˜ํ”„ ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜ : DFS , BFS 2. DFS(Depth-First Search) ๊นŠ์ด ์šฐ์„  ํƒ์ƒ‰ ๊ทธ๋ž˜ํ”„์—์„œ ๊นŠ์€ ๋ถ€๋ถ„์„ ์šฐ์„ ์ ์œผ๋กœ ํƒ์ƒ‰ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์˜๋ฏธํ•จ ์Šคํƒ ์ž๋ฃŒ๊ตฌ์กฐ or ์žฌ๊ท€ํ•จ์ˆ˜ ํ™œ์šฉ ๊ผญ ์ด์ง„ํŠธ๋ฆฌ์ผ ํ•„์š”๊ฐ€ ์—†์Œ! ํƒ์ƒ‰ ์‹œ์ž‘ ๋…ธ๋“œ๋ฅผ ์Šคํƒ์— ์‚ฝ์ž… ํ›„, ๋ฐฉ๋ฌธ ์ฒ˜๋ฆฌ ์Šคํƒ์˜ ์ตœ์ƒ๋‹จ ๋…ธ๋“œ์— ๋ฐฉ๋ฌธํ•˜์ง€ ์•Š์€ ์ธ์ ‘ํ•œ ๋…ธ๋“œ๊ฐ€ ํ•˜๋‚˜๋ผ๋„ ์žˆ์œผ๋ฉด ๊ทธ ๋…ธ๋“œ๋ฅผ ์Šคํƒ์— ๋„ฃ๊ณ  ๋ฐฉ๋ฌธ ์ฒ˜๋ฆฌ. ๋ฐฉ๋ฌธํ•˜์ง€ ์•Š์€ ์ธ์ ‘ ๋…ธ๋“œ๊ฐ€ ์—†์œผ๋ฉด ์Šคํƒ์—์„œ ์ตœ์ƒ๋‹จ ๋…ธ๋“œ๋ฅผ ๊บผ๋ƒ„ ๋” ์ด์ƒ 2๋ฒˆ์˜ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์—†์„ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต def dfs(graph, v, visited): visited[v] =True print(v, end=' ') for i in graph.. 2023. 7. 9.
[๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์‹œ์ฆŒ 2] lab-10-1~2 lab-10-1~2 2023. 7. 9.
[๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์‹œ์ฆŒ 2] lab-09-1~4 lab-09-1~4 09-1 ReLU sigmoid์˜ ๊ฒฝ์šฐ, ๋ฏธ๋ถ„๊ฐ’์ด ๊ฑฐ์˜ 0์ด๊ธฐ์— ์—ญ์ „ํŒŒ๋ฅผ ํ•  ๊ฒฝ์šฐ, ์•ž ๋‹จ์—์„œ๋Š” ๊ฑฐ์˜ 0์— ์ˆ˜๋ ดํ•˜๊ฒŒ ๋จ. ๋”ฐ๋ผ์„œ ReLU๊ฐ€ ๋‚˜์˜ค๊ฒŒ ๋จ. 09-2 Weight initialization RBM์€ ๋‘ ๊ฐœ์˜ ์ธต(์ž…๋ ฅ์ธต 1๊ฐœ, ์€๋‹‰์ธต 1๊ฐœ)์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์€ ์•„๋‹˜ ๋‹ค๋งŒ RBM์€ ์‹ฌ์ธต ์‹ ๋ขฐ ์‹ ๊ฒฝ๋ง(DBN:Deep Belief Network)์„ ๊ตฌ์„ฑํ•˜๋Š” ์š”์†Œ๋กœ ์‚ฌ์šฉ X→Y ์ถœ๋ ฅ, ๋ฐ˜๋Œ€๋กœ Y-X’๋กœ๋„ ๋ณต์› ๊ฐ€๋Šฅ ๋ ˆ์ด์–ด ์•ˆ์— ์žˆ๋Š” ๋…ธ๋“œ๋ผ๋ฆฌ๋Š” ์„œ๋กœ ์—ฐ๊ฒฐ x ๋‹ค๋ฅธ layer ์‚ฌ์ด์—๋Š” ์„œ๋กœ ์—ฐ๊ฒฐ o ๋‘ ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• (forward ↔ backprop์„ ๋ฐ˜๋ณตํ•˜๋ฉด์„œ bias์™€ weight ์กฐ์ •) RBM์„ ์—ฌ๋Ÿฌ๋ฒˆ ํ•™์Šต ํ•˜๋Š” ๊ฒƒ: DBM pre-tra.. 2023. 7. 9.
[๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์‹œ์ฆŒ 2] lab-01-1~08-2 lab-01-1~08-2 01-1~2 Tensor Manipulation 1~2 1์ฐจ์›: ๋ฒกํ„ฐ 2์ฐจ์›: ํ–‰๋ ฌ 3์ฐจ์›: ํ…์„œ(๋ฐฐ์—ด์„ ์˜๋ฏธ) 4์ฐจ์›: ํ…์„œ๋ฅผ ์œ„๋กœ ์Œ“์€ ๊ฒƒ 5์ฐจ์›: ํ…์„œ๋ฅผ ์˜†์œผ๋กœ ์Œ“์€ ๊ฒƒ 6์ฐจ์›: 5์ฐจ์›์„ ๋’ค๋กœ ์Œ“์€ ๊ฒƒ batch size=64 dim=256 *๊ฐ€์žฅ ์ „ํ˜•์ ์ธ 2์ฐจ์› ํ…์„œ ๊ฐ€๋กœ: ๋„ˆ๋น„(width) ์„ธ๋กœ: ๋†’์ด(height) length: ๋ฌธ์žฅ๊ธธ์ด dim: ๋‹จ์–ด ๋ฒกํ„ฐ์˜ ์ฐจ์› ex)['๋‚˜๋Š” ์‚ฌ๊ณผ๋ฅผ ์ข‹์•„ํ•ด'] ๋ฌธ์žฅ๊ธธ์ด(length=3) '๋‚˜๋Š”'=[0.1,0.2,0.9] '์‚ฌ๊ณผ๋ฅผ'=[0.3,0.5,0.1] '์ข‹์•„ํ•ด'=[0.5,0.6,0.7] => [[0.1,0.2,0.9], [0.3,0.5,0.1], [0.5,0.6,0.7]] ํŒŒ์ดํ† ์น˜์˜ ๊ฒฝ์šฐ, ์ž๋™์ ์œผ๋กœ ํ–‰๋ ฌ ์ฐจ์›์˜ ์‚ฌ์ด์ฆˆ๋ฅผ ๋งž์ถฐ์ค€๋‹ค.. 2023. 7. 9.
[๋ฐ‘๋ฐ”๋‹ฅ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ 2] chap1(์‹ ๊ฒฝ๋ง ๋ณต์Šต) 1-3) ์‹ ๊ฒฝ๋ง์˜ ํ•™์Šต ๊ณ„์‚ฐ๊ทธ๋ž˜ํ”„ 1. ๋ง์…ˆ ๋…ธ๋“œ 2. ๊ณฑ์…ˆ ๋…ธ๋“œ 3. ๋ถ„๊ธฐ ๋…ธ๋“œ ๋ณต์ œ ๋…ธ๋“œ๋ผ๊ณ ๋„ ํ•จ. 4. Repeat ๋…ธ๋“œ ๋ถ„๊ธฐ ๋…ธ๋“œ๊ฐ€ N๊ฐœ๋กœ ์ผ๋ฐ˜ํ™”(ํ™•์žฅ๋œ ๊ฒฝ์šฐ) 5. Sum ๋…ธ๋“œ Repeat ๋…ธ๋“œ์™€ ๋ฐ˜๋Œ€์ธ ๊ฒฝ์šฐ 6. MatMul ๋…ธ๋“œ affine ๊ณ„์ธต๊ณผ ๊ฐ™๋‹ค๊ณ  ๋ณด๋ฉด ๋จ ( ํ–‰๋ ฌ์˜ ๊ณฑ์…ˆ์„ MatMul ๋…ธ๋“œ๋ผ๊ณ  ํ•จ) 2023. 7. 9.
728x90
๋ฐ˜์‘ํ˜•