๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/2023 DL ๊ธฐ์ดˆ ์ด๋ก  ๊ณต๋ถ€

[ํŒŒ์ด์ฌ ๋”ฅ๋Ÿฌ๋‹ ํŒŒ์ดํ† ์น˜] Part5

by ์ œ๋ฃฝ 2023. 7. 8.
728x90
๋ฐ˜์‘ํ˜•

 

part5-1 Data & Task: ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์„๊นŒ
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) : text ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๋ชจ๋ธ๋ง ํ•˜๋Š” ๋ถ„์•ผ (NLU+NLG)
  • ์ž์—ฐ์–ด ์ดํ•ด(NLU): ์ž์—ฐ์–ด ์ดํ•ดํ•˜๋Š” ์˜์—ญ
  • ์ž์—ฐ์–ด ์ƒ์„ฑ(NLG): ์ž์—ฐ์–ด ์ƒ์„ฑ
  1. ๊ฐ์ •๋ถ„์„ (sentiment analysis)
  1. ์š”์•ฝ(summarization)
  1. ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(machine translation)
  1. ์งˆ๋ฌธ ์‘๋‹ต(question answering)
  1. +a (ํ’ˆ์‚ฌ ์˜ˆ์ธก ๋ถ„์•ผ, ์ฑ—๋ด‡ ์—ฐ๊ตฌ, ๋ฌธ์žฅ ๊ฐ„์˜ ๋…ผ๋ฆฌ์  ๊ด€๊ณ„์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜ ๋ชจ๋ธ, ์ค‘์˜์  ํ‘œํ˜„ ๊ตฌ๋ณ„, ์ด๋ฏธ์ง€ ์† ์ƒํ™ฉ ์„ค๋ช… ๊ธ€ ๋งŒ๋“ค๊ธฐ ๋“ฑ๋“ฑ
part5-2 ๋ฌธ์ž๋ฅผ ์ˆซ์ž๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • Tokenization: ๋ฌธ์žฅ์„ ์˜๋ฏธ ์žˆ๋Š” ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ„๋Š” ๊ณผ์ •
  • ์—ฐ์†๋œ ๋ฌธ์ž์˜ ๋‚˜์—ด(๋ฌธ์žฅ)์„ ์ ์ ˆํ•˜๊ฒŒ ์˜๋ฏธ๋ฅผ ์ง€๋‹Œ ๋ถ€๋ถ„์˜ ๋‚˜์—ด๋กœ ๋ฐ”๊พธ๋Š” ๊ณผ์ •

⇒ ์—ฌ๊ธฐ์„œ๋ถ€ํ„ฐ ์—ฌ๊ธฐ๊นŒ์ง€์˜ ๋ฌธ์ž์˜ ๋‚˜์—ด์€ ํŠน์ • ์˜๋ฏธ๊ฐ€ ์žˆ๋Š” ๋ถ€๋ถ„์ด๋‹ˆ ํ•˜๋‚˜๋กœ ์ธ์‹ํ•ด๋ผ~

  1. ๋„์–ด์“ฐ๊ธฐ
  1. ๊ธ€์ž(Character)
Corpus & Out-of-Vocabulary(OOV)
  • ์ €์žฅํ•ด๋‘” vocabulary์—๋Š” Token์ด ์—†์–ด์„œ ์ฒ˜์Œ ๋ณธ token์ด ๋‚˜์˜ค๋Š” ํ˜„์ƒ
  • ๋ชจ๋ฅด๋Š” ๋‹จ์–ด๋กœ ์ธํ•ด ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ์ด ๊นŒ๋‹ค๋กœ์›Œ์ง€๋Š” ์ƒํ™ฉ์„ OOV(Out-Of-Vocabulary) ๋ฌธ์ œ๋ผ๊ณ  ํ•จ

⇒ <unk>๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์˜ˆ์‹œ ๋ฌธ์žฅ์„ ๋Š˜๋ฆฌ๊ธฐ(corpus-๋ง๋ญ‰์น˜ ๋ฐ์ดํ„ฐ)

⇒ ๊ฒฐ๊ตญ ์‚ฌ์ „์˜ ํฌ๊ธฐ๊ฐ€ ์ ์  ์ปค์ง ⇒ ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ๋„ ์ปค์ง€๊ฒŒ ๋˜๋Š” ๋ฌธ์ œ์  ๋ฐœ์ƒ

Byte Pair Encoding(BPE)
  • ํ•˜๋‚˜์˜ ๋‹จ์–ด๋Š” ๋” ์ž‘์€ ๋‹จ์œ„์˜ ์˜๋ฏธ ์žˆ๋Š” ์—ฌ๋Ÿฌ ์„œ๋ธŒ์›Œ๋“œ๋“ค(Ex) birthplace = birth + place)์˜ ์กฐํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ
  • ํ•˜๋‚˜์˜ ๋‹จ์–ด๋ฅผ ์—ฌ๋Ÿฌ ์„œ๋ธŒ์›Œ๋“œ๋กœ ๋ถ„๋ฆฌํ•ด์„œ ๋‹จ์–ด๋ฅผ ์ธ์ฝ”๋”ฉ ๋ฐ ์ž„๋ฒ ๋”ฉ(๋ฒกํ„ฐ๋กœ) ํ•˜๊ฒ ๋‹ค๋Š” ์˜๋„๋ฅผ ๊ฐ€์ง„ ์ „์ฒ˜๋ฆฌ ์ž‘์—…

⇒ ์ด์ : ์‚ฌ์ „์˜ ํฌ๊ธฐ๊ฐ€ ์ค„์–ด๋“ฌ, oov ํ˜„์ƒ์„ ์—†์•จ ์ˆ˜ ์žˆ์Œ

1. Character based tokenization(๊ธ€์ž๋ฅผ ํ† ํฐ์œผ๋กœ ํ™œ์šฉํ•˜๋‹ค)
  • ๊ธ€์ž: ์ตœ์†Œ์˜ ๋‹จ์œ„(๊ฐ€~ํžฃ)
  • ์ด์ :
  1. ์ค„์ž„๋ง ๋ฐ ์‹ ์กฐ์–ด์— ๋Œ€ํ•ด ๊ฑฑ์ •ํ•  ํ•„์š”x ⇒ ใ…‡ใ…‹ใ…‡ใ…‹ or ใ„ณ ๊นŒ์ง€๋กœ ๋‚˜๋ˆ”
  1. ์‚ฌ์ด์ฆˆ ํฌ๊ธฐ ํฌ์ง€ x
  • ๋‹จ์ :
  1. ์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ•˜๋Š” token์€ ๋Œ€๋ถ€๋ถ„ ๊ธ€์ž ๋‹จ์œ„๊ฐ€ ์•„๋‹˜.
  1. ํ‘œํ˜„๋ฒ•์— ๋Œ€ํ•œ ํ•™์Šต์ด ์–ด๋ ค์›€ ex) ๊ธ€์ž ํ•˜๋‚˜์˜ ๊ฒฝ์šฐ ํŠน์ •์˜๋ฏธ๋ฅผ ๊ฐ–์ง€๋Š” ์•Š์Œ

→ ex) ‘ํ•‘’ or b ๊ฐ™์€ ๊ธ€์ž ํ•˜๋‚˜๋Š” ์˜๋ฏธ๊ฐ€ ๋ณดํ†ต ์—†์Œ

  1. ๊ทธ๋ ‡๊ธฐ์— ์—ฐ์†๋œ ๊ธ€์ž๋ฅผ ํ†ตํ•ด ํŠน์ • ์˜๋ฏธ๋ฅผ ๋งŒ๋“ค์–ด ๋‚ด์•ผ ํ•จ. ⇒ ํ•˜์ง€๋งŒ ์ด๋ ‡๊ฒŒ ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ๊ฐ€ ์–ด๋ ค์›€

 

2. n-gram Tokenization
  • ๊ธฐ์กด ๊ธ€์ž๋ฅผ ํ†ตํ•ด ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒฝ์šฐ, ๊ธ€์ž ํ•˜๋‚˜ํ•˜๋‚˜์˜ ์˜๋ฏธ๋Š” ๊ฑฐ์˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ๊ธ€์ž์˜ ํŠน์„ฑ ์—ฐ์†์„ฑ์ด ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋‹จ์–ด๋ผ๋Š” ๊ฒƒ์„ ํ•™์Šต์‹œ์ผœ์•ผ ํ•จ → ์ด๋ฅผ ํ†ตํ•ด ๋ฌธ์žฅ๊ณผ ๊ฐ™์ด ๋” ๊ธด ํ˜•ํƒœ์˜ ๊ธ€์„ ์ดํ•ดํ•˜๋„๋ก ๋งŒ๋“ค์–ด์•ผ ํ•จ → ๋น„ํšจ์œจ์ 
  • ๊ธ€์ž๋ณด๋‹ค ๋” ๊ธด ํ˜•ํƒœ์˜ token์„ ๋งŒ๋“ค์ž! ํ•˜๊ณ  ๋‚˜์˜จ ๊ฒƒ์ด n-gram ๋ฐฉ์‹์ž„.

์ด์ :

  • n-gram์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋ฉด ex) ‘๊ฐ„ ๋–จ์–ด์งˆ ๋ป”ํ–ˆ๋‹ค’ ์™€ ๊ฐ™์ด ํ•œ๋ฒˆ์— token์„ ๋ฝ‘์•„๋‚ผ ์ˆ˜ ์žˆ์Œ → ์ด๋ฅผ ํ†ตํ•ด ‘๋งค์šฐ ๋†€๋ผ๋‹ค’ ๋ผ๋Š” ์˜๋ฏธ๋ฅผ ํ•œ๋ฒˆ์— ๋งŒ๋“ค์–ด ๋‚ผ ์ˆ˜ ์žˆ์Œ

๋‹จ์ :

  • ์“ธ๋ชจ์—†๋Š” ์กฐํ•ฉ์ด ๋งŽ์ด ์ƒ์„ฑ๋จ.
  • ์‚ฌ์ „์ด ๊ณผํ•˜๊ฒŒ ์ปค์ง (์˜๋ฏธ์—†๋Š” ๋œป์ด๋‚˜, ์ž์ฃผ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š” token์ด ๋  ๊ฒฝ์šฐ ํšจ์œจx)

 

 

3. BPE(Byte pari Encoding)
  • ๊ธฐ์กด n-gram์—์„œ ์—ฌ๋Ÿฌ๋ฒˆ ๋‚˜ํƒ€๋‚˜๋Š” ๊ธ€์ž์˜ ๋‚˜์—ด์˜ ๊ฒฝ์šฐ, ์˜๋ฏธ๊ฐ€ ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ํŒ๋‹จํ•ด์„œ ๋”ฐ๋กœ token์„ ๋งŒ๋“ค๊ฒŒ ๋จ ⇒ BPE
  • ๋ฐ˜๋ณต์ ์œผ๋กœ ๋‚˜์˜ค๋Š” ๋ฐ์ดํ„ฐ์˜ ์—ฐ์†๋œ ํŒจํ„ด์„ ์น˜ํ™˜ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉ→ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ์ €์žฅ์ด ๊ฐ€๋Šฅ
  • → EX) ab⇒ X๋กœ ์น˜ํ™˜, cX ⇒ Y๋กœ ์น˜ํ™˜ ⇒ ๋ฌธ์ž์—ด ์งง๊ฒŒ ํ‘œํ˜„ ๊ฐ€๋Šฅ

Word Embedding
  • ๊ธฐ์กด ๋ฌธ์ œ์ 
  • ์ด์™€ ๊ฐ™์ด ์ธ๋ฑ์Šค๋ฅผ ์ด๋ ‡๊ฒŒ ์„ค์ • ํ›„ ๋”ํ•˜๊ฑฐ๋‚˜ ๊ณฑํ–ˆ์„ ๋•Œ์˜ ๋ฌธ์ž ์ธ๋ฑ์Šค๋ฅผ ๋ณด๋ฉด ๋ฌธ์ž๊ฐ€ ๋‹ค๋ฅธ ๊ฑธ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Œ
  • ์ด์™€ ๊ฐ™์€ ๋ฐฉ์‹์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์˜จ ๊ฒƒ์ด ์›ํ•ซ ์ธ์ฝ”๋”ฉ
1. ์›-ํ•ซ ์ธ์ฝ”๋”ฉ
2. Frequency-Based Method
  • ๋‹จ์–ด์˜ ํšŸ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์„ ์ผ์ปซ์Œ
  • ๋ฌธ์žฅ์— ์žˆ๋Š” ๋“ฑ์žฅ ํšŸ์ˆ˜๋ฅผ ์„ธ์–ด ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹
  1. ์› ํ•ซ ์ธ์ฝ”๋”ฉ์„ ๊ฑฐ์น˜๋Š” ๋ฐฉ๋ฒ•
  1. ๋ฌธ๋‹จ์˜ token์„ ์ง์ ‘ ์„ธ์–ด์„œ ํ‘œํ˜„ → ๋‹จ์–ด ๋นˆ๋„๋ฅผ ์ด์šฉํ•œ ๋ฐฉ์‹

→ ๋ฌธ์ œ์ : ๊ด€์‚ฌ๊ฐ™์€ a, the, of ์˜ ๊ฒฝ์šฐ, ๋งŽ์ด ๋“ฑ์žฅํ•˜๊ฒŒ ๋˜์–ด ๋†’์€ ๊ฐ’์„ ๊ฐ™๊ฒŒ ๋จ → ๋นˆ๋„๊ฐ€ ์ ์€ token์—๊ฒŒ๋Š” ๋‚˜์œ ์˜ํ–ฅ์ด ๋‚˜์˜ฌ ์ˆ˜ ๋ฐ–์— ์—†์Œ

→ ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์˜จ ๊ฒƒ์ด IDF(Term Frequency - Inverse Document Frequency)

  1. IDF (Term Frequency- Inverse Document Frequency)
  • ์ „์ฒด corpus ๋ฌธ์žฅ ์ˆ˜์—์„œ ํ•ด๋‹น token์ด ๋“ฑ์žฅํ•˜๋Š” ๋ฌธ์žฅ ์ˆ˜์˜ ๋น„์œจ์˜ ์—ญ์ˆ˜
  • ๊ด€์‚ฌ์˜ ๊ฒฝ์šฐ, ๋นˆ๋„์ˆ˜๊ฐ€ ๋†’๊ธฐ์— log1์— ๊ฐ€๊นŒ์›Œ์ง → 0์— ๊ฐ€๊นŒ์šด ์ˆ˜
  • ๋”ฐ๋ผ์„œ TF * IDF๋ฅผ ๊ณฑํ•ด์คŒ์œผ๋กœ์จ TF ์ˆ˜์น˜๋ฅผ ๋‚ฎ์ถฐ์คŒ

๋‹จ์ : ๋‹จ์–ด์˜ ์ถœํ˜„ ํšŸ์ˆ˜๋งŒ ์…€์ˆ˜ ์žˆ๊ณ  ๋‹จ์–ด์˜ ์ˆœ์„œ๋Š” ์™„์ „ํžˆ ๋ฌด์‹œ ๋œ๋‹ค. ๋‹จ์–ด์˜ ์ˆœ์„œ๊ฐ€ ๋ฌด์‹œ๋œ๋‹ค๋Š” ๊ฒƒ์€ ๋‹ค๋ฅธ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฌธ์žฅ์ด ๋™์ผํ•œ ๊ฒฐ๊ณผ๋กœ ํ•ด์„๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

  • ํšŸ์ˆ˜ ๊ธฐ๋ฐ˜์˜ ํ‘œํ˜„ ๋ฐฉ์‹ ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋™์ผ ๊ฒฐ๊ณผ๋กœ ํ•ด์„ํ•  ์ˆ˜๋„.
3. Dense Representation(ํฌ์†Œ ํ‘œํ˜„)

↔ ๋ฐ€์ง‘ ํ‘œํ˜„

  • ์›-ํ•ซ ์ธ์ฝ”๋”ฉ์˜ ๋ฌธ์ œ์ : ๋ณ€์ˆ˜์˜ ํฌ์†Œ์„ฑ(Sparseness)
  • ํฌ์†Œ ํ–‰๋ ฌ: ํ–‰๋ ฌ ๋Œ€๋ถ€๋ถ„ ๊ฐ’์ด 0์ธ ๊ฒฝ์šฐ ↔ ๋ฐ€์ง‘ํ–‰๋ ฌ
  • ๋น„ํšจ์œจ์ ์ž„
  • Word2vec
    • ๊ด€๊ณ„๋ฅผ ์—ฐ์‚ฐ์œผ๋กœ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒกํ„ฐ ํ‘œํ˜„
    • token์˜ ์˜๋ฏธ๋Š” ์ฃผ๋ณ€ token์˜ ์ •๋ณด๋กœ ํ‘œํ˜„๋œ๋‹ค
    • ํŠน์ • token์„ ๊ธฐ์ค€์œผ๋กœ ์ฃผ๋ณ€์— ๋น„์Šทํ•œ token์ด ์žˆ๋‹ค๋ฉด ํ•ด๋‹น token์€ ๋น„์Šทํ•œ ์œ„์น˜์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋˜๋„๋ก ํ•™์Šต์‹œํ‚ด
    • ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‚˜์˜จ ๋ฐฉ๋ฒ• 2๊ฐ€์ง€ 1. cbow, skip-gram
    1. CBOW
    2. skip-gram

     


    3. GloVe
    • LSA๋Š” ์นด์šดํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฝ”ํผ์Šค์˜ ์ „์ฒด์ ์ธ ํ†ต๊ณ„ ์ •๋ณด๋ฅผ ๊ณ ๋ คํ•˜๊ธฐ๋Š” ํ•˜์ง€๋งŒ, ์™•:๋‚จ์ž = ์—ฌ์™•:? (์ •๋‹ต์€ ์—ฌ์ž)์™€ ๊ฐ™์€ ๋‹จ์–ด ์˜๋ฏธ์˜ ์œ ์ถ” ์ž‘์—…(Analogy task)์—๋Š” ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง‘๋‹ˆ๋‹ค.
    • Word2Vec๋Š” ์˜ˆ์ธก ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹จ์–ด ๊ฐ„ ์œ ์ถ” ์ž‘์—…์—๋Š” LSA๋ณด๋‹ค ๋›ฐ์–ด๋‚˜์ง€๋งŒ, ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๊ฐ€ ์œˆ๋„์šฐ ํฌ๊ธฐ ๋‚ด์—์„œ๋งŒ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ๊ณ ๋ คํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ฝ”ํผ์Šค์˜ ์ „์ฒด์ ์ธ ํ†ต๊ณ„ ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.
    • GloVe๋Š” ์ด๋Ÿฌํ•œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ๋“ค์˜ ๊ฐ๊ฐ์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, LSA์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด์—ˆ๋˜ ์นด์šดํŠธ ๊ธฐ๋ฐ˜์˜ ๋ฐฉ๋ฒ•๊ณผ Word2Vec์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด์—ˆ๋˜ ์˜ˆ์ธก ๊ธฐ๋ฐ˜์˜ ๋ฐฉ๋ฒ•๋ก  ๋‘ ๊ฐ€์ง€๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉ

    • ์นด์šดํŠธ ๊ธฐ๋ฐ˜๊ณผ ์˜ˆ์ธก ๊ธฐ๋ฐ˜์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• → Word2Vec์€ ์˜ˆ์ธก๋งŒ ์‚ฌ์šฉ
    • ์ž„๋ฒ ๋”ฉ ๋œ ์ค‘์‹ฌ ๋‹จ์–ด์™€ ์ฃผ๋ณ€ ๋‹จ์–ด ๋ฒกํ„ฐ์˜ ๋‚ด์ ์ด ์ „์ฒด ์ฝ”ํผ์Šค์—์„œ์˜ ๋™์‹œ ๋“ฑ์žฅ ํ™•๋ฅ ์ด ๋˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ
    • ํ•™์Šตํ•  ๋•Œ ๋™์‹œ ๋“ฑ์žฅ ํ–‰๋ ฌ์„ ๋”ฐ๋กœ ๊ณ„์‚ฐ ํ•ด์คŒ
    • ๋™์‹œ ๋“ฑ์žฅ ํ–‰๋ ฌ: ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋™์‹œ ๋“ฑ์žฅ ํšŸ์ˆ˜๋ฅผ ์นด์šดํŠธ๋ฅผ ํ•˜๊ณ  ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ–ˆ์„ ๋•Œ ๋‹ค๋ฅธ ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•  ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ 
    • ๋™์‹œ ๋“ฑ์žฅ ํ–‰๋ ฌ์„ ํ™œ์šฉํ•œ ์†์‹คํ•จ์ˆ˜
    4. fasttext
    • ์„œ๋ธŒ ์›Œ๋“œ๋ฅผ ๊ณ ๋ คํ•ด์„œ ํ•™์Šต ( ํ•˜๋‚˜์˜ ๋‹จ์–ด ์•ˆ์—๋„ ์—ฌ๋Ÿฌ ๋‹จ์–ด๋“ค์ด ์กด์žฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผ) (word2vec์™€ ๊ฐ™์€ ๊ตฌ์กฐ, subword ์œ ๋ฌด ์ฐจ์ด)
    • ex) apple, n=3์ธ ๊ฒฝ์šฐ, <ap, app, ppl, ple, le>, <apple>์œผ๋กœ ์ชผ๊ฐฌ → ์ดํ›„ ๋ฒกํ„ฐํ™” ์ง„ํ–‰ ํ›„, ๋ฒกํ„ฐ๊ฐ’๋“ค์˜ ์ดํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ

    → subwords๋กœ ํ‘œํ˜„ํ•˜๋ฉด oov ์—๋Ÿฌ๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด ์ ์–ด์ง.

    → ํ•™์Šต ๋•Œ ํฌํ•จ๋˜์ง€ ์•Š์€ ๋‹จ์–ด๋“ค์— ๋Œ€ํ•ด์„œ๋„ subwords์˜ ๋ฒกํ„ฐ๊ฐ’์„ ํ™œ์šฉํ•˜๋ฉด ์˜๋ฏธ์ ์œผ๋กœ ์œ ์‚ฌํ•œ ๋‹จ์–ด๋ผ๋ฆฌ ๊ณต๊ฐ„์ƒ ๊ทผ์ ‘ํ•œ ์œ„์น˜ ๊ฐ’์„ ๊ฐ™๊ฒŒ ๋จ.

     

    • ์ด์ : ex birthplace(์ถœ์ƒ์ง€)๋ผ๋Š” ๋‹จ์–ด๋ฅผ ํ•™์Šตํ•˜์ง€ ์•Š์€ ์ƒํƒœ๋ผ๊ณ  ๊ฐ€์ •
    • ๋งŒ์•ฝ ๋‹ค๋ฅธ ๋‹จ์–ด์—์„œ birth์™€ place๋ผ๋Š” ๋‚ด๋ถ€ ๋‹จ์–ด๊ฐ€ ์กด์žฌํ–ˆ๋‹ค๋ฉด fasttext๋Š” birthplace์˜ ๋ฒกํ„ฐ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Œ.

    → word2vec๊ณผ glove์˜ ๋‹ค๋ฅธ ์ ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Œ.

    5. BERT
    • ์–‘๋ฐฉํ–ฅ์„ฑ์„ ํ™œ์šฉ
    • ์ด์ „ ๋ชจ๋ธ๋“ค์˜ ๊ฒฝ์šฐ, ๋งฅ๋ฝ์„ ์™ผ→์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ง„ํ–‰ํ•ด ๋ฌธ๋งฅ ํŒŒ์•….
    • ex)
    • ์‚ฌ์ „ ํ•™์Šต๋œ ๋Œ€์šฉ๋Ÿ‰์˜ ๋ ˆ์ด๋ธ”๋ง ๋˜์ง€ ์•Š๋Š”(unlabeled) ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ(Language Model)์„ ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ํ† ๋Œ€๋กœ ํŠน์ • ์ž‘์—…( ๋ฌธ์„œ ๋ถ„๋ฅ˜, ์งˆ์˜์‘๋‹ต, ๋ฒˆ์—ญ ๋“ฑ)์„ ์œ„ํ•œ ์‹ ๊ฒฝ๋ง์„ ์ถ”๊ฐ€ํ•˜๋Š” ์ „์ด ํ•™์Šต ๋ฐฉ๋ฒ•.
    • pre-training์ด ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ
    • ์–ด๋–ค ๋ฌธ์ œ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์„๊นŒ?
      1. Question and Answering→ ์ฃผ์–ด์ง„ ์งˆ๋ฌธ์— ์ ํ•ฉํ•˜๊ฒŒ ๋Œ€๋‹ตํ•ด์•ผ ํ•˜๋Š” ๋งค์šฐ ๋Œ€ํ‘œ์ ์ธ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. KoSQuAD, Visual QA etc.
      1. Machine Translation→ ๊ตฌ๊ธ€ ๋ฒˆ์—ญ๊ธฐ, ๋„ค์ด๋ฒ„ ํŒŒํŒŒ๊ณ ์ž…๋‹ˆ๋‹ค.
      1. ๋ฌธ์žฅ ์ฃผ์ œ ์ฐพ๊ธฐ ๋˜๋Š” ๋ถ„๋ฅ˜ํ•˜๊ธฐ→ ์—ญ์‹œ๋‚˜ ๊ธฐ์กด NLP์—์„œ๋„ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋Š” ๋‹น์—ฐํžˆ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      1. ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๋Œ€ํ™”ํ•˜๊ธฐ→ ์ด์™€ ๊ฐ™์€ ์ฃผ์ œ์—์„  ๋งค์šฐ ๊ฐ•๋ ฅํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
    • ์„ธ๊ฐ€์ง€ ์ž„๋ฒ ๋”ฉ ์‚ฌ์šฉ
      1. token embedding→ ๋‘๊ฐ€์ง€ ํŠน์ˆ˜ ํ† ํฐ(CLS, SEP)๋ฅผ ์‚ฌ์šฉํ•ด ๋ฌธ์žฅ ๊ตฌ๋ณ„.→ SEP(special separator token)์„ ์‚ฌ์šฉํ•ด ์ฒซ๋ฒˆ ์งธ ๋ฌธ์žฅ ๋ฐ ๋‘๋ฒˆ ์งธ ๋ฌธ์žฅ ๊ตฌ๋ณ„.
      2. → ๋ฌธ์žฅ ์ฒซ๋ฒˆ์งธ ํ† ํฐ์œผ๋กœ ์‚ฝ์ž…
      1. segment embedding→ ์—ฌ๊ธฐ์— segment embedding์„ ๋”ํ•ด ์•ž ๋’ค ๋ฌธ์žฅ์„ ์‰ฝ๊ฒŒ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์คŒ.
      2. → ๊ฐ ๋ฌธ์žฅ์˜ ๋์— ์‚ฝ์ž…๋จ.
      1. position embedding→ ๊ฐ ํ† ํฐ์˜ ์œ„์น˜๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ์ž„๋ฒ ๋”ฉ
      2. ⇒ ์ตœ์ข…์ ์œผ๋กœ ์„ธ ๊ฐ€์ง€ ์ž„๋ฒ ๋”ฉ์„ ๋”ํ•œ ์ž„๋ฒ ๋”ฉ์„ input์œผ๋กœ ํ™œ์šฉ
    • ํ•™์Šต ๋ฐฉ๋ฒ•
      1. masked language model
        • ๋ฌธ์žฅ์—์„œ ๋‹จ์–ด ์ค‘ ์ผ๋ถ€๋ฅผ mask ํ† ํฐ์œผ๋กœ ๋ฐ”๊ฟ” ๊ฐ€๋ ค์ง„ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธก
      1. next sentence model
        • ๋ฌธ์žฅ์ด ์˜ฌ๋ฐ”๋ฅธ ๋ฌธ์žฅ์ธ์ง€ ๋งž์ถ”๋Š” ๋ฌธ์ œ.
        • ์ด๋ฅผ ํ†ตํ•ด ๋‘ ๋ฌธ์žฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ๋จ.
        • ๋ฌธ์žฅ A์™€ B๋ฅผ ์ด์–ด ๋ถ™์ด๋Š”๋ฐ, B๋Š” 50% ํ™•๋ฅ ๋กœ ๊ด€๋ จ ์žˆ๋Š” ๋ฌธ์žฅ(IsNext label) ๋˜๋Š” ๊ด€๋ จ ์—†๋Š” ๋ฌธ์žฅ(NotNext label)์„ ์‚ฌ์šฉํ•จ.

      → ์ด๋Ÿฐ ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋œ BERT๋ฅผ fine-tuningํ•  ๋•Œ๋Š” (Classification task๋ผ๋ฉด)Image task์—์„œ์˜ fine-tuning๊ณผ ๋น„์Šทํ•˜๊ฒŒ class label ๊ฐœ์ˆ˜๋งŒํผ์˜ output์„ ๊ฐ€์ง€๋Š” Dense Layer๋ฅผ ๋ถ™์—ฌ์„œ ์‚ฌ์šฉํ•จ.

part 5-3 models
  • 1. RNN
  • 2. LSTM
  • 3. Bi-RNNs
  • 4. GRUS
  • 5. Attention Machanism
  • 6. BERT

 

 

728x90
๋ฐ˜์‘ํ˜•