๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[๋…ผ๋ฌธ] Paper Review

Bert

by ์ œ๋ฃฝ 2023. 7. 5.
728x90
๋ฐ˜์‘ํ˜•

 

 

 

1. Intro
  • ๊ธฐ์กด์— GPT๋‚˜ ์•ž์˜ ๋ชจ๋ธ์—์„œ๋Š” ๋‹ค ํ•œ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์›€์ง์ด๋Š”(์™ผ→์šฐ)๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ์—ˆ์Œ
  • ํ•˜์ง€๋งŒ ์–˜๋„ค๋“ค์€ ๊ฒฐ๊ตญ ์˜ˆ์ธกํ•  ๋•Œ๋Š” ๋‹จ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์ฝ์–ด์„œ ์˜ˆ์ธกํ•ด์•ผ ํ•˜๊ธฐ์— ์ด์ „ ํ† ํฐ๋งŒ ์ฐธ์กฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌ ⇒ ๋‹ค์Œ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ์˜ˆ์ธก์ด๋‚˜ ๋ฌธ์žฅ ๋นˆ์นธ์— ๋Œ€ํ•œ ์˜ˆ์ธก์˜ ๊ฒฝ์šฐ ์น˜๋ช…์ ์ž„.
  • ๊ทธ๋ž˜์„œ bERT๋ฅผ ํ†ตํ•ด ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ ค๊ณ  ํ•˜๋Š” ๊ฒƒ์ž„.
2. Overall architecture
  • ํŠน์ • ๊ณผ์ œ๋ฅผ ํ•˜๊ธฐ ์ „ ์‚ฌ์ „ ํ›ˆ๋ จ ์ž„๋ฒ ๋”ฉ(embedding)์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ์ข‹๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด๋ชจ๋ธ
  • ์‚ฌ์ „ ํ›ˆ๋ จ ์–ธ์–ด ๋ชจ๋ธ์ž„(pre-training)
  • unlabeled data๋กœ๋ถ€ํ„ฐ pre-train ์ง„ํ–‰ ํ•œ ํ›„์—, labeled data๋ฅผ ๊ฐ€์ง€๊ณ  fine-tuning ์ง„ํ–‰ํ•˜๋Š” ๋ชจ๋ธ
  • encoder ๋ชจ๋ธ๋งŒ ๊ฐ€์ ธ๋‹ค ์”€

BERT๊ฐ€ ๋†’์€ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋˜ ๊ฒƒ์€, ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ ์„ ๋งŒ๋“  ํ›„, ๋ ˆ์ด๋ธ”์ด ์žˆ๋Š” ๋‹ค๋ฅธ ์ž‘์—…(Task)์—์„œ ์ถ”๊ฐ€ ํ›ˆ๋ จ๊ณผ ํ•จ๊ป˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์žฌ์กฐ์ •ํ•˜์—ฌ ์ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ!

BERT๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ์ผ๋ฐ˜ ๋ชจ๋ธ๊ณผ์ •์€,

: ๋ถ„๋ฅ˜๋ฅผ ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐ → LSTM, CNN ๋“ฑ์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ → ๋ถ„๋ฅ˜

BERT๋ฅผ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ๋ง ๊ณผ์ •,

: ๊ด€๋ จ ๋Œ€๋Ÿ‰ ์ฝ”ํผ์Šค(๋ฌธ์žฅ) → BERT → ๋ถ„๋ฅ˜๋ฅผ ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐ → LSTM, CNN ๋“ฑ์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ → ๋ถ„๋ฅ˜

๋Œ€๋Ÿ‰์˜ ์ฝ”ํผ์Šค๋ฅผ Encoder๊ฐ€ ์ž„๋ฒ ๋”ฉํ•˜๊ณ (์–ธ์–ด ๋ชจ๋ธ๋ง), ์ด๋ฅผ ์ „์ดํ•˜์—ฌ ํŒŒ์ธํŠœ๋‹ํ•˜๊ณ  Task๋ฅผ ์ˆ˜ํ–‰.(NLP Task)


  1. input ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ์Œ
  1. ์ด๋•Œ, embedding์ด 3๊ฐœ๊ฐ€ ์žˆ์Œ (token, segment, position)⇒ token์˜ ๊ฒฝ์šฐ ํ† ํฐ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์ฃผ๋Š” ( bert์˜ ๊ฒฝ์šฐ๋Š” ing ๋‹จ์œ„๊นŒ์ง€๋กœ๋„ ๋‚˜๋ˆ”)⇒ position์€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์œ„์น˜ ์ •๋ณด ์คŒ
  2. ⇒ ์–˜๋„ค๋“ค์„ ๋‹ค ๋”ํ•ด์ค€ ๊ฐ’์ด input์œผ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ๋จ
  3. ⇒๊ทธ ๋‹ค์Œ segment๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ๋ฌธ์žฅ ๊ตฌ๋ถ„์„ ์œ„ํ•ด ํ•ด์คŒ(์–˜๋Š” A๋ฌธ์žฅ์— ํ•ด๋‹นํ•˜๋Š” ํ† ํฐ์ด๊ณ , ์–˜๋Š” B๋ฌธ์žฅ์— ํ•ด๋‹นํ•˜๋Š” ํ† ํฐ์ด๋‹ค!)
  1. pre-training์„ ์ง„ํ–‰ํ•˜๋Š”๋ฐ ๋‘ ๊ฐ€์ง€์˜ ํ•™์Šต์„ ๋™์‹œ์— ์ง„ํ–‰ํ•จ
  1. 1) MLM⇒ input์˜ ์ผ์ • ๋น„์œจ์„ ๋งˆ์Šคํ‚นํ•˜๊ณ  ๋งˆ์Šคํ‚น ๋œ ํ† ํฐ์„ ์˜ˆ์ธกํ•จ⇒ ์–˜๋Š” ๋ฌธ์žฅ๊ณผ ๋ฌธ์žฅ ๊ฐ„์˜ ๊ด€๊ณ„๊ฐ€ ์„ฑ๋ฆฝ๋˜๋Š”์ง€ ์•„๋‹Œ์ง€์˜ ์—ฌ๋ถ€๋ฅผ ์•Œ๊ธฐ ์œ„ํ•ด ์ง„ํ–‰ํ•จ
  2. 2) NSP
  1. Fine-tuning์„ ํ•ด์ค€๋‹ค. ์ด๋•Œ BERT์˜ pre-trained ๋œ ๋ชจ๋ธ์„ ๊ทธ๋ƒฅ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์˜ด(์ดˆ๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ™์Œ) ์–˜๋Š” labeled ๋ฐ์ดํ„ฐ ์‚ฌ์šฉํ•จ. ๋‹ค ๋ชจ๋ธ ์ž์ฒด๋Š” ๊ฐ™์ง€๋งŒ, ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ layer๊ฐ€ ๋ญ๋ƒ์— ๋”ฐ๋ผ์„œ output์ด ๋‹ฌ๋ผ์ง€๊ฒŒ ๋จ
  1. ๋ชจ๋ธ ํ•™์Šต์‹œ์ผœ์„œ ๊ฒฐ๊ณผ๊ฐ’ ๋„์ถœ!
3. Input Representations
  • Token embeddings⇒ ์šฐ๋ฆฌ๊ฐ€ ์•„๋Š” ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ
  • ⇒ ํ† ํฐ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์ค€๋‹ค
  • Segment Embeddings⇒ ๋‘ ๊ฐœ์˜ ๋ฌธ์žฅ์„ ๊ตฌ๋ถ„ํ•ด์ฃผ๊ธฐ ์œ„ํ•œ ์ž„๋ฒ ๋”ฉ ⇒ ์–œ A๋ฌธ์žฅ์— ํ•ด๋‹น, ์–˜๋Š” B๋ฌธ์žฅ์— ํ•ด๋‹น
  • Position Embeddings⇒ ์œ„์น˜ ์ •๋ณด ํ•™์Šต

⇒ ๋‹ค ๋”ํ•ด์คŒ

4. Pre-training
Task 1 : (์ฒซ๋ฒˆ์งธ ๋น„์ง€๋„ ํ•™์Šต) Masked LM
  • ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ฒฝ์šฐ ๋‹จ์–ด๋ฅผ input์œผ๋กœ ๋„ฃ์œผ๋ฉด ๊ทธ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ output์œผ๋กœ ๋‚˜์˜ค๋„๋ก ์˜ˆ์ธกํ–ˆ์ง€๋งŒ, BERT์˜ ๊ฒฝ์šฐ ํ•ด๋‹น ๋‹จ์–ด๋ฅผ mask ์ฒ˜๋ฆฌํ•˜๊ณ  ๊ทธ ๋‹จ์–ด๊ฐ€ ๋ฌด์—‡์ธ์ง€๋ฅผ ์˜ˆ์ธก.
  • Masked LM์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ :⇒ ์–‘๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰์‹œํ‚ค๋Š”๋ฐ ์–‘๋ฐฉํ–ฅ์„ฑ์„ ์ถ”๊ตฌํ•˜๊ฒŒ ๋˜๋ฉด ๊ฒฐ๊ตญ ๊ฐ„์ ‘์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋ ค๋Š” ๋‹จ์–ด๋ฅผ ์ฐธ์กฐํ•  ์ˆ˜ ๋ฐ–์— ์—†๊ฒŒ ๋จ. (์•ž๋’ค ์™”๋‹ค ๊ฐ”๋‹ค ํ•˜๊ธฐ ๋•Œ๋ฌธ์—)⇒ ์ „์ฒด ํ† ํฐ์˜ 15%๋ฅผ ๋ฌด์ž‘์œ„๋กœ mask ์ฒ˜๋ฆฌํ•จ.⇒ ๋”ฐ๋ผ์„œ, pre-train ๊ณผ์ •์—์„œ๋Š” ํšจ์œจ์ ์ผ์ง€ ๋ชฐ๋ผ๋„ fine-tuning ์ค‘์—๋Š” mask ํ† ํฐ์ด ์—†์Œ. (mask์˜ ๊ฒฝ์šฐ, pre-trained model์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ ์‚ฌ์šฉ) ๊ทธ๋ž˜์„œ pre-training๊ณผ fine-tuning ์‚ฌ์ด์— ๋ถˆ์ผ์น˜ ๋งŒ๋“ค์–ด๋ƒ„
    ⇒ ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋‹จ์ˆœ mask๋กœ๋งŒ ์ฒ˜๋ฆฌํ•ด์„œ pre-trained ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋‹ค๋ฅธ ์˜ˆ์ œ๋„ ๋„ฃ๊ณ , ์›๋ž˜ ๊ฐ’๋„ ๋„ฃ๊ณ  ์ด๋ ‡๊ฒŒ ์ฒ˜๋ฆฌ๋ฅผ ํ•˜๋ฉด ๋‹น์—ฐํžˆ ๋” ์ž˜ ์˜ˆ์ธกํ•˜๊ฒŒ ๋  ๊ฒƒ์ž„.
  • ⇒ ์ด๋Ÿฐ์‹์œผ๋กœ mask ํ† ํฐ์ด ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ loss๋ฅผ ํ™œ์šฉํ•ด์„œ ์›๋ž˜ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šตํ•จ.
  • ⇒ ๊ทธ๋ž˜์„œ ์ „์ฒด 15%๋ฅผ mask๋กœ ์น˜ํ™˜ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ 15% ์ค‘์—์„œ 80% mask๋กœ ์น˜ํ™˜ํ•˜๊ณ , 10%๋Š” ๋žœ๋คํ•œ ํ† ํฐ์œผ๋กœ ์น˜ํ™˜ํ•˜๊ณ , ๋‚˜๋จธ์ง€๋Š” 10%์˜ ํ† ํฐ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ.
  • ⇒ ํ•˜์ง€๋งŒ fine-tuning์—์„œ๋Š” ์ด mask ํ† ํฐ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ → pre-training์—์„œ๋งŒ ํ™œ์šฉ
  • ⇒ ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์ผ์ • token์„ mask ์ฒ˜๋ฆฌํ•ด๋ฒ„๋ฆผ
Task 2: (๋‘๋ฒˆ์งธ ๋น„์ง€๋„ ํ•™์Šต) NSP(Next Sentence Prediction)
  • ์ € ์œ„์—๊บผ์™€ ๋™์‹œ์— ํ›ˆ๋ จ์ด ์ง„ํ–‰๋จ.
  • ๋‘ ๊ฐœ์˜ ๋ฌธ์žฅ์„ input์œผ๋กœ ๋„ฃ๊ณ  ํ•ด๋‹น ๋ฌธ์žฅ์ด ๋‹ค์Œ ๋ฌธ์žฅ์ธ์ง€ ์•„๋‹Œ์ง€๋„ ํ•™์Šต์‹œํ‚ด.
  • NSP๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ :⇒ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต(QA) or ๋ฌธ๋งฅ์žˆ๋Š” ๋ฌธ์žฅ๋“ค(์ผ๋ฐ˜์ ์ธ ํ๋ฆ„์˜ ๋ฌธ์žฅ) ์˜ task๋“ค์€ ๋‘ ๋ฌธ์žฅ(์•ž๋’ค) ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์ดํ•ด ํ•ด์•ผ ํ•จ.⇒ ๋‘ ๋ฌธ์žฅ A,B๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋„ฃ๊ณ , B๋ฌธ์žฅ์˜ 50%์€ A๋ฌธ์žฅ ๋‹ค์Œ์œผ๋กœ ๋„ฃ๊ณ , ๋‚˜๋จธ์ง€ 50% ๋ถ€๋ถ„์€ B๋ž‘ ๊ด€๋ จ์—†๋Š” ์ž„์˜์˜ ๋ฌธ์žฅ์„ ๋„ฃ์Œ. ์ด๋•Œ B๊ฐ€ ๋‹ค์Œ๋ฌธ์žฅ์ธ ๊ฒฝ์šฐ (ISNEXT), ๊ด€๋ จ์—†๋Š” ๋ฌธ์žฅ์˜ ๊ฒฝ์šฐ (NOTNEXT)๋ผ๊ณ  ๋ถ„๋ฅ˜ํ•จ.
  • ⇒ ์ด ๊ฒฝ์šฐ, LM์„ ํ†ตํ•ด์„œ ํ•™์Šตํ•˜๊ธฐ ์‰ฝ์ง€ ์•Š์•„์„œ NSP(๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก)์— ๋Œ€ํ•ด์„œ๋„ ํ•จ๊ป˜ ํ•™์Šต์‹œํ‚ด.
5. Fine-tuning
  • ์ด ์นœ๊ตฌ์˜ ๊ฒฝ์šฐ, ์‚ฌ์ „ํ•™์Šต๋ชจ๋ธ(pre-trained model์ธ ๋ฒ„ํŠธ ๋ชจ๋ธ)์€ ๊ฐ™์Œ.
  • ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ดˆ๊นƒ๊ฐ’์ด ๊ฐ™๋‹ค๊ณ  ๋งํ•  ์ˆ˜ ์žˆ์Œ
  • ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ์— ๋Œ€ํ•œ layer์— ๋”ฐ๋ผ์„œ ๋‹ฌ๋ผ์ง

ex) ๋ถ„๋ฅ˜ ๋ฌธ์ œ์˜ ๊ฒฝ์šฐ, ๋ถ„๋ฅ˜ํ•˜๊ณ  ์‹ถ์€ ๊ฐฏ์ˆ˜(K)์— ๋”ฐ๋ผ classification layer์„ ๋ถ™์—ฌ์คŒ


  1. ๋‘ ๊ฐœ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ๊ด€๊ณ„ ๋ถ„๋ฅ˜(Sentence Pair Classification)ex) ์ƒํ’ˆ ๋ฌธ์˜ ๊ฐ™์€ ๊ธ€๋“ค์„ ๋ฌถ์–ด์ฃผ๋Š” ๋ฐ์— ์“ฐ์ž„⇒ ์„œ๋กœ์˜ ์ฃผ์žฅ์„ ๋ณด์™„ํ•˜๋Š”์ง€ ์ƒ์ถฉํ•˜๋Š”์ง€ ์ค‘๋ฆฝ์ธ์ง€๋„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ
  2. ์˜์—ญ ์˜ˆ์ธก ⇒ ์˜ˆ์‹œ์— ๋‚˜์˜จ ๋‘ ๋ฌธ์žฅ๊ณผ ๊ฐ™์ด ๋‹ค๋ฅธ ๋‹จ์–ด๊ฐ€ ์“ฐ์˜€์ง€๋งŒ ๊ฐ™์€ ๋œป์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€ ์•„๋‹Œ์ง€๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Œ
  1. ๋ฌธ์žฅ ํ•˜๋‚˜์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜(Single Sentence Classification)ex) ์•…ํ”Œ์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ํ…Œ์Šคํฌ ⇒ ํ•ด๋‹น ํ…์ŠคํŠธ๊ฐ€ ์•…ํ”Œ์ธ๊ฐ€ ์•„๋‹Œ๊ฐ€๋ฅผ ๋ถ„๋ฅ˜ํ•จ
  1. ๋ฌป๊ณ  ๋‹ตํ•˜๊ธฐ (Question & Answering) ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต ์ถœ๋ ฅex) ์งˆ๋ฌธ๊ณผ ๋ณธ๋ฌธ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๋ณธ๋ฌธ ์†์— ๋‹ต์ด ์žˆ๋Š” ๋ถ€๋ถ„์„ ์˜ˆ์ธกํ•จ
  2. ⇒ "๋ฐ•์ง€์„ฑ์ด ๋›ด EPL ํด๋Ÿฝ์€?"์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ณธ๋ฌธ ์ค‘์— "... PSV ์—์ธํŠธํ˜ธ๋ฒˆ๊ณผ ์ž‰๊ธ€๋žœ๋“œ ํ”„๋ฆฌ๋ฏธ์–ด๋ฆฌ๊ทธ์˜ ๋งจ์ฒด์Šคํ„ฐ ์œ ๋‚˜์ดํ‹ฐ๋“œ, ํ€ธ์Šค ํŒŒํฌ ๋ ˆ์ธ์ €์Šค์—์„œ ํ™œ๋™ํ•˜์˜€๋‹ค...." ⇒ ๋ฐ‘์ค„์ด ๊ทธ์–ด์ง„ ๋ถ€๋ถ„์„ ์˜ˆ์ธกํ•จ.
  1. ๋ฌธ์žฅ ๋‚ด ๋‹จ์–ด ๋ผ๋ฒจ๋ง(Single Sentence Tagging Task) - ํ† ํฐ taggingex) ์ด ๋‹จ์–ด๊ฐ€ ๋ช…์‚ฌ์ธ์ง€ ํ˜•์šฉ์‚ฌ์ธ์ง€,,(ํ˜•ํƒœ์†Œ๋ถ„์„) ๊ฐ ํ† ํฐ์— ๋Œ€ํ•ด ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ.ex) ๊น€ ⇒ ์‹œ์ž‘ , ์ง€ ⇒ ์ค‘๊ฐ„, ์€ ⇒ ๋
  2. ⇒ ๋˜๋Š” ๊ฐœ์ฒด๋ช… ์ธ์‹ (named entity recognition) ⇒ ์ด๋ฆ„์˜ ์‹œ์ž‘, ์ค‘๊ฐ„, ๋์„ ๋ผ๋ฒจ๋กœ ์˜ˆ์ธก
5. BERT์— ์“ฐ์ด๋Š” Transfer Learning
  • BERT๋ฅผ ์จ๋จน๋Š”๋‹ค์˜ ์˜๋ฏธ:⇒ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•ด์„œ ๋งŒ๋“  BERT๋ผ๋Š” ๋ชจ๋ธ์— ์ถ•์•ฝ๋œ ์ง€์‹์„ ์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ์—๋‹ค๊ฐ€ ์ ์šฉํ•˜๋Š” ๊ฒƒ!
  • 1. ํ”ผ์ฒ˜ ๋ฝ‘๊ธฐ (Feature Extraction)⇒ Bag of word vector ๋งˆ๋ƒฅ ๊ทธ๋ƒฅ ์ˆœ์„œ์— ๊ด€๋ จ์—†์ด BERT์—์„œ ๋‚˜์˜จ vector ๊ฐ’๋“ค์„ ๋‹ค๋ฅธ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ input์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ
  1. ์žฌํ•™์Šต (Finetuning)
  • ๋ฐ์ดํ„ฐ๊ฐ€ ์ข€ ๋” ๋งŽ์ด ์žˆ์„ ๊ฒฝ์šฐ ์‚ฌ์šฉํ•จ

 

728x90
๋ฐ˜์‘ํ˜•

'Deep Learning > [๋…ผ๋ฌธ] Paper Review' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

Seq2Seq  (0) 2023.07.05
U-Net  (0) 2023.07.05
VIT [AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE]  (0) 2023.07.05
RetinaNet  (0) 2023.07.05
GPT-1  (0) 2023.07.05