๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[๋…ผ๋ฌธ] Paper Review

Transformer

by ์ œ๋ฃฝ 2023. 7. 6.
728x90
๋ฐ˜์‘ํ˜•

 

 

 

1. overall architecture
2. overall procedure
  • encoder์˜ ๊ฒฝ์šฐ
    1. input ๋ฌธ์žฅ์„ ๋„ฃ๊ณ  embedding ๋ฒกํ„ฐ๋กœ ๋ฐ”๊ฟ”์คŒ
    1. positional encoding์„ ๋”ํ•ด์ฃผ์–ด ๊ฐ ๋‹จ์–ด์˜ ์ˆœ์„œ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋ถ€์—ฌํ•จ.
    1. ๋”ํ•ด์„œ multi-head attention์„ ์ˆ˜ํ–‰
    1. ์ด ๋•Œ, ๊ฐ™์€ embedding์˜ ๊ฐ’์„ Q,K,V๋กœ ๋ถ„๋ฐฐ. (Q,K,V)๋Š” ์„œ๋กœ ๊ฐ™์€ ๊ฐ’.
    1. ex) head๊ฐ€ 3๊ฐœ๋ฉด, ๊ฐ Q,K,V์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ€์ค‘์น˜ 3๊ฐœ์”ฉ ์กด์žฌํ•จ (Linear) ⇒ ์ด 9๊ฐœ์˜ ๋‹ค๋ฅธ ๊ฐ’์ด ์ƒ๊ธฐ๊ฒŒ ๋จ
    1. ์ด๋•Œ, V๋Š” encoding์˜ embedding์—์„œ ๋‚˜์˜จ ๊ฐ’์— ๊ฐ€์ค‘์น˜ ๊ณฑํ•œ ๊ฒƒ์„ ์˜๋ฏธ.
    1. ํ•˜๋‚˜์˜ head๋‹น Q์™€ K๋ฅผ ๊ณฑํ•ด์„œ softmax ํ•จ์ˆ˜๋ฅผ ๊ฑฐ์นœ ํ›„, V๊ฐ’๊ณผ ๊ณฑํ•จ
    1. ์ด ๊ฐ๊ฐ ๊ณฑํ•œ 3๊ฐœ์˜ head ๊ฐ’๋“ค์„ concatํ•˜๊ณ  linear๋ฅผ ํ†ตํ•ด ๊ฐ’์„ ๋ƒ„.
    1. 7๋ฒˆ์— ๋Œ€ํ•œ ๊ฐ’๊ณผ 2๋ฒˆ์— ๋Œ€ํ•œ ๊ฐ’์„ ๋”ํ•œ ํ›„ ์ •๊ทœํ™” ํ•จ.
    1. ์ดํ›„ ์ˆœ์ „ํŒŒํ•˜๊ณ  ๋˜ 8๋ฒˆ ๊ฐ’๊ณผ ์ˆœ์ „ํŒŒํ•œ ๊ฐ’์„ ๋”ํ•˜๊ณ  ์ •๊ทœํ™”
    1. ๋ฐ˜๋ณต

  • decoder์˜ ๊ฒฝ์šฐ
    1. ํ•™์Šต ์‹œ) ์ •๋‹ต ๋ฌธ์žฅ์„ embedding์œผ๋กœ ๋„ฃ์Œ. positional encoding์„ ๋”ํ•ด์„œ ๊ฐ ๋‹จ์–ด์˜ ์ˆœ์„œ์— ๋Œ€ํ•œ ์ •๋ณด ๋ถ€์—ฌ.
    1. ๋”ํ•˜๊ณ , encoder์™€ ๊ฐ™์ด ๊ฐ Q,K,V ์ƒ์„ฑ.
    1. ๋˜‘๊ฐ™์ด Q์™€ K๋ฅผ ๊ณฑํ•จ
    1. mask๋ฅผ ๊ฑฐ์น˜๊ฒŒ ๋˜๋Š”๋ฐ, ์–˜๋Š” decoder embedding์œผ๋กœ ๋ฐ›์€ ๋’ท๋ถ€๋ถ„์˜ ๋‹จ์–ด๋“ค์€ 0์œผ๋กœ ๋งŒ๋“ค์–ด์คŒ.
    1. ๊ทธ ๋‹จ์–ด๋งŒ ๋ฝ‘์€ ๊ฐ’๊ณผ ๊ทธ ์•ž์˜ ๋‹จ์–ด๋“ค๋งŒ softmax๋ฅผ ํ†ตํ•ด ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , V๊ฐ’๊ณผ ๊ณฑํ•ด์คŒ
    1. ๊ฐ๊ฐ ๋‚˜์˜จ 3๊ฐœ์˜ head ๊ฐ’๋“ค์„ concatํ•˜๊ณ  linear์„ ํ†ตํ•ด ๊ฐ’ ์ถ”์ถœ
    1. 6๋ฒˆ์˜ ๊ฐ’๊ณผ 1๋ฒˆ์˜ ๊ฐ’์„ ๋”ํ•˜๊ณ  ์ •๊ทœํ™”
    1. ๋‘๋ฒˆ์งธ multi head attention์˜ ๊ฒฝ์šฐ, Q๋Š” 7๋ฒˆ์˜ ๊ฐ’์„ ํ†ตํ•ด ๋งŒ๋“ค๊ณ , K์™€ V๋Š” encoder์˜ ๋งˆ์ง€๋ง‰์—์„œ ๋‚˜์˜จ ๊ฐ’์„ ์‚ฌ์šฉํ•จ.
    1. ์ดํ›„, ๋˜‘๊ฐ™์ด K์™€ Q ๊ณฑํ•˜๊ณ  softmax ํ†ตํ•ด ํ™•๋ฅ  ๊ตฌํ•ด์„œ V๊ฐ’๊ณผ ๊ณฑํ•จ.
    1. ๋˜‘๊ฐ™์ด ๋”ํ•˜๊ณ  ์ •๊ทœํ™”
    1. FC layer๊ฐ”๋‹ค๊ฐ€ ๋˜ FC ์ „์˜ ๊ฐ’๊ณผ ์ดํ›„ ๊ฐ’์„ ๋”ํ•ด์ฃผ๊ณ  ์ •๊ทœํ™”.
    2. ๊ทธ ๋‚˜์˜จ ์•„์›ƒํ’‹ ๊ฐ’์„ ๋‹ค์‹œ ์ฒซ๋ฒˆ์งธ masked ๊ณ„์ธต์œผ๋กœ ใ„ฑใ„ฑ
    3. ์ฒซ๋ฒˆ์งธ ์•„์›ƒํ’‹๊ณผ decoder embedding ๊ฐ’์„ ํ™œ์šฉํ•ด ๋ฐ˜๋ณต.

1. Embedding
  • input ๋ฌธ์žฅ์œผ๋กœ ๋“ค์–ด์˜จ ์• ๋“ค์„ ์›ํ•ซ๋ฒกํ„ฐ๋กœ ๋ฐ”๊ฟ”์คŒ
  • ์ดํ›„ ์ ์ ˆํ•œ ํฌ๊ธฐ๋กœ word embedding ์ง„ํ–‰ (์œ ์‚ฌํ•œ ๋‹จ์–ด๋ผ๋ฆฌ๋Š” ์œ ์‚ฌํ•œ ๊ฐ’์œผ๋กœ)
2. Positional Encoding
  • ์ˆœ์„œ ์ •๋ณด๋ฅผ ๊ฐ–๋„๋ก ํ•˜๋Š” ๋ฒกํ„ฐ.
  • word embedding ๊ณ„์ธต๊ณผ ๊ฐ™์€ ํฌ๊ธฐ์˜ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ ํ›„ ๋”ํ•ด์คŒ.
3-1. Encoder: Self-Attention(Multi-Attention)
  • postional encoding์„ ๋”ํ•ด์ค€ ๊ฐ ๋‹จ์–ด์˜ ๋ฒกํ„ฐ(1x4)์™€ ๊ฐ๊ฐ์˜ Q,K,V์˜ ๊ฐ€์ค‘์น˜(4x2๋ผ๊ณ  ๊ฐ€์ •)๋ฅผ ๊ณฑํ•จ. ⇒ ๊ฐ๊ฐ์˜ ๋‹ค ๋‹ค๋ฅธ Q,K,V๊ฐ€ ๋งŒ๋“ค์–ด์งˆ ๊ฒƒ์ž„ (1x2) ํฌ๊ธฐ
  • Q,K,V์˜ ๊ฐ’์„ ๋งŒ๋“ค๊ณ , Q์™€K๋ผ๋ฆฌ์˜ ๋‚ด์ ๊ณฑ์„ ํ•ด์คŒ.
  • ์ดํ›„ scaling ํ•ด์ฃผ๊ณ , Softmax ํ•จ์ˆ˜์— ๋„ฃ์œผ๋ฉด ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๊ฐ€ ๋งŒ๋“ค์–ด์ง
  • ์ด ๋‹จ์–ด์˜ ๊ฐ€์ค‘์น˜ ๊ฐ’๋“ค๊ณผ V๊ฐ’์„ ๊ณฑํ•ด์คŒ ⇒ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ output(z) ์ƒ์„ฑ.
  • ๋ฒกํ„ฐ๋กœ ๋‚ด์ ๊ณฑ์„ ํ‘œํ˜„ํ•˜๋ฉด ์ €๋ ‡๊ฒŒ ๋‚˜์˜ด.
  • head ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ๊ฐ ํ•ด๋‹นํ•˜๋Š” ๊ฐ€์ค‘์น˜ ๊ฐœ์ˆ˜๊ฐ€ ์ƒ๊ธฐ๊ฒŒ ๋จ ⇒ ์„œ๋กœ ๋น„์Šทํ•œ ๊ฐ’๋“ค์˜ ๊ฐ€์ค‘์น˜๋“ค์ด ๋งŒ๋“ค์–ด์ง€๊ธฐ์— ๊ฒฐ๊ตญ, ๊ฐ head์— ํ•ด๋‹นํ•˜๋Š” z ๋ฒกํ„ฐ๋„ ๊ฐ’์ด ๋‹ค ๋น„์Šท๋น„์Šทํ• ๊ฑฐ์ž„⇒ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋ฅผ ์“ฐ์ง€๋งŒ ๋‹ค๋ฅธ ๊ฐ€์ค‘์น˜๋ฅผ ๋„ฃ์–ด ๋‹ค์–‘์„ฑ ๋ฐ˜์˜์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.(ํ•„ํ„ฐ์™€ ๊ฐ™์€ ์—ญํ• )
  • head๊ฐ€ 8๊ฐœ์ด๋ฏ€๋กœ 8๊ฐœ์˜ output์ด ๋‚˜์˜ค๊ณ , ์ฒ˜์Œ embedding ๋ฒกํ„ฐ ํฌ๊ธฐ์™€ ๋งž์ถฐ์ฃผ๊ธฐ ์œ„ํ•ด W0๋ฅผ ๊ณฑํ•ด์คŒ ( ๊ทธ๋ƒฅ ๋™์ผํ•œ ์ฐจ์›์œผ๋กœ ๋งŒ๋“ค์–ด์ฃผ๋Š” ์—ญํ• ๋กœ ์กด์žฌ)
3.2 Encoder: Add+Norm
  • z(output) ๊ฐ’๊ณผ ๋“ค์–ด๊ฐ€๊ธฐ ์ „์˜ embedding์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ ๋ฒกํ„ฐ๋ฅผ ๋”ํ•ด์คŒ.
3-3. Encoder: Feed Forward Network
  • ๊ธฐ์กด residual network(skip connection)์œผ๋กœ ๋‚˜์˜จ ๊ฐ’์„ fc layer์— ๋„ฃ์Œ.
  • ์ด๋•Œ FC์— ๋Œ€ํ•œ ํŒŒ๋ฆฌ๋ฏธํ„ฐ ๊ฐ’์€ ๋‹ค ๋™์ผํ•จ.
  • ํ†ต๊ณผํ•ด์„œ ๋‚˜์˜จ ๊ฐ’๊ณผ FC ํ†ต๊ณผ ์ „ ๊ฐ’์ด๋ž‘ ๋”ํ•ด์คŒ.

4-1. Decoder: Masked Self-Attention
  • ๋‚˜๋Š” ํ•™์ƒ์ด๋‹ค์˜ ๋ฒˆ์—ญ๋ณธ(์ •๋‹ต)์„ embedding ๊ณ„์ธต์— ๋„ฃ์Œ.
  • positional embedding๊ณผ ๋”ํ•ด์คŒ
  • encoder๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ํ•ด๋‹น Q,K,V์— ๋งž๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ๊ฐ ๊ณฑํ•ด์คŒ.
  • I ์— ๋Œ€ํ•œ output์„ ๋ฝ‘๊ณ ์ž ํ•  ๋•Œ ๊ทธ ๋’ค์— ์žˆ๋Š” ๋‹จ์–ด๋“ค์€ masked๋ฅผ ๊ฑฐ์ณ 0์œผ๋กœ ๋งŒ๋“ค์–ด์คŒ.
  • I์— ๋Œ€ํ•œ output ๋ฝ‘๊ณ  ๋‘๋ฒˆ์งธ am๋„ ๋งˆ์ฐฌ๊ฐ€์ง€
4-2. Decoder: Encoder-Decoder Attention
  • am์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜๋ฉด ์ด์ „ masked ๊ณ„์ธต์—์„œ ๋‚˜์˜จ I, am์˜ ๊ฐ’์„ ๊ฐ€์ ธ์˜ด. ⇒ Q๊ฐ’์ด ๋จ.
  • ๊ทธ๋‹ค์Œ encoder์—์„œ ๊ฐ€์žฅ ๋งˆ์ง€๋ง‰์— ๋‚˜์˜จ ๊ฒฐ๊ณผ๊ฐ’์„ ๊ฐ€์ ธ์˜ด. I์™€ am์— ๊ด€ํ•œ ์ •๋ณด์˜ ๋ฒกํ„ฐ๋ฅผ K๊ฐ’๊ณผ V๊ฐ’์œผ๋กœ ์”€ (K,V)๊ฐ’์€ ๊ฐ™์Œ.
  • ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ multi-head attention ๋˜‘๊ฐ™์ด ํ•ด์ฃผ๋ฉด ๋จ.
  • Q,K,V ๊ฐ’ ๊ฐ€์ ธ์˜จ๊ฑธ ๊ฐ ๊ฐ€์ค‘์น˜์— ๊ณฑํ•ด์„œ head์— ๋งž๋Š” ๊ฐ’์„ ์ƒ์„ฑ ํ›„ Q์™€ K ๋‚ด์  ๊ณฑ ํ›„ V์™€ ๊ณฑํ•จ.
4-3. Decoder: Feed Forward Network
  • Add+Norm ํ•ด์„œ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ ๊ฐ’ ์ถ”์ถœ.
5. Prediction
  • ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ ๊ฐ’์„ softmax ํ•จ์ˆ˜์— ๋„ฃ์–ด์„œ ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜์‹œํ‚ด
  • ๊ฑฐ๊ธฐ์„œ ๊ฐ€์žฅ ๋†’์€ ์—ฐ๊ด€์„ฑ์„ ๋„๋Š” ๊ฐ’์„ output์œผ๋กœ ๋‚ด๋ณด๋ƒ„.
6. Model Architecture
+ Positional Encoding๋Š” ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค์–ด์งˆ๊นŒ? (+์ถ”๊ฐ€ ๊ถ๊ธˆ์ฆ)
1. positional encoding base
  • not์˜ ์œ„์น˜ ์ฐจ์ด๋กœ ์ธํ•ด ๋‘ ๋ฌธ์žฅ์˜ ๋œป์ด ์•„์˜ˆ ๋‹ฌ๋ผ์ง→ ๋ฌธ์žฅ ๋‚ด ์ •ํ™•ํ•œ ๋‹จ์–ด ์œ„์น˜๊ฐ€ ์—†์„ ๊ฒฝ์šฐ, ๋ฌธ์žฅ์˜ ๋œป์ด ์™„์ „ํžˆ ๋‹ฌ๋ผ์ง.
  • ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ ํ•ด๋‹นํ•˜๋Š” ๋‹จ์–ด ๋ฒกํ„ฐ์— ์œ„์น˜ ์ •๋ณด ๋ฒกํ„ฐ๋ฅผ ๋”ํ•ด์•ผ ํ•จ.
2. positional encoding์˜ ๊ทœ์น™
  • 1. ๋ชจ๋“  ์œ„์น˜ ๋ฒกํ„ฐ๋Š” ๋™์ผํ•˜๊ฒŒ
    • ๋ชจ๋“  ์œ„์น˜ ๋ฒกํ„ฐ๋Š” ์‹œํ€€์Šค ๊ธธ์ด๋‚˜ Input์— ์ƒ๊ด€์—†์ด ๋™์ผํ•œ ์‹๋ณ„์ž๋ฅผ ๊ฐ€์ ธ์•ผ ํ•จ.
    • ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์‹œํ€€์Šค๊ฐ€ ๋ฐ”๊ปด๋„ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์€ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€.
  • 2. ์œ„์น˜ ๋ฒกํ„ฐ ๊ฐ’์€ ๋„ˆ๋ฌด ํฌ์ง€ ์•Š๊ฒŒ
    • ์œ„์น˜๊ฐ’์ด ๋„ˆ๋ฌด ์ปค์ง€๊ฒŒ ๋˜๋ฉด ๋‹จ์–ด ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋‚˜ ์˜๋ฏธ ์ •๋ณด ๊ฐ’์ด ์ž‘์•„์ง€๊ฒŒ ๋จ.
3. ์œ„์น˜ ๋ฒกํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ• ๋ฐ ๋ฌธ์ œ์ 
  • 1. ์‹œํ€€์Šค ํฌ๊ธฐ์— ๋น„๋ก€ํ•œ ์ •์ˆ˜๊ฐ’ ๋ถ€๊ณผ
    • ์ฒซ๋ฒˆ์งธ ๋‹จ์–ด์˜ ๊ฒฝ์šฐ: 1, ๋‘๋ฒˆ์งธ ๋‹จ์–ด: 2 ๋“ฑ๋“ฑ์œผ๋กœ ๋ถ€์—ฌ
    • ๋ฌธ์žฅ์ด ๊ธธ์–ด์ง€๋ฉด ๋ฒกํ„ฐ๊ฐ’ ๋น„๋ก€ํ•ด์„œ ์—„์ฒญ๋‚˜๊ฒŒ ์ฆ๊ฐ€ํ•˜๊ฒŒ ๋จ.
    • ํŠน์ •ํ•œ ๋ฒ”์œ„๋ฅผ ๊ฐ–์ง€ ์•Š์•„ ์ผ๋ฐ˜ํ™” ๋ถˆ๊ฐ€
    • ๋‹จ์–ด ์ •๋ณด์— ๋”ํ•˜๊ฒŒ ๋  ๊ฒฝ์šฐ, ์œ„์น˜ ์ •๋ณด๊ฐ€ ์ง€๋ฐฐ์ ์ด๋ผ ๋‹จ์–ด ์ •๋ณด๊ฐ€ ํ›ผ์†๋  ๊ฐ€๋Šฅ์„ฑ ์ƒ์„ฑ.
  • 2. ์ฒซ๋ฒˆ์งธ 0, ๋งˆ์ง€๋ง‰ 1, ์ค‘๊ฐ„ 1/๋‹จ์–ด์ˆ˜
    • ๋ฌธ์žฅ ๊ธธ์ด์— ๋”ฐ๋ผ ๊ฐ™์€ ์œ„์น˜ ์ •๋ณด์— ํ•ด๋‹นํ•˜๋Š” ์œ„์น˜ ๋ฒกํ„ฐ๊ฐ€ ๋‹ฌ๋ผ์ง€๊ฒŒ ๋จ.
    • ์˜†์— ์œ„์น˜ํ•œ ๋ฒกํ„ฐ ์ฐจ์ด๋„ ๋‹ฌ๋ผ์ง.(๊ฐ„๊ฒฉ)
4. Sin&Cos ํ•จ์ˆ˜ ์‚ฌ์šฉ

→ ๋ฒกํ„ฐ๊ฐ’์ด ๋„ˆ๋ฌด ํฌ๋ฉด ์•ˆ๋˜๊ณ , ํ•ญ์ƒ ๊ฐ™์€ ์œ„์น˜์˜ ๋ฒกํ„ฐ๊ฐ’์„ ์ง€๋…€์•ผ ํ•จ.

๊ทธ๋ž˜์„œ ๋‚˜์˜จ ๊ฒƒ์ด cos&sin ํ•จ์ˆ˜

  • 1. -1~1์˜ ๋ฐ˜๋ณต ์ฃผ๊ธฐํ•จ์ˆ˜
    • sigmoid๋ฅผ ์“ฐ๋ฉด ์•ˆ๋˜๋Š” ์ด์œ :⇒ ๊ธด ๋ฌธ์žฅ์ด ์˜ค๊ฒŒ๋˜๋ฉด 1์— ์ˆ˜๋ ดํ•˜๊ฒŒ ๋จ.
    • ⇒ ์ฆ‰, ์œ„์น˜ ๋ฒกํ„ฐ๊ฐ’์˜ ์ฐจ๊ฐ€ ๋ฏธ๋ฏธํ•ด์ง
    • ๊ทธ๋ž˜์„œ sin๊ณผ cos๊ฐ€ ์ ํ•ฉ.
  • 2. ํ•ญ์ƒ ๊ฐ™์€ ์œ„์น˜ ๋ฒกํ„ฐ ๊ฐ’
    • ํ•œ๊ฐ€์ง€ ๋ฌธ์ œ์ 
      • ๊ฐ™์€ ์œ„์น˜์— ์žˆ๋Š” ๋‹จ์–ด๋Š” ํ•ญ์ƒ ๊ฐ™์€ ์œ„์น˜ ๋ฒกํ„ฐ๊ฐ’์„ ์ง€๋…€์•ผ ํ•จ
      • ex) I love you์™€ I like me ์ค‘์—์„œ love์™€ like์˜ ์œ„์น˜๋ฒกํ„ฐ๋Š” ๊ฐ™์Œ.
    • ํ•˜์ง€๋งŒ ์ฃผ๊ธฐํ•จ์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ์„œ๋กœ ๋‹ค๋ฅธ ์œ„์น˜์˜ ๋‹จ์–ด์˜ ๊ฒฝ์šฐ์—๋„ ๊ฐ™์€ ์œ„์น˜ ๋ฒกํ„ฐ๊ฐ’์ด ์ƒ์„ฑ๋จ. (๊ทธ๋ฆผ์ฐธ๊ณ )
      → postional encoding์€ ์Šค์นผ๋ผ๊ฐ€ ์•„๋‹Œ ๋ฒกํ„ฐ๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ์–ด ๋‹จ์–ด ๋ฒกํ„ฐ์™€ ๊ฐ™์€ ์ฐจ์›์„ ์ง€๋‹˜.
    • ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์ฐจ์›์ด 4๊ฐœ๋กœ ํ‘œํ˜„ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉด ๊ฐ ์š”์†Œ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ 4๊ฐœ์˜ ์ฃผ๊ธฐ๋ฅผ ๊ฐ–๊ฒŒ ๋จ (์ง์ˆ˜ ํ™€์ˆ˜)
    • ๋”ฐ๋ผ์„œ ๊ฒน์น˜์ง€ ์•Š๊ฒŒ ๋จ.
  • 2-1) postional encoding vector ๊ฐ’ ์ฑ„์›Œ์ง€๋Š” ์›๋ฆฌ
    • ์ฒซ๋ฒˆ์งธ ์ฐจ์›์˜ ๋ฒกํ„ฐ ๊ฐ’๋“ค์˜ ์ฐจ์ด๊ฐ€ ํฌ์ง€ ์•Š์€ ๊ฒฝ์šฐ
    • ๋ฒกํ„ฐ ๋‹ค์Œ ์ฐจ์›์—๋„ ๋ฒกํ„ฐ๊ฐ’ ๋ถ€์—ฌ
    • ์ด๋•Œ ๋‹ค์Œ ์ฐจ์›์—๋„ sin์„ ๋„ฃ์œผ๋ฉด ๋ฒกํ„ฐ๋“ค ๊ฐ„์˜ ์ฐจ๊ฐ€ ํฌ์ง€ ์•Š๊ธฐ์— cos ํ™œ์šฉ.
    • ํ•˜์ง€๋งŒ ์œ„์˜ ์‚ฌ์ง„์„ ๋ณด๋ฉด ๋ฒกํ„ฐ๊ฐ’ ์ฐจ์ด๊ฐ€ ํฌ์ง€ ์•Š์Œ
    • ์ด๋Ÿด ๊ฒฝ์šฐ, ์„œ๋กœ ๋‹ค๋ฅธ ๋ฒกํ„ฐ ๊ฐ„์˜ ์œ„์น˜ ์ •๋ณด ์ฐจ๊ฐ€ ๋ฏธ๋ฏธํ•ด์ง (์˜๋ฏธ ์—†์–ด์ง)
    • ์ด ๊ฒฝ์šฐ, cosํ•จ์ˆ˜์˜ frequency๋ฅผ ์ด์ „ sinํ•จ์ˆ˜๋ณด๋‹ค ๋” ํฌ๊ฒŒ ์คŒ.
    • sin&cos ๋ฐ˜๋ณต
    • ๊ฒฐ๋ก ์ ์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ positional encoding ๊ฐ’์„ ์ง€๋‹ˆ๊ฒŒ ๋จ.
5. ์™œ concat ์•ˆํ•˜๊ณ  ๋”ํ•ด์คฌ๋Š”๊ฐ€
  • concat์„ ํ•˜๊ฒŒ ๋˜๋ฉด ๋‹จ์–ด ์ •๋ณด ๋ฒกํ„ฐ์™€ ์œ„์น˜ ์ •๋ณด ๋ฒกํ„ฐ ๊ฐ๊ฐ ๋…๋ฆฝ๋œ ์ž์ฒด ์ฐจ์› ๊ณต๊ฐ„๋งŒ์„ ๊ฐ–๊ฒŒ๋จ. ๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด ์ง๊ต ์„ฑ์งˆ์— ์˜ํ•ด ์„œ๋กœ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์—†๊ฒŒ ๋จ.⇒ ๋”ฐ๋ผ์„œ ๋”ํ•ด์คŒ์œผ๋กœ์จ ๋‹จ์–ด ์ •๋ณด์™€ ์œ„์น˜ ์ •๋ณด๊ฐ„์˜ ๊ท ํ˜•์„ ๋งž์ถฐ์คŒ.
 
 
ํŠธ๋žœ์Šคํฌ๋จธ transformer positional encoding
ํŠธ๋žœ์Šคํฌ๋จธ Transformer Attention is All You Need Postional Encoding
https://www.blossominkyung.com/deeplearning/transfomer-positional-encoding

 

728x90
๋ฐ˜์‘ํ˜•

'Deep Learning > [๋…ผ๋ฌธ] Paper Review' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

YOLO: You Only Look Once: Unified, Real-Time Object Detection  (1) 2023.07.06
Fast R-CNN  (0) 2023.07.06
Inception V2/3  (0) 2023.07.06
ELMO  (0) 2023.07.06
SegNet  (0) 2023.07.06