Transformer
1. overall architecture 2. overall procedure encoder์ ๊ฒฝ์ฐ input ๋ฌธ์ฅ์ ๋ฃ๊ณ embedding ๋ฒกํฐ๋ก ๋ฐ๊ฟ์ค positional encoding์ ๋ํด์ฃผ์ด ๊ฐ ๋จ์ด์ ์์์ ๋ํ ์ ๋ณด๋ฅผ ๋ถ์ฌํจ. ๋ํด์ multi-head attention์ ์ํ ์ด ๋, ๊ฐ์ embedding์ ๊ฐ์ Q,K,V๋ก ๋ถ๋ฐฐ. (Q,K,V)๋ ์๋ก ๊ฐ์ ๊ฐ. ex) head๊ฐ 3๊ฐ๋ฉด, ๊ฐ Q,K,V์ ํด๋นํ๋ ๊ฐ์ค์น 3๊ฐ์ฉ ์กด์ฌํจ (Linear) ⇒ ์ด 9๊ฐ์ ๋ค๋ฅธ ๊ฐ์ด ์๊ธฐ๊ฒ ๋จ ์ด๋, V๋ encoding์ embedding์์ ๋์จ ๊ฐ์ ๊ฐ์ค์น ๊ณฑํ ๊ฒ์ ์๋ฏธ. ํ๋์ head๋น Q์ K๋ฅผ ๊ณฑํด์ softmax ํจ์๋ฅผ ๊ฑฐ์น ํ, V๊ฐ๊ณผ ๊ณฑํจ ์ด ๊ฐ๊ฐ ๊ณฑํ 3๊ฐ์ head ๊ฐ..
2023. 7. 6.