Transformer
1. overall architecture 2. overall procedure encoder의 경우 input 문장을 넣고 embedding 벡터로 바꿔줌 positional encoding을 더해주어 각 단어의 순서에 대한 정보를 부여함. 더해서 multi-head attention을 수행 이 때, 같은 embedding의 값을 Q,K,V로 분배. (Q,K,V)는 서로 같은 값. ex) head가 3개면, 각 Q,K,V에 해당하는 가중치 3개씩 존재함 (Linear) ⇒ 총 9개의 다른 값이 생기게 됨 이때, V는 encoding의 embedding에서 나온 값에 가중치 곱한 것을 의미. 하나의 head당 Q와 K를 곱해서 softmax 함수를 거친 후, V값과 곱함 이 각각 곱한 3개의 head 값..
2023. 7. 6.