728x90 반응형 [밑바닥부터 시작하는 딥러닝 2] chap8(어텐션) seq2seq ⇒ 2개의 RNN을 연결해 하나의 시계열 데이터를 다른 시계열 데이터로 변환. 어텐션의 역할 ⇒ seq2seq를 더 강력하게 해줌. 8.1 어텐션의 구조 8.1.1 seq2seq의 문제점 고정길이벡터 ex) 아무리 문장 길이가 길어져도 고정길이벡터 → 같은 길이의 벡터로 표현해버림 ⇒ 많은 정보를 압축하다보니 한계점이 분명이 올 것임. ex) 옷을 우거지로 넣으면 결국 옷장에서 삐져나오는 것과 같은 것. 8.1.2 Encoder 개선 encoder 출력 길이를 입력 문장의 길이에 따라 바꿔주는 것. 그러기 위해선 시각별(단어별) LSTM 계층의 은닉 상태 벡터를 모두 이용. ex) 5개의 단어가 입력된 경우, encoder은 5개 벡터를 출력함. 8.1.3 Decoder 개선 1(선택 작업.. 2023. 7. 8. [밑바닥부터 시작하는 딥러닝 1] chap5(오차역전파법) 5-1) 계산 그래프 계산 과정을 그래프로 나타낸 것 노드(node)/ 에지(edge): 노드 사이의 직선을 에지라고 부름 ⇒ 순전파라고 함(왼쪽에서 오른쪽으로 진행) 국소적 계산 전체적으로 보면 복잡한 계산식이지만 파고들면 간단한 수식으로 이루어져 있는 ⇒ 국소적 계산이라고 함.( 전체 식은 개복잡 but, 안으로 들어가면 덧셈 뺄셈으로 이루어짐) 계산 그래프의 이점 국소적 계산 전체가 복잡해도 안에서는 간단하게 문제 단순화해서 풀 수 있음 중간 중간의 계산 결과 저장 가능 역전파를 통해 ‘미분’을 효율적으로 계산 가능 5-2) 연쇄 법칙 합성 함수의 미분에 대한 성질 합성 함수의 미분: 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다 5-3) 역전파 5-3-1) 덧셈 노드의 역전파 그냥.. 2023. 7. 8. [밑바닥부터 시작하는 딥러닝 1] chap2(퍼셉트론) 2-1) 퍼셉트론 신경망의 기원이 되는 알고리즘 입출력을 갖춘 알고리즘 입력을 주면 정해진 규칙에 따른 값을 출력 다수의 신호를 입력받아 하나의 신호를 출력함 (1 or 0) 매개변수: 가중치, 편향 x1: 입력신호(입력값) w1: 가중치(각 신호가 결과에 주는 영향력을 조절함) 세타: 임계값 (정해진 한계를 넘으면 1로 출력) 세타 → -b로 치환 (편향) ex) b= -0.1인 경우, 값들의 합이 0.1을 초과할 때만 뉴런 활성화 b=-20인 경우, 합이 20이 넘지 않으면 뉴런 활성화x 2-2) 단층 / 다층 퍼셉트론 단층 퍼셉트론(선형) AND 게이트(둘 다 1일 때만 1 출력) NAND 게이트(둘 다 1일 때만 0출력) OR 게이트(입력값 하나 이상이 1이면 1출력) 다층 퍼셉트론(비선형) XO.. 2023. 7. 8. [밑바닥부터 시작하는 딥러닝 1] chap4(신경망 학습) 4-1) 손실함수 실제값과 예측값의 차이를 이용해 가중치가 얼마나 적합하게 뽑혔는지를 평가하기 위해 만들어짐 최소로 하는 것이 신경망의 성능을 높이는 것 지표를 좋게 해주는 가중치 매개변수 탐색. 오차제곱합(Sum of Squares for Error, SSE) - 연속형 데이터 yk: 신경망의 출력(신경망이 추정한 값) tk: 정답 레이블 k: 데이터의 차원 교차 엔트로피 오차- 범주형 데이터 분류 엔트로피: 사건 A가 발생할 확률이 낮을수록 커지는 존재 tk(정답 레이블): 정답만1이고 나머지는 0 ⇒ 원핫 벡터 사용 따라서, 실질적으로 정답일 때의 자연로그 계산하는 것과 같음 커질수록 0과 멀어짐(정답과 멀어지는 것을 의미 ⇒ 작게 만드는 것이 목표) 4-2) 미니 배치 학습 평균 손실 함수 ⇒ 배.. 2023. 7. 8. [밑바닥부터 시작하는 딥러닝 1] chap3(신경망) 3-1) 신경망 입력층-은닉층-출력층으로 구성 퍼셉트론 vs 신경망 : 활성화 함수 사용 유무 차 3-2) 활성화 함수 입력 신호의 총합을 출력 신호로 변환하는 함수 h(x) 입력 신호의 총합이 활성화를 일으키는지를 정하는 역할을 진행 임계값을 경계로 출력이 바뀜 (ex) 0을 기준으로) ⇒ 계단함수 3-2-0) 계단함수 3-2-1) 시그모이드 함수(2클래스 분류) 계단함수 vs 시그모이드 ⇒ 신경망의 경우, 비선형 함수 사용 공통점 입력 중요도에 따라 큰 값 or 작은 값 출력 출력범위 : 0~1 비선형 함수 차이점 매끄러움의 차이 (연속적인 실수값) 3-2-2) ReLU 함수 0이 넘으면 입력 그대로 출력, 0 이하면 0 출 3-3) 출력층 함수 3-3-1) 항등함수(회귀) 입력값 그대로 출력 3-3.. 2023. 7. 8. [밑바닥부터 시작하는 딥러닝 1] chap6(학습 관련 기술들) 6-1) 매개변수 갱신 신경망 학습의 목적: 손실 함수 값을 낮추는 최적 매개변수를 찾기! 1. 확률적 경사 하강법(SGD) 한번에 미분하지 않고 한 지점에서 기울기를 구한 후, 기울기가 감소하는 방향으로 차근차근 내려가는 방법 W- 학습률과 W에 대한 손실 함수의 기울기 값의 곱 ⇒ SGD의 단점: 비등방성 함수에서는 비효율적 비등방성 함수 : 각 위치에서의 기울기가 가리키는 지점이 하나가 아닌 여러개. 등방성: 어느 방향에서 보아도 똑같은 성질을 가지고 있음 ex) 홀로그램(보는 방향에 따라 다르게 보이는) ⇒ 비등방성 등방성의 예시: 모든 좌표에 대해서 기울기는 항상 중앙을 가르킴 비등방성의 예시: 기울기를 가르키는 지점이 여러가지 y축 방향의 경우, 큼 x축 방향의 경우 작음 ⇒ 왔다리 갔다리 하.. 2023. 7. 8. 이전 1 ··· 7 8 9 10 11 12 13 ··· 18 다음 728x90 반응형