728x90 반응형 [Standford_cs231n] Lecture 3 ) Loss Functions and Optimization 1. Loss Function 사진에서 보이는 score가 낮을수록 W의 영향력도 안좋은 것이라고 말할 수 있음( 분류를 잘 하지 못했으므로 ) W가 좋다 안좋다 정도로 정량화 할 수 있는 것이 필요함 ⇒ loss function W(가중치)가 얼만큼 좋고 안좋다로 나타낼 수 있는 함수가 바로 손실함수임. SVM loss( hinge loss ) softmax loss( cross entropy ) 1-1) Multiclass SVM loss 정답클래스≥정답아닌클래스+1 ⇒ loss=0 ( 매우 좋음 ) ex) cat과 car의 경우 : 정답클래스(3.2)≥정답아닌클래스(5.1)+1 이 아니므로 해당 값을 loss 값으로 cat과 frog의 경우 : 정답클래스(3.2)≥ 정답아닌클래스(-1.7)+1 이므.. 2023. 7. 8. [Standford_cs231n] Lecture 4 ) Introduction to Neural Networks 4-1) Computational graphs 4-2) Backpropagation 4-3) Gradient for vectorized code 앞에서 한 내용들은 어떤 한 변수 값으로 Gradient을 계산 하지만 우리가 실제로 사용하는 입력값은 scaler 값 이 아닌 vector값 이러한 vector를 사용하기 위해서는 다변수 벡터 함수(vector-valued function of multiple variables) 에 대한 일차미분값이 필요 이를 Jacobian (야코비안) matrix 라고 함. 4-4) Neural Networks Neural Networks(인공 신경망)은 앞에서 배운 Linear Classifier을 2개 이상 쌓아올리는 형태. 이 사이에 Non-linear functio.. 2023. 7. 8. Module 5. 지도학습 (분류/회귀) (이화여자대학교 강제원 교수) 날짜: 2023년 7월 8일 Part 1. SL Foundation 1.Supervised Learning - label값이 있는 것을 말함 - training과 test 단계가 존재함 - feature의 경우, domain 지식이 어느 정도 필요함 - 딥러닝의 경우, feature를 스스로 학습하기도 함 - SL의 경우, training error, val error, test error을 통해 generalization error을 최소화하도록 하는 노력을 하게 됨 - loss function=cost function 2. Bias-variance trade-off - bias와 variance의 trade off를 잘 조정해서 최적의 generalization error를 만드는 것이 중요함 - 딥.. 2023. 7. 8. [Standford_cs231n] Lecture 5 ) Convolutional Neural Networks 1. Convolutional Neural networks 1. Convolutional Layer Stride 스트라이드(stride) 이미지를 슬라이딩 할 때 움직이는 step의 크기. 얘는 스트라이드 2 2. Convolutional Layer Pad 필터 크기에 따라서 출력 가로 세로 길이가 줄어듬 padding을 쓰면 원본 크기 유지, 이미지 가장자리 계산 덜 되는 것을 막을 수 있음 3. Convolutional Layer Output Size W : input image width F : Filter width S : Stride P : Pad Output W : (W - F + 2*P)/S + 1 4. Convolution Layer의 Backpropagation 처음에 필터가 빨파노초 필.. 2023. 7. 7. [Standford_cs231n] Lecture 6 ) Training Neural Networks I 1. Activation Functions 활성화 함수: 출력값을 활성화를 일으키게 할 것인가를 정하고 그 값을 부여하는 함수. 사용하는 이유: Data를 비선형으로 바꾸기 위함 왜 비선형으로 바꾸는가?: 복잡한 모델을 만들기 위해서⇒ 선형함수의 경우, 망이 깊어지지 않는다는 단점이 존재. 아무리 복잡하게 만든다고 해도 ex) h(x)= cx(일차함수) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x로 밖에 안됨. 결국 같은 선형 함수임.따라서, 뉴럴네트워크에서 층을 쌓는 혜택을 얻고 싶다면, 활성화함수로는 반드시 비선형 함수를 사용. 활성화 함수를 사용하면 입력이 들어갈 때, 출력값이 선형으로 나오지 않기 때문에 망을 깊게 만들 수 있다는 장점 존재. ⇒ 결국 linear한 연산.. 2023. 7. 7. [Standford_cs231n] Lecture 7 ) Training Neural Networks II 1. Optimization SGD: 가장 기본적인 방법 (경사하강법) Mini batch GD: 배치 단위로 나눠서 배치마다 파라미터 업데이트 SGD + Momentum: 기존에 관성 합친 것(속도) ⇒ 계속 가려던 성질 활용 NAG: 이전 속도로 한걸음 미리 가보고 기울기 구해서 업데이트하는 방법 Adagrad: 전체의 손실함수 곡면의 변화를 학습시켜서 다음 학습률 정해주는 것 PMSprop: Adagrad 단점 보완 ⇒ 최근 곡면 변화량만 가져와서 학습률 정해줌 Adam: pmsprop + momentum 1-1) optimization 설명 딥러닝의 학습에서는 최대한 틀리지 않는 방향으로 학습해 나가야 함. 여기서 얼마나 틀리는지 알게 하는 함수가 바로 loss function (손실함수) 임. .. 2023. 7. 7. 이전 1 ··· 9 10 11 12 13 14 15 ··· 18 다음 728x90 반응형