본문 바로가기

728x90

Deep Learning78

[Standford_cs231n] Lecture 3 ) Loss Functions and Optimization 1. Loss Function 사진에서 보이는 score가 낮을수록 W의 영향력도 안좋은 것이라고 말할 수 있음( 분류를 잘 하지 못했으므로 ) W가 좋다 안좋다 정도로 정량화 할 수 있는 것이 필요함 ⇒ loss function W(가중치)가 얼만큼 좋고 안좋다로 나타낼 수 있는 함수가 바로 손실함수임. SVM loss( hinge loss ) softmax loss( cross entropy ) 1-1) Multiclass SVM loss 정답클래스≥정답아닌클래스+1 ⇒ loss=0 ( 매우 좋음 ) ex) cat과 car의 경우 : 정답클래스(3.2)≥정답아닌클래스(5.1)+1 이 아니므로 해당 값을 loss 값으로 cat과 frog의 경우 : 정답클래스(3.2)≥ 정답아닌클래스(-1.7)+1 이므.. 2023. 7. 8.

[Standford_cs231n] Lecture 4 ) Introduction to Neural Networks 4-1) Computational graphs 4-2) Backpropagation 4-3) Gradient for vectorized code 앞에서 한 내용들은 어떤 한 변수 값으로 Gradient을 계산 하지만 우리가 실제로 사용하는 입력값은 scaler 값 이 아닌 vector값 이러한 vector를 사용하기 위해서는 다변수 벡터 함수(vector-valued function of multiple variables) 에 대한 일차미분값이 필요 이를 Jacobian (야코비안) matrix 라고 함. 4-4) Neural Networks Neural Networks(인공 신경망)은 앞에서 배운 Linear Classifier을 2개 이상 쌓아올리는 형태. 이 사이에 Non-linear functio.. 2023. 7. 8.

[Standford_cs231n] Lecture 5 ) Convolutional Neural Networks 1. Convolutional Neural networks 1. Convolutional Layer Stride 스트라이드(stride) 이미지를 슬라이딩 할 때 움직이는 step의 크기. 얘는 스트라이드 2 2. Convolutional Layer Pad 필터 크기에 따라서 출력 가로 세로 길이가 줄어듬 padding을 쓰면 원본 크기 유지, 이미지 가장자리 계산 덜 되는 것을 막을 수 있음 3. Convolutional Layer Output Size W : input image width F : Filter width S : Stride P : Pad Output W : (W - F + 2*P)/S + 1 4. Convolution Layer의 Backpropagation 처음에 필터가 빨파노초 필.. 2023. 7. 7.

[Standford_cs231n] Lecture 6 ) Training Neural Networks I 1. Activation Functions 활성화 함수: 출력값을 활성화를 일으키게 할 것인가를 정하고 그 값을 부여하는 함수. 사용하는 이유: Data를 비선형으로 바꾸기 위함 왜 비선형으로 바꾸는가?: 복잡한 모델을 만들기 위해서⇒ 선형함수의 경우, 망이 깊어지지 않는다는 단점이 존재. 아무리 복잡하게 만든다고 해도 ex) h(x)= cx(일차함수) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x로 밖에 안됨. 결국 같은 선형 함수임.따라서, 뉴럴네트워크에서 층을 쌓는 혜택을 얻고 싶다면, 활성화함수로는 반드시 비선형 함수를 사용. 활성화 함수를 사용하면 입력이 들어갈 때, 출력값이 선형으로 나오지 않기 때문에 망을 깊게 만들 수 있다는 장점 존재. ⇒ 결국 linear한 연산.. 2023. 7. 7.

[Standford_cs231n] Lecture 7 ) Training Neural Networks II 1. Optimization SGD: 가장 기본적인 방법 (경사하강법) Mini batch GD: 배치 단위로 나눠서 배치마다 파라미터 업데이트 SGD + Momentum: 기존에 관성 합친 것(속도) ⇒ 계속 가려던 성질 활용 NAG: 이전 속도로 한걸음 미리 가보고 기울기 구해서 업데이트하는 방법 Adagrad: 전체의 손실함수 곡면의 변화를 학습시켜서 다음 학습률 정해주는 것 PMSprop: Adagrad 단점 보완 ⇒ 최근 곡면 변화량만 가져와서 학습률 정해줌 Adam: pmsprop + momentum 1-1) optimization 설명 딥러닝의 학습에서는 최대한 틀리지 않는 방향으로 학습해 나가야 함. 여기서 얼마나 틀리는지 알게 하는 함수가 바로 loss function (손실함수) 임. .. 2023. 7. 7.

[Standford_cs231n] Lecture 8 ) Deep Learning Software 1. CPU vs GPU CPU는 컴퓨터의 뇌에 해당하는 부분 컴퓨터에서 구성 단위 중 기억, 해석, 연산, 제어부분을 수행하는 중요한 녀석이다. 좀 더 적은 core의 수로 연속적인 일을 처리하는데 CPU가 자주 쓰인다 GPU는 computer graphics를 Rendering하기 위해 쓰이는 녀석이다. 더 많은 core로 일을 병렬적으로 수행하고 싶을 때 GPU가 자주 쓰인다. GPU는 내부적으로 자체적인 RAM을 가지고 있다. ⇒ GPU의 종류는 크게 세가지 CUDA OpenCL Udacity 2. Deep Learning Framework 딥러닝 프레임 워크를 사용하는 이유는? Computational Graph를 쉽게 build하기 위해 Gradient 계산을 쉽게 하기 위해 GPU에서 효과적.. 2023. 7. 7.

이전 1 ··· 6 7 8 9 10 11 12 13 다음

728x90

티스토리툴바