728x90 ๋ฐ์ํ Deep Learning78 [Standford_cs231n] Lecture 3 ) Loss Functions and Optimization 1. Loss Function ์ฌ์ง์์ ๋ณด์ด๋ score๊ฐ ๋ฎ์์๋ก W์ ์ํฅ๋ ฅ๋ ์์ข์ ๊ฒ์ด๋ผ๊ณ ๋งํ ์ ์์( ๋ถ๋ฅ๋ฅผ ์ ํ์ง ๋ชปํ์ผ๋ฏ๋ก ) W๊ฐ ์ข๋ค ์์ข๋ค ์ ๋๋ก ์ ๋ํ ํ ์ ์๋ ๊ฒ์ด ํ์ํจ ⇒ loss function W(๊ฐ์ค์น)๊ฐ ์ผ๋งํผ ์ข๊ณ ์์ข๋ค๋ก ๋ํ๋ผ ์ ์๋ ํจ์๊ฐ ๋ฐ๋ก ์์คํจ์์. SVM loss( hinge loss ) softmax loss( cross entropy ) 1-1) Multiclass SVM loss ์ ๋ตํด๋์ค≥์ ๋ต์๋ํด๋์ค+1 ⇒ loss=0 ( ๋งค์ฐ ์ข์ ) ex) cat๊ณผ car์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥์ ๋ต์๋ํด๋์ค(5.1)+1 ์ด ์๋๋ฏ๋ก ํด๋น ๊ฐ์ loss ๊ฐ์ผ๋ก cat๊ณผ frog์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥ ์ ๋ต์๋ํด๋์ค(-1.7)+1 ์ด๋ฏ.. 2023. 7. 8. [Standford_cs231n] Lecture 4 ) Introduction to Neural Networks 4-1) Computational graphs 4-2) Backpropagation 4-3) Gradient for vectorized code ์์์ ํ ๋ด์ฉ๋ค์ ์ด๋ค ํ ๋ณ์ ๊ฐ์ผ๋ก Gradient์ ๊ณ์ฐ ํ์ง๋ง ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ์ฌ์ฉํ๋ ์ ๋ ฅ๊ฐ์ scaler ๊ฐ ์ด ์๋ vector๊ฐ ์ด๋ฌํ vector๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ๋ค๋ณ์ ๋ฒกํฐ ํจ์(vector-valued function of multiple variables) ์ ๋ํ ์ผ์ฐจ๋ฏธ๋ถ๊ฐ์ด ํ์ ์ด๋ฅผ Jacobian (์ผ์ฝ๋น์) matrix ๋ผ๊ณ ํจ. 4-4) Neural Networks Neural Networks(์ธ๊ณต ์ ๊ฒฝ๋ง)์ ์์์ ๋ฐฐ์ด Linear Classifier์ 2๊ฐ ์ด์ ์์์ฌ๋ฆฌ๋ ํํ. ์ด ์ฌ์ด์ Non-linear functio.. 2023. 7. 8. [Standford_cs231n] Lecture 5 ) Convolutional Neural Networks 1. Convolutional Neural networks 1. Convolutional Layer Stride ์คํธ๋ผ์ด๋(stride) ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ผ์ด๋ฉ ํ ๋ ์์ง์ด๋ step์ ํฌ๊ธฐ. ์๋ ์คํธ๋ผ์ด๋ 2 2. Convolutional Layer Pad ํํฐ ํฌ๊ธฐ์ ๋ฐ๋ผ์ ์ถ๋ ฅ ๊ฐ๋ก ์ธ๋ก ๊ธธ์ด๊ฐ ์ค์ด๋ฌ padding์ ์ฐ๋ฉด ์๋ณธ ํฌ๊ธฐ ์ ์ง, ์ด๋ฏธ์ง ๊ฐ์ฅ์๋ฆฌ ๊ณ์ฐ ๋ ๋๋ ๊ฒ์ ๋ง์ ์ ์์ 3. Convolutional Layer Output Size W : input image width F : Filter width S : Stride P : Pad Output W : (W - F + 2*P)/S + 1 4. Convolution Layer์ Backpropagation ์ฒ์์ ํํฐ๊ฐ ๋นจํ๋ ธ์ด ํ.. 2023. 7. 7. [Standford_cs231n] Lecture 6 ) Training Neural Networks I 1. Activation Functions ํ์ฑํ ํจ์: ์ถ๋ ฅ๊ฐ์ ํ์ฑํ๋ฅผ ์ผ์ผํค๊ฒ ํ ๊ฒ์ธ๊ฐ๋ฅผ ์ ํ๊ณ ๊ทธ ๊ฐ์ ๋ถ์ฌํ๋ ํจ์. ์ฌ์ฉํ๋ ์ด์ : Data๋ฅผ ๋น์ ํ์ผ๋ก ๋ฐ๊พธ๊ธฐ ์ํจ ์ ๋น์ ํ์ผ๋ก ๋ฐ๊พธ๋๊ฐ?: ๋ณต์กํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด์⇒ ์ ํํจ์์ ๊ฒฝ์ฐ, ๋ง์ด ๊น์ด์ง์ง ์๋๋ค๋ ๋จ์ ์ด ์กด์ฌ. ์๋ฌด๋ฆฌ ๋ณต์กํ๊ฒ ๋ง๋ ๋ค๊ณ ํด๋ ex) h(x)= cx(์ผ์ฐจํจ์) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x๋ก ๋ฐ์ ์๋จ. ๊ฒฐ๊ตญ ๊ฐ์ ์ ํ ํจ์์.๋ฐ๋ผ์, ๋ด๋ด๋คํธ์ํฌ์์ ์ธต์ ์๋ ํํ์ ์ป๊ณ ์ถ๋ค๋ฉด, ํ์ฑํํจ์๋ก๋ ๋ฐ๋์ ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉ. ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ์ ๋ ฅ์ด ๋ค์ด๊ฐ ๋, ์ถ๋ ฅ๊ฐ์ด ์ ํ์ผ๋ก ๋์ค์ง ์๊ธฐ ๋๋ฌธ์ ๋ง์ ๊น๊ฒ ๋ง๋ค ์ ์๋ค๋ ์ฅ์ ์กด์ฌ. ⇒ ๊ฒฐ๊ตญ linearํ ์ฐ์ฐ.. 2023. 7. 7. [Standford_cs231n] Lecture 7 ) Training Neural Networks II 1. Optimization SGD: ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ (๊ฒฝ์ฌํ๊ฐ๋ฒ) Mini batch GD: ๋ฐฐ์น ๋จ์๋ก ๋๋ ์ ๋ฐฐ์น๋ง๋ค ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ SGD + Momentum: ๊ธฐ์กด์ ๊ด์ฑ ํฉ์น ๊ฒ(์๋) ⇒ ๊ณ์ ๊ฐ๋ ค๋ ์ฑ์ง ํ์ฉ NAG: ์ด์ ์๋๋ก ํ๊ฑธ์ ๋ฏธ๋ฆฌ ๊ฐ๋ณด๊ณ ๊ธฐ์ธ๊ธฐ ๊ตฌํด์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ Adagrad: ์ ์ฒด์ ์์คํจ์ ๊ณก๋ฉด์ ๋ณํ๋ฅผ ํ์ต์์ผ์ ๋ค์ ํ์ต๋ฅ ์ ํด์ฃผ๋ ๊ฒ PMSprop: Adagrad ๋จ์ ๋ณด์ ⇒ ์ต๊ทผ ๊ณก๋ฉด ๋ณํ๋๋ง ๊ฐ์ ธ์์ ํ์ต๋ฅ ์ ํด์ค Adam: pmsprop + momentum 1-1) optimization ์ค๋ช ๋ฅ๋ฌ๋์ ํ์ต์์๋ ์ต๋ํ ํ๋ฆฌ์ง ์๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํด ๋๊ฐ์ผ ํจ. ์ฌ๊ธฐ์ ์ผ๋ง๋ ํ๋ฆฌ๋์ง ์๊ฒ ํ๋ ํจ์๊ฐ ๋ฐ๋ก loss function (์์คํจ์) ์. .. 2023. 7. 7. [Standford_cs231n] Lecture 8 ) Deep Learning Software 1. CPU vs GPU CPU๋ ์ปดํจํฐ์ ๋์ ํด๋นํ๋ ๋ถ๋ถ ์ปดํจํฐ์์ ๊ตฌ์ฑ ๋จ์ ์ค ๊ธฐ์ต, ํด์, ์ฐ์ฐ, ์ ์ด๋ถ๋ถ์ ์ํํ๋ ์ค์ํ ๋ ์์ด๋ค. ์ข ๋ ์ ์ core์ ์๋ก ์ฐ์์ ์ธ ์ผ์ ์ฒ๋ฆฌํ๋๋ฐ CPU๊ฐ ์์ฃผ ์ฐ์ธ๋ค GPU๋ computer graphics๋ฅผ Renderingํ๊ธฐ ์ํด ์ฐ์ด๋ ๋ ์์ด๋ค. ๋ ๋ง์ core๋ก ์ผ์ ๋ณ๋ ฌ์ ์ผ๋ก ์ํํ๊ณ ์ถ์ ๋ GPU๊ฐ ์์ฃผ ์ฐ์ธ๋ค. GPU๋ ๋ด๋ถ์ ์ผ๋ก ์์ฒด์ ์ธ RAM์ ๊ฐ์ง๊ณ ์๋ค. ⇒ GPU์ ์ข ๋ฅ๋ ํฌ๊ฒ ์ธ๊ฐ์ง CUDA OpenCL Udacity 2. Deep Learning Framework ๋ฅ๋ฌ๋ ํ๋ ์ ์ํฌ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋? Computational Graph๋ฅผ ์ฝ๊ฒ buildํ๊ธฐ ์ํด Gradient ๊ณ์ฐ์ ์ฝ๊ฒ ํ๊ธฐ ์ํด GPU์์ ํจ๊ณผ์ .. 2023. 7. 7. ์ด์ 1 ยทยทยท 6 7 8 9 10 11 12 13 ๋ค์ 728x90 ๋ฐ์ํ