728x90 ๋ฐ์ํ All Post105 [Standford_cs231n] Lecture 3 ) Loss Functions and Optimization 1. Loss Function ์ฌ์ง์์ ๋ณด์ด๋ score๊ฐ ๋ฎ์์๋ก W์ ์ํฅ๋ ฅ๋ ์์ข์ ๊ฒ์ด๋ผ๊ณ ๋งํ ์ ์์( ๋ถ๋ฅ๋ฅผ ์ ํ์ง ๋ชปํ์ผ๋ฏ๋ก ) W๊ฐ ์ข๋ค ์์ข๋ค ์ ๋๋ก ์ ๋ํ ํ ์ ์๋ ๊ฒ์ด ํ์ํจ ⇒ loss function W(๊ฐ์ค์น)๊ฐ ์ผ๋งํผ ์ข๊ณ ์์ข๋ค๋ก ๋ํ๋ผ ์ ์๋ ํจ์๊ฐ ๋ฐ๋ก ์์คํจ์์. SVM loss( hinge loss ) softmax loss( cross entropy ) 1-1) Multiclass SVM loss ์ ๋ตํด๋์ค≥์ ๋ต์๋ํด๋์ค+1 ⇒ loss=0 ( ๋งค์ฐ ์ข์ ) ex) cat๊ณผ car์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥์ ๋ต์๋ํด๋์ค(5.1)+1 ์ด ์๋๋ฏ๋ก ํด๋น ๊ฐ์ loss ๊ฐ์ผ๋ก cat๊ณผ frog์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥ ์ ๋ต์๋ํด๋์ค(-1.7)+1 ์ด๋ฏ.. 2023. 7. 8. [Standford_cs231n] Lecture 4 ) Introduction to Neural Networks 4-1) Computational graphs 4-2) Backpropagation 4-3) Gradient for vectorized code ์์์ ํ ๋ด์ฉ๋ค์ ์ด๋ค ํ ๋ณ์ ๊ฐ์ผ๋ก Gradient์ ๊ณ์ฐ ํ์ง๋ง ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ์ฌ์ฉํ๋ ์ ๋ ฅ๊ฐ์ scaler ๊ฐ ์ด ์๋ vector๊ฐ ์ด๋ฌํ vector๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ๋ค๋ณ์ ๋ฒกํฐ ํจ์(vector-valued function of multiple variables) ์ ๋ํ ์ผ์ฐจ๋ฏธ๋ถ๊ฐ์ด ํ์ ์ด๋ฅผ Jacobian (์ผ์ฝ๋น์) matrix ๋ผ๊ณ ํจ. 4-4) Neural Networks Neural Networks(์ธ๊ณต ์ ๊ฒฝ๋ง)์ ์์์ ๋ฐฐ์ด Linear Classifier์ 2๊ฐ ์ด์ ์์์ฌ๋ฆฌ๋ ํํ. ์ด ์ฌ์ด์ Non-linear functio.. 2023. 7. 8. Module 5. ์ง๋ํ์ต (๋ถ๋ฅ/ํ๊ท) (์ดํ์ฌ์๋ํ๊ต ๊ฐ์ ์ ๊ต์) ๋ ์ง: 2023๋ 7์ 8์ผ Part 1. SL Foundation 1.Supervised Learning - label๊ฐ์ด ์๋ ๊ฒ์ ๋งํจ - training๊ณผ test ๋จ๊ณ๊ฐ ์กด์ฌํจ - feature์ ๊ฒฝ์ฐ, domain ์ง์์ด ์ด๋ ์ ๋ ํ์ํจ - ๋ฅ๋ฌ๋์ ๊ฒฝ์ฐ, feature๋ฅผ ์ค์ค๋ก ํ์ตํ๊ธฐ๋ ํจ - SL์ ๊ฒฝ์ฐ, training error, val error, test error์ ํตํด generalization error์ ์ต์ํํ๋๋ก ํ๋ ๋ ธ๋ ฅ์ ํ๊ฒ ๋จ - loss function=cost function 2. Bias-variance trade-off - bias์ variance์ trade off๋ฅผ ์ ์กฐ์ ํด์ ์ต์ ์ generalization error๋ฅผ ๋ง๋๋ ๊ฒ์ด ์ค์ํจ - ๋ฅ.. 2023. 7. 8. [Standford_cs231n] Lecture 5 ) Convolutional Neural Networks 1. Convolutional Neural networks 1. Convolutional Layer Stride ์คํธ๋ผ์ด๋(stride) ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ผ์ด๋ฉ ํ ๋ ์์ง์ด๋ step์ ํฌ๊ธฐ. ์๋ ์คํธ๋ผ์ด๋ 2 2. Convolutional Layer Pad ํํฐ ํฌ๊ธฐ์ ๋ฐ๋ผ์ ์ถ๋ ฅ ๊ฐ๋ก ์ธ๋ก ๊ธธ์ด๊ฐ ์ค์ด๋ฌ padding์ ์ฐ๋ฉด ์๋ณธ ํฌ๊ธฐ ์ ์ง, ์ด๋ฏธ์ง ๊ฐ์ฅ์๋ฆฌ ๊ณ์ฐ ๋ ๋๋ ๊ฒ์ ๋ง์ ์ ์์ 3. Convolutional Layer Output Size W : input image width F : Filter width S : Stride P : Pad Output W : (W - F + 2*P)/S + 1 4. Convolution Layer์ Backpropagation ์ฒ์์ ํํฐ๊ฐ ๋นจํ๋ ธ์ด ํ.. 2023. 7. 7. [Standford_cs231n] Lecture 6 ) Training Neural Networks I 1. Activation Functions ํ์ฑํ ํจ์: ์ถ๋ ฅ๊ฐ์ ํ์ฑํ๋ฅผ ์ผ์ผํค๊ฒ ํ ๊ฒ์ธ๊ฐ๋ฅผ ์ ํ๊ณ ๊ทธ ๊ฐ์ ๋ถ์ฌํ๋ ํจ์. ์ฌ์ฉํ๋ ์ด์ : Data๋ฅผ ๋น์ ํ์ผ๋ก ๋ฐ๊พธ๊ธฐ ์ํจ ์ ๋น์ ํ์ผ๋ก ๋ฐ๊พธ๋๊ฐ?: ๋ณต์กํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด์⇒ ์ ํํจ์์ ๊ฒฝ์ฐ, ๋ง์ด ๊น์ด์ง์ง ์๋๋ค๋ ๋จ์ ์ด ์กด์ฌ. ์๋ฌด๋ฆฌ ๋ณต์กํ๊ฒ ๋ง๋ ๋ค๊ณ ํด๋ ex) h(x)= cx(์ผ์ฐจํจ์) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x๋ก ๋ฐ์ ์๋จ. ๊ฒฐ๊ตญ ๊ฐ์ ์ ํ ํจ์์.๋ฐ๋ผ์, ๋ด๋ด๋คํธ์ํฌ์์ ์ธต์ ์๋ ํํ์ ์ป๊ณ ์ถ๋ค๋ฉด, ํ์ฑํํจ์๋ก๋ ๋ฐ๋์ ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉ. ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ์ ๋ ฅ์ด ๋ค์ด๊ฐ ๋, ์ถ๋ ฅ๊ฐ์ด ์ ํ์ผ๋ก ๋์ค์ง ์๊ธฐ ๋๋ฌธ์ ๋ง์ ๊น๊ฒ ๋ง๋ค ์ ์๋ค๋ ์ฅ์ ์กด์ฌ. ⇒ ๊ฒฐ๊ตญ linearํ ์ฐ์ฐ.. 2023. 7. 7. [Standford_cs231n] Lecture 7 ) Training Neural Networks II 1. Optimization SGD: ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ (๊ฒฝ์ฌํ๊ฐ๋ฒ) Mini batch GD: ๋ฐฐ์น ๋จ์๋ก ๋๋ ์ ๋ฐฐ์น๋ง๋ค ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ SGD + Momentum: ๊ธฐ์กด์ ๊ด์ฑ ํฉ์น ๊ฒ(์๋) ⇒ ๊ณ์ ๊ฐ๋ ค๋ ์ฑ์ง ํ์ฉ NAG: ์ด์ ์๋๋ก ํ๊ฑธ์ ๋ฏธ๋ฆฌ ๊ฐ๋ณด๊ณ ๊ธฐ์ธ๊ธฐ ๊ตฌํด์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ Adagrad: ์ ์ฒด์ ์์คํจ์ ๊ณก๋ฉด์ ๋ณํ๋ฅผ ํ์ต์์ผ์ ๋ค์ ํ์ต๋ฅ ์ ํด์ฃผ๋ ๊ฒ PMSprop: Adagrad ๋จ์ ๋ณด์ ⇒ ์ต๊ทผ ๊ณก๋ฉด ๋ณํ๋๋ง ๊ฐ์ ธ์์ ํ์ต๋ฅ ์ ํด์ค Adam: pmsprop + momentum 1-1) optimization ์ค๋ช ๋ฅ๋ฌ๋์ ํ์ต์์๋ ์ต๋ํ ํ๋ฆฌ์ง ์๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํด ๋๊ฐ์ผ ํจ. ์ฌ๊ธฐ์ ์ผ๋ง๋ ํ๋ฆฌ๋์ง ์๊ฒ ํ๋ ํจ์๊ฐ ๋ฐ๋ก loss function (์์คํจ์) ์. .. 2023. 7. 7. ์ด์ 1 ยทยทยท 9 10 11 12 13 14 15 ยทยทยท 18 ๋ค์ 728x90 ๋ฐ์ํ