๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90
๋ฐ˜์‘ํ˜•

Deep Learning78

[Standford_cs231n] Lecture 3 ) Loss Functions and Optimization 1. Loss Function ์‚ฌ์ง„์—์„œ ๋ณด์ด๋Š” score๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก W์˜ ์˜ํ–ฅ๋ ฅ๋„ ์•ˆ์ข‹์€ ๊ฒƒ์ด๋ผ๊ณ  ๋งํ•  ์ˆ˜ ์žˆ์Œ( ๋ถ„๋ฅ˜๋ฅผ ์ž˜ ํ•˜์ง€ ๋ชปํ–ˆ์œผ๋ฏ€๋กœ ) W๊ฐ€ ์ข‹๋‹ค ์•ˆ์ข‹๋‹ค ์ •๋„๋กœ ์ •๋Ÿ‰ํ™” ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•จ ⇒ loss function W(๊ฐ€์ค‘์น˜)๊ฐ€ ์–ผ๋งŒํผ ์ข‹๊ณ  ์•ˆ์ข‹๋‹ค๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ ์†์‹คํ•จ์ˆ˜์ž„. SVM loss( hinge loss ) softmax loss( cross entropy ) 1-1) Multiclass SVM loss ์ •๋‹ตํด๋ž˜์Šค≥์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค+1 ⇒ loss=0 ( ๋งค์šฐ ์ข‹์Œ ) ex) cat๊ณผ car์˜ ๊ฒฝ์šฐ : ์ •๋‹ตํด๋ž˜์Šค(3.2)≥์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค(5.1)+1 ์ด ์•„๋‹ˆ๋ฏ€๋กœ ํ•ด๋‹น ๊ฐ’์„ loss ๊ฐ’์œผ๋กœ cat๊ณผ frog์˜ ๊ฒฝ์šฐ : ์ •๋‹ตํด๋ž˜์Šค(3.2)≥ ์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค(-1.7)+1 ์ด๋ฏ€.. 2023. 7. 8.
[Standford_cs231n] Lecture 4 ) Introduction to Neural Networks 4-1) Computational graphs 4-2) Backpropagation 4-3) Gradient for vectorized code ์•ž์—์„œ ํ•œ ๋‚ด์šฉ๋“ค์€ ์–ด๋–ค ํ•œ ๋ณ€์ˆ˜ ๊ฐ’์œผ๋กœ Gradient์„ ๊ณ„์‚ฐ ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ž…๋ ฅ๊ฐ’์€ scaler ๊ฐ’ ์ด ์•„๋‹Œ vector๊ฐ’ ์ด๋Ÿฌํ•œ vector๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค๋ณ€์ˆ˜ ๋ฒกํ„ฐ ํ•จ์ˆ˜(vector-valued function of multiple variables) ์— ๋Œ€ํ•œ ์ผ์ฐจ๋ฏธ๋ถ„๊ฐ’์ด ํ•„์š” ์ด๋ฅผ Jacobian (์•ผ์ฝ”๋น„์•ˆ) matrix ๋ผ๊ณ  ํ•จ. 4-4) Neural Networks Neural Networks(์ธ๊ณต ์‹ ๊ฒฝ๋ง)์€ ์•ž์—์„œ ๋ฐฐ์šด Linear Classifier์„ 2๊ฐœ ์ด์ƒ ์Œ“์•„์˜ฌ๋ฆฌ๋Š” ํ˜•ํƒœ. ์ด ์‚ฌ์ด์— Non-linear functio.. 2023. 7. 8.
[Standford_cs231n] Lecture 5 ) Convolutional Neural Networks 1. Convolutional Neural networks 1. Convolutional Layer Stride ์ŠคํŠธ๋ผ์ด๋“œ(stride) ์ด๋ฏธ์ง€๋ฅผ ์Šฌ๋ผ์ด๋”ฉ ํ•  ๋•Œ ์›€์ง์ด๋Š” step์˜ ํฌ๊ธฐ. ์–˜๋Š” ์ŠคํŠธ๋ผ์ด๋“œ 2 2. Convolutional Layer Pad ํ•„ํ„ฐ ํฌ๊ธฐ์— ๋”ฐ๋ผ์„œ ์ถœ๋ ฅ ๊ฐ€๋กœ ์„ธ๋กœ ๊ธธ์ด๊ฐ€ ์ค„์–ด๋“ฌ padding์„ ์“ฐ๋ฉด ์›๋ณธ ํฌ๊ธฐ ์œ ์ง€, ์ด๋ฏธ์ง€ ๊ฐ€์žฅ์ž๋ฆฌ ๊ณ„์‚ฐ ๋œ ๋˜๋Š” ๊ฒƒ์„ ๋ง‰์„ ์ˆ˜ ์žˆ์Œ 3. Convolutional Layer Output Size W : input image width F : Filter width S : Stride P : Pad Output W : (W - F + 2*P)/S + 1 4. Convolution Layer์˜ Backpropagation ์ฒ˜์Œ์— ํ•„ํ„ฐ๊ฐ€ ๋นจํŒŒ๋…ธ์ดˆ ํ•„.. 2023. 7. 7.
[Standford_cs231n] Lecture 6 ) Training Neural Networks I 1. Activation Functions ํ™œ์„ฑํ™” ํ•จ์ˆ˜: ์ถœ๋ ฅ๊ฐ’์„ ํ™œ์„ฑํ™”๋ฅผ ์ผ์œผํ‚ค๊ฒŒ ํ•  ๊ฒƒ์ธ๊ฐ€๋ฅผ ์ •ํ•˜๊ณ  ๊ทธ ๊ฐ’์„ ๋ถ€์—ฌํ•˜๋Š” ํ•จ์ˆ˜. ์‚ฌ์šฉํ•˜๋Š” ์ด์œ : Data๋ฅผ ๋น„์„ ํ˜•์œผ๋กœ ๋ฐ”๊พธ๊ธฐ ์œ„ํ•จ ์™œ ๋น„์„ ํ˜•์œผ๋กœ ๋ฐ”๊พธ๋Š”๊ฐ€?: ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ⇒ ์„ ํ˜•ํ•จ์ˆ˜์˜ ๊ฒฝ์šฐ, ๋ง์ด ๊นŠ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌ. ์•„๋ฌด๋ฆฌ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค๊ณ  ํ•ด๋„ ex) h(x)= cx(์ผ์ฐจํ•จ์ˆ˜) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x๋กœ ๋ฐ–์— ์•ˆ๋จ. ๊ฒฐ๊ตญ ๊ฐ™์€ ์„ ํ˜• ํ•จ์ˆ˜์ž„.๋”ฐ๋ผ์„œ, ๋‰ด๋Ÿด๋„คํŠธ์›Œํฌ์—์„œ ์ธต์„ ์Œ“๋Š” ํ˜œํƒ์„ ์–ป๊ณ  ์‹ถ๋‹ค๋ฉด, ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋กœ๋Š” ๋ฐ˜๋“œ์‹œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉ. ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ž…๋ ฅ์ด ๋“ค์–ด๊ฐˆ ๋•Œ, ์ถœ๋ ฅ๊ฐ’์ด ์„ ํ˜•์œผ๋กœ ๋‚˜์˜ค์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๋ง์„ ๊นŠ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์  ์กด์žฌ. ⇒ ๊ฒฐ๊ตญ linearํ•œ ์—ฐ์‚ฐ.. 2023. 7. 7.
[Standford_cs231n] Lecture 7 ) Training Neural Networks II 1. Optimization SGD: ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ• (๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•) Mini batch GD: ๋ฐฐ์น˜ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์„œ ๋ฐฐ์น˜๋งˆ๋‹ค ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ SGD + Momentum: ๊ธฐ์กด์— ๊ด€์„ฑ ํ•ฉ์นœ ๊ฒƒ(์†๋„) ⇒ ๊ณ„์† ๊ฐ€๋ ค๋˜ ์„ฑ์งˆ ํ™œ์šฉ NAG: ์ด์ „ ์†๋„๋กœ ํ•œ๊ฑธ์Œ ๋ฏธ๋ฆฌ ๊ฐ€๋ณด๊ณ  ๊ธฐ์šธ๊ธฐ ๊ตฌํ•ด์„œ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ• Adagrad: ์ „์ฒด์˜ ์†์‹คํ•จ์ˆ˜ ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋ฅผ ํ•™์Šต์‹œ์ผœ์„œ ๋‹ค์Œ ํ•™์Šต๋ฅ  ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ PMSprop: Adagrad ๋‹จ์  ๋ณด์™„ ⇒ ์ตœ๊ทผ ๊ณก๋ฉด ๋ณ€ํ™”๋Ÿ‰๋งŒ ๊ฐ€์ ธ์™€์„œ ํ•™์Šต๋ฅ  ์ •ํ•ด์คŒ Adam: pmsprop + momentum 1-1) optimization ์„ค๋ช… ๋”ฅ๋Ÿฌ๋‹์˜ ํ•™์Šต์—์„œ๋Š” ์ตœ๋Œ€ํ•œ ํ‹€๋ฆฌ์ง€ ์•Š๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•ด ๋‚˜๊ฐ€์•ผ ํ•จ. ์—ฌ๊ธฐ์„œ ์–ผ๋งˆ๋‚˜ ํ‹€๋ฆฌ๋Š”์ง€ ์•Œ๊ฒŒ ํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ loss function (์†์‹คํ•จ์ˆ˜) ์ž„. .. 2023. 7. 7.
[Standford_cs231n] Lecture 8 ) Deep Learning Software 1. CPU vs GPU CPU๋Š” ์ปดํ“จํ„ฐ์˜ ๋‡Œ์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„ ์ปดํ“จํ„ฐ์—์„œ ๊ตฌ์„ฑ ๋‹จ์œ„ ์ค‘ ๊ธฐ์–ต, ํ•ด์„, ์—ฐ์‚ฐ, ์ œ์–ด๋ถ€๋ถ„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ค‘์š”ํ•œ ๋…€์„์ด๋‹ค. ์ข€ ๋” ์ ์€ core์˜ ์ˆ˜๋กœ ์—ฐ์†์ ์ธ ์ผ์„ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ CPU๊ฐ€ ์ž์ฃผ ์“ฐ์ธ๋‹ค GPU๋Š” computer graphics๋ฅผ Renderingํ•˜๊ธฐ ์œ„ํ•ด ์“ฐ์ด๋Š” ๋…€์„์ด๋‹ค. ๋” ๋งŽ์€ core๋กœ ์ผ์„ ๋ณ‘๋ ฌ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ณ  ์‹ถ์„ ๋•Œ GPU๊ฐ€ ์ž์ฃผ ์“ฐ์ธ๋‹ค. GPU๋Š” ๋‚ด๋ถ€์ ์œผ๋กœ ์ž์ฒด์ ์ธ RAM์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ⇒ GPU์˜ ์ข…๋ฅ˜๋Š” ํฌ๊ฒŒ ์„ธ๊ฐ€์ง€ CUDA OpenCL Udacity 2. Deep Learning Framework ๋”ฅ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„ ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š”? Computational Graph๋ฅผ ์‰ฝ๊ฒŒ buildํ•˜๊ธฐ ์œ„ํ•ด Gradient ๊ณ„์‚ฐ์„ ์‰ฝ๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด GPU์—์„œ ํšจ๊ณผ์ .. 2023. 7. 7.
728x90
๋ฐ˜์‘ํ˜•