๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90
๋ฐ˜์‘ํ˜•

Standfore_cs231n ๊ฐ•์˜8

[Standford_cs231n] Lecture 2 ) Image Classification 0. Image Classification Semantic gap: ์ด๋ฏธ์ง€๊ฐ€ ๊ณ ์–‘์ด๋ผ๋Š” ์‚ฌ์‹ค๊ณผ, ์‹ค์ œ ์ปดํ“จํ„ฐ๊ฐ€ ๋ณด๋Š” ์ € ์ˆซ์ž๊ฐ’์—๋Š” ํฐ ๊ฒฉ์ฐจ๊ฐ€ ์กด์žฌ ⇒ ์ด๋ฅผ ์‹œ๋ฉ˜ํ‹ฑ ๊ฐญ์ด๋ผ๊ณ  ์นญํ•จ. ์ฐ๋Š” ๊ตฌ๋„๋‚˜ ์กฐ๋ช…, ์ž์„ธ ๋ณ€ํ™”, ์‚ฌ๋ฌผ์— ๊ฐ€๋ ค์ง€๋Š” ๋“ฑ ์ด๋Ÿฌํ•œ ๋ณ€ํ™”์— ๋”ฐ๋ผ ํ”ฝ์…€๊ฐ’๋“ค์€ ๋ณ€ํ•˜๊ฒŒ ๋˜๋Š”๋ฐ, ๊ทธ๋Ÿผ์—๋„ ์ปดํ“จํ„ฐ๋Š” ‘๊ณ ์–‘์ด’๋ผ๊ณ  ์ธ์‹ ํ•  ์ˆ˜ ์žˆ์–ด์•ผํ•จ. ๊ทธ๋ž˜์„œ ์ด๋ฏธ์ง€์—์„œ edges์„ ์ถ”์ถœํ•˜๊ณ , ๊ท€๋ชจ์–‘์ด๋‚˜ ์ฝ”๋ชจ์–‘ ๊ฐ™์€ ๊ณ ์–‘์ด์—๊ฒŒ ํ•„์š”ํ•œ ์ง‘ํ•ฉ๋“ค์„ ํ•˜๋‚˜์”ฉ ์ฐพ์•„์„œ ์ด๋Ÿฌํ•œ ์ง‘ํ•ฉ๋“ค์ด ๋‹ค ์žˆ์œผ๋ฉด ๊ณ ์–‘์ด๋‹ค ๋ผ๊ณ  ์ธ์‹ํ•˜๊ฒŒ ํ•จ.⇒ ํ•˜์ง€๋งŒ ๋น„ํšจ์œจ์ , ์ž˜ ์ž‘๋™ํ•˜์ง€ ์•Š์Œ ⇒ ๋‹ค๋ฅธ ๊ฐ์ฒด(๊ฐ•์•„์ง€๋‚˜ ์ง‘)๋“ค์„ ์ธ์‹ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ทธ ํด๋ž˜์Šค์— ๋งž๋Š” ์ง‘ํ•ฉ์„ ๋˜ ํ•˜๋‚˜์”ฉ ๋‹ค ๋งŒ๋“ค์–ด์ค˜์•ผ ํ•˜๋Š” ๋ฌธ์ œ ๋ฐœ์ƒ. ↔ ์ด๋ž˜์„œ ๋‚˜์˜จ ๋ฐฉ๋ฒ•์ด ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ ๋ฐฉ๋ฒ•(Data-Driv.. 2023. 7. 8.
[Standford_cs231n] Lecture 3 ) Loss Functions and Optimization 1. Loss Function ์‚ฌ์ง„์—์„œ ๋ณด์ด๋Š” score๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก W์˜ ์˜ํ–ฅ๋ ฅ๋„ ์•ˆ์ข‹์€ ๊ฒƒ์ด๋ผ๊ณ  ๋งํ•  ์ˆ˜ ์žˆ์Œ( ๋ถ„๋ฅ˜๋ฅผ ์ž˜ ํ•˜์ง€ ๋ชปํ–ˆ์œผ๋ฏ€๋กœ ) W๊ฐ€ ์ข‹๋‹ค ์•ˆ์ข‹๋‹ค ์ •๋„๋กœ ์ •๋Ÿ‰ํ™” ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•จ ⇒ loss function W(๊ฐ€์ค‘์น˜)๊ฐ€ ์–ผ๋งŒํผ ์ข‹๊ณ  ์•ˆ์ข‹๋‹ค๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ ์†์‹คํ•จ์ˆ˜์ž„. SVM loss( hinge loss ) softmax loss( cross entropy ) 1-1) Multiclass SVM loss ์ •๋‹ตํด๋ž˜์Šค≥์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค+1 ⇒ loss=0 ( ๋งค์šฐ ์ข‹์Œ ) ex) cat๊ณผ car์˜ ๊ฒฝ์šฐ : ์ •๋‹ตํด๋ž˜์Šค(3.2)≥์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค(5.1)+1 ์ด ์•„๋‹ˆ๋ฏ€๋กœ ํ•ด๋‹น ๊ฐ’์„ loss ๊ฐ’์œผ๋กœ cat๊ณผ frog์˜ ๊ฒฝ์šฐ : ์ •๋‹ตํด๋ž˜์Šค(3.2)≥ ์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค(-1.7)+1 ์ด๋ฏ€.. 2023. 7. 8.
[Standford_cs231n] Lecture 4 ) Introduction to Neural Networks 4-1) Computational graphs 4-2) Backpropagation 4-3) Gradient for vectorized code ์•ž์—์„œ ํ•œ ๋‚ด์šฉ๋“ค์€ ์–ด๋–ค ํ•œ ๋ณ€์ˆ˜ ๊ฐ’์œผ๋กœ Gradient์„ ๊ณ„์‚ฐ ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ž…๋ ฅ๊ฐ’์€ scaler ๊ฐ’ ์ด ์•„๋‹Œ vector๊ฐ’ ์ด๋Ÿฌํ•œ vector๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค๋ณ€์ˆ˜ ๋ฒกํ„ฐ ํ•จ์ˆ˜(vector-valued function of multiple variables) ์— ๋Œ€ํ•œ ์ผ์ฐจ๋ฏธ๋ถ„๊ฐ’์ด ํ•„์š” ์ด๋ฅผ Jacobian (์•ผ์ฝ”๋น„์•ˆ) matrix ๋ผ๊ณ  ํ•จ. 4-4) Neural Networks Neural Networks(์ธ๊ณต ์‹ ๊ฒฝ๋ง)์€ ์•ž์—์„œ ๋ฐฐ์šด Linear Classifier์„ 2๊ฐœ ์ด์ƒ ์Œ“์•„์˜ฌ๋ฆฌ๋Š” ํ˜•ํƒœ. ์ด ์‚ฌ์ด์— Non-linear functio.. 2023. 7. 8.
[Standford_cs231n] Lecture 5 ) Convolutional Neural Networks 1. Convolutional Neural networks 1. Convolutional Layer Stride ์ŠคํŠธ๋ผ์ด๋“œ(stride) ์ด๋ฏธ์ง€๋ฅผ ์Šฌ๋ผ์ด๋”ฉ ํ•  ๋•Œ ์›€์ง์ด๋Š” step์˜ ํฌ๊ธฐ. ์–˜๋Š” ์ŠคํŠธ๋ผ์ด๋“œ 2 2. Convolutional Layer Pad ํ•„ํ„ฐ ํฌ๊ธฐ์— ๋”ฐ๋ผ์„œ ์ถœ๋ ฅ ๊ฐ€๋กœ ์„ธ๋กœ ๊ธธ์ด๊ฐ€ ์ค„์–ด๋“ฌ padding์„ ์“ฐ๋ฉด ์›๋ณธ ํฌ๊ธฐ ์œ ์ง€, ์ด๋ฏธ์ง€ ๊ฐ€์žฅ์ž๋ฆฌ ๊ณ„์‚ฐ ๋œ ๋˜๋Š” ๊ฒƒ์„ ๋ง‰์„ ์ˆ˜ ์žˆ์Œ 3. Convolutional Layer Output Size W : input image width F : Filter width S : Stride P : Pad Output W : (W - F + 2*P)/S + 1 4. Convolution Layer์˜ Backpropagation ์ฒ˜์Œ์— ํ•„ํ„ฐ๊ฐ€ ๋นจํŒŒ๋…ธ์ดˆ ํ•„.. 2023. 7. 7.
[Standford_cs231n] Lecture 6 ) Training Neural Networks I 1. Activation Functions ํ™œ์„ฑํ™” ํ•จ์ˆ˜: ์ถœ๋ ฅ๊ฐ’์„ ํ™œ์„ฑํ™”๋ฅผ ์ผ์œผํ‚ค๊ฒŒ ํ•  ๊ฒƒ์ธ๊ฐ€๋ฅผ ์ •ํ•˜๊ณ  ๊ทธ ๊ฐ’์„ ๋ถ€์—ฌํ•˜๋Š” ํ•จ์ˆ˜. ์‚ฌ์šฉํ•˜๋Š” ์ด์œ : Data๋ฅผ ๋น„์„ ํ˜•์œผ๋กœ ๋ฐ”๊พธ๊ธฐ ์œ„ํ•จ ์™œ ๋น„์„ ํ˜•์œผ๋กœ ๋ฐ”๊พธ๋Š”๊ฐ€?: ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ⇒ ์„ ํ˜•ํ•จ์ˆ˜์˜ ๊ฒฝ์šฐ, ๋ง์ด ๊นŠ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌ. ์•„๋ฌด๋ฆฌ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค๊ณ  ํ•ด๋„ ex) h(x)= cx(์ผ์ฐจํ•จ์ˆ˜) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x๋กœ ๋ฐ–์— ์•ˆ๋จ. ๊ฒฐ๊ตญ ๊ฐ™์€ ์„ ํ˜• ํ•จ์ˆ˜์ž„.๋”ฐ๋ผ์„œ, ๋‰ด๋Ÿด๋„คํŠธ์›Œํฌ์—์„œ ์ธต์„ ์Œ“๋Š” ํ˜œํƒ์„ ์–ป๊ณ  ์‹ถ๋‹ค๋ฉด, ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋กœ๋Š” ๋ฐ˜๋“œ์‹œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉ. ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ž…๋ ฅ์ด ๋“ค์–ด๊ฐˆ ๋•Œ, ์ถœ๋ ฅ๊ฐ’์ด ์„ ํ˜•์œผ๋กœ ๋‚˜์˜ค์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๋ง์„ ๊นŠ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์  ์กด์žฌ. ⇒ ๊ฒฐ๊ตญ linearํ•œ ์—ฐ์‚ฐ.. 2023. 7. 7.
[Standford_cs231n] Lecture 7 ) Training Neural Networks II 1. Optimization SGD: ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ• (๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•) Mini batch GD: ๋ฐฐ์น˜ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์„œ ๋ฐฐ์น˜๋งˆ๋‹ค ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ SGD + Momentum: ๊ธฐ์กด์— ๊ด€์„ฑ ํ•ฉ์นœ ๊ฒƒ(์†๋„) ⇒ ๊ณ„์† ๊ฐ€๋ ค๋˜ ์„ฑ์งˆ ํ™œ์šฉ NAG: ์ด์ „ ์†๋„๋กœ ํ•œ๊ฑธ์Œ ๋ฏธ๋ฆฌ ๊ฐ€๋ณด๊ณ  ๊ธฐ์šธ๊ธฐ ๊ตฌํ•ด์„œ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ• Adagrad: ์ „์ฒด์˜ ์†์‹คํ•จ์ˆ˜ ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋ฅผ ํ•™์Šต์‹œ์ผœ์„œ ๋‹ค์Œ ํ•™์Šต๋ฅ  ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ PMSprop: Adagrad ๋‹จ์  ๋ณด์™„ ⇒ ์ตœ๊ทผ ๊ณก๋ฉด ๋ณ€ํ™”๋Ÿ‰๋งŒ ๊ฐ€์ ธ์™€์„œ ํ•™์Šต๋ฅ  ์ •ํ•ด์คŒ Adam: pmsprop + momentum 1-1) optimization ์„ค๋ช… ๋”ฅ๋Ÿฌ๋‹์˜ ํ•™์Šต์—์„œ๋Š” ์ตœ๋Œ€ํ•œ ํ‹€๋ฆฌ์ง€ ์•Š๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•ด ๋‚˜๊ฐ€์•ผ ํ•จ. ์—ฌ๊ธฐ์„œ ์–ผ๋งˆ๋‚˜ ํ‹€๋ฆฌ๋Š”์ง€ ์•Œ๊ฒŒ ํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ loss function (์†์‹คํ•จ์ˆ˜) ์ž„. .. 2023. 7. 7.
728x90
๋ฐ˜์‘ํ˜•