๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90
๋ฐ˜์‘ํ˜•

Deep Learning/2023 DL ๊ธฐ์ดˆ ์ด๋ก  ๊ณต๋ถ€28

[Standford_cs231n] Lecture 6 ) Training Neural Networks I 1. Activation Functions ํ™œ์„ฑํ™” ํ•จ์ˆ˜: ์ถœ๋ ฅ๊ฐ’์„ ํ™œ์„ฑํ™”๋ฅผ ์ผ์œผํ‚ค๊ฒŒ ํ•  ๊ฒƒ์ธ๊ฐ€๋ฅผ ์ •ํ•˜๊ณ  ๊ทธ ๊ฐ’์„ ๋ถ€์—ฌํ•˜๋Š” ํ•จ์ˆ˜. ์‚ฌ์šฉํ•˜๋Š” ์ด์œ : Data๋ฅผ ๋น„์„ ํ˜•์œผ๋กœ ๋ฐ”๊พธ๊ธฐ ์œ„ํ•จ ์™œ ๋น„์„ ํ˜•์œผ๋กœ ๋ฐ”๊พธ๋Š”๊ฐ€?: ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ⇒ ์„ ํ˜•ํ•จ์ˆ˜์˜ ๊ฒฝ์šฐ, ๋ง์ด ๊นŠ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌ. ์•„๋ฌด๋ฆฌ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค๊ณ  ํ•ด๋„ ex) h(x)= cx(์ผ์ฐจํ•จ์ˆ˜) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x๋กœ ๋ฐ–์— ์•ˆ๋จ. ๊ฒฐ๊ตญ ๊ฐ™์€ ์„ ํ˜• ํ•จ์ˆ˜์ž„.๋”ฐ๋ผ์„œ, ๋‰ด๋Ÿด๋„คํŠธ์›Œํฌ์—์„œ ์ธต์„ ์Œ“๋Š” ํ˜œํƒ์„ ์–ป๊ณ  ์‹ถ๋‹ค๋ฉด, ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋กœ๋Š” ๋ฐ˜๋“œ์‹œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉ. ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ž…๋ ฅ์ด ๋“ค์–ด๊ฐˆ ๋•Œ, ์ถœ๋ ฅ๊ฐ’์ด ์„ ํ˜•์œผ๋กœ ๋‚˜์˜ค์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๋ง์„ ๊นŠ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์  ์กด์žฌ. ⇒ ๊ฒฐ๊ตญ linearํ•œ ์—ฐ์‚ฐ.. 2023. 7. 7.
[Standford_cs231n] Lecture 7 ) Training Neural Networks II 1. Optimization SGD: ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ• (๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•) Mini batch GD: ๋ฐฐ์น˜ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์„œ ๋ฐฐ์น˜๋งˆ๋‹ค ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ SGD + Momentum: ๊ธฐ์กด์— ๊ด€์„ฑ ํ•ฉ์นœ ๊ฒƒ(์†๋„) ⇒ ๊ณ„์† ๊ฐ€๋ ค๋˜ ์„ฑ์งˆ ํ™œ์šฉ NAG: ์ด์ „ ์†๋„๋กœ ํ•œ๊ฑธ์Œ ๋ฏธ๋ฆฌ ๊ฐ€๋ณด๊ณ  ๊ธฐ์šธ๊ธฐ ๊ตฌํ•ด์„œ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ• Adagrad: ์ „์ฒด์˜ ์†์‹คํ•จ์ˆ˜ ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋ฅผ ํ•™์Šต์‹œ์ผœ์„œ ๋‹ค์Œ ํ•™์Šต๋ฅ  ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ PMSprop: Adagrad ๋‹จ์  ๋ณด์™„ ⇒ ์ตœ๊ทผ ๊ณก๋ฉด ๋ณ€ํ™”๋Ÿ‰๋งŒ ๊ฐ€์ ธ์™€์„œ ํ•™์Šต๋ฅ  ์ •ํ•ด์คŒ Adam: pmsprop + momentum 1-1) optimization ์„ค๋ช… ๋”ฅ๋Ÿฌ๋‹์˜ ํ•™์Šต์—์„œ๋Š” ์ตœ๋Œ€ํ•œ ํ‹€๋ฆฌ์ง€ ์•Š๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•ด ๋‚˜๊ฐ€์•ผ ํ•จ. ์—ฌ๊ธฐ์„œ ์–ผ๋งˆ๋‚˜ ํ‹€๋ฆฌ๋Š”์ง€ ์•Œ๊ฒŒ ํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ loss function (์†์‹คํ•จ์ˆ˜) ์ž„. .. 2023. 7. 7.
[Standford_cs231n] Lecture 8 ) Deep Learning Software 1. CPU vs GPU CPU๋Š” ์ปดํ“จํ„ฐ์˜ ๋‡Œ์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„ ์ปดํ“จํ„ฐ์—์„œ ๊ตฌ์„ฑ ๋‹จ์œ„ ์ค‘ ๊ธฐ์–ต, ํ•ด์„, ์—ฐ์‚ฐ, ์ œ์–ด๋ถ€๋ถ„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ค‘์š”ํ•œ ๋…€์„์ด๋‹ค. ์ข€ ๋” ์ ์€ core์˜ ์ˆ˜๋กœ ์—ฐ์†์ ์ธ ์ผ์„ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ CPU๊ฐ€ ์ž์ฃผ ์“ฐ์ธ๋‹ค GPU๋Š” computer graphics๋ฅผ Renderingํ•˜๊ธฐ ์œ„ํ•ด ์“ฐ์ด๋Š” ๋…€์„์ด๋‹ค. ๋” ๋งŽ์€ core๋กœ ์ผ์„ ๋ณ‘๋ ฌ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ณ  ์‹ถ์„ ๋•Œ GPU๊ฐ€ ์ž์ฃผ ์“ฐ์ธ๋‹ค. GPU๋Š” ๋‚ด๋ถ€์ ์œผ๋กœ ์ž์ฒด์ ์ธ RAM์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ⇒ GPU์˜ ์ข…๋ฅ˜๋Š” ํฌ๊ฒŒ ์„ธ๊ฐ€์ง€ CUDA OpenCL Udacity 2. Deep Learning Framework ๋”ฅ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„ ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š”? Computational Graph๋ฅผ ์‰ฝ๊ฒŒ buildํ•˜๊ธฐ ์œ„ํ•ด Gradient ๊ณ„์‚ฐ์„ ์‰ฝ๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด GPU์—์„œ ํšจ๊ณผ์ .. 2023. 7. 7.
[Standford_cs231n] Lecture 1 ) Introduction to Convolutional Neural Networks for Visual Recognition ์ปดํ“จํ„ฐ ๋น„์ „์˜ ์—ญ์‚ฌ 1. ์ปดํ“จํ„ฐ ๋น„์ „์ด๋ž€ ⇒ ์ตœ๊ทผ ์ธํ„ฐ๋„ท ํŠธ๋ž˜ํ”ฝ ์ค‘ 80%๊ฐ€ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์ผ ๋งŒํผ ์—„์ฒญ๋‚œ ์–‘์˜ ์‹œ๊ฐ์  ๋ฐ์ดํ„ฐ๋“ค์ด ์Ÿ์•„์ ธ ๋‚˜์˜ค๋Š” ๊ฒƒ์„ ์œ ํŠœ๋ธŒ๋งŒ ๋ด๋„ ๋Š๋‚„ ์ˆ˜ ์žˆ์Œ. ⇒ ์ด ๋ฐ์ดํ„ฐ๋“ค์„ ํšจ๊ณผ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ณ  ๋ถ„์„ํ•ด์„œ, ์ปดํ“จํ„ฐ๋กœ ํ•˜์—ฌ๊ธˆ ์ธ๊ฐ„์˜ ์‹œ๊ฐ์ ์ธ ์ธ์‹ ๋Šฅ๋ ฅ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋„๋ก ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ๋ฐœํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๊ณ , ์ด๊ฒƒ์„ ์ปดํ“จํ„ฐ ๋น„์ „์ด๋ผ ํ•จ. 2. ์ปดํ“จํ„ฐ ๋น„์ „์˜ ์—ญ์‚ฌ 1950s Hubel๊ณผ Wiesel ์ƒ๋ฌผ์˜ ์‹œ๊ฐ์  ๋งค์ปค๋‹ˆ์ฆ˜์„ ์ฐพ๊ณ ์ž ๊ณ ์–‘์ด ๋‡Œ์— ์ „๊ทน์„ ๊ฝ‚์•„ ์‹คํ—˜ ์ง„ํ–‰ ๊ณ ์–‘์ด์—๊ฒŒ ์–ด๋– ํ•œ ์‹œ๊ฐ์  ์ž๊ทน์„ ์ฃผ์–ด์•ผ ๊ณ ์–‘์ด์˜ ๋‡Œ์˜ 1์ฐจ ์‹œ๊ฐ ํ”ผ์งˆ์˜ ๋‰ด๋Ÿฐ๋“ค์ด ๊ฒฉ๋ ฌํ•˜๊ฒŒ ๋ฐ˜์‘ํ• ์ง€์— ๋Œ€ํ•ด ์‹คํ—˜ ์ง„ํ–‰ ์‹œ๊ฐ์  input์˜ edges๊ฐ€ ์›€์ง์ผ ๋•Œ ๋ฐ˜์‘ํ•˜๋Š” ๋‹จ์ˆœํ•œ ์„ธํฌ์— ์ดˆ์ ์„ ๋‘  ⇒ "์‹œ๊ฐ ์ฒ˜๋ฆฌ๋Š” edges์™€ ๊ฐ™์€ ๋‹จ์ˆœํ•œ .. 2023. 7. 7.
728x90
๋ฐ˜์‘ํ˜•