๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/2023 DL ๊ธฐ์ดˆ ์ด๋ก  ๊ณต๋ถ€

[Standford_cs231n] Lecture 7 ) Training Neural Networks II

by ์ œ๋ฃฝ 2023. 7. 7.
728x90
๋ฐ˜์‘ํ˜•

 

1. Optimization
  1. SGD: ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ• (๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•)
  1. Mini batch GD: ๋ฐฐ์น˜ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์„œ ๋ฐฐ์น˜๋งˆ๋‹ค ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ
  1. SGD + Momentum: ๊ธฐ์กด์— ๊ด€์„ฑ ํ•ฉ์นœ ๊ฒƒ(์†๋„) ⇒ ๊ณ„์† ๊ฐ€๋ ค๋˜ ์„ฑ์งˆ ํ™œ์šฉ
  1. NAG: ์ด์ „ ์†๋„๋กœ ํ•œ๊ฑธ์Œ ๋ฏธ๋ฆฌ ๊ฐ€๋ณด๊ณ  ๊ธฐ์šธ๊ธฐ ๊ตฌํ•ด์„œ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•
  1. Adagrad: ์ „์ฒด์˜ ์†์‹คํ•จ์ˆ˜ ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋ฅผ ํ•™์Šต์‹œ์ผœ์„œ ๋‹ค์Œ ํ•™์Šต๋ฅ  ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ
  1. PMSprop: Adagrad ๋‹จ์  ๋ณด์™„ ⇒ ์ตœ๊ทผ ๊ณก๋ฉด ๋ณ€ํ™”๋Ÿ‰๋งŒ ๊ฐ€์ ธ์™€์„œ ํ•™์Šต๋ฅ  ์ •ํ•ด์คŒ
  1. Adam: pmsprop + momentum
1-1) optimization ์„ค๋ช…
  • ๋”ฅ๋Ÿฌ๋‹์˜ ํ•™์Šต์—์„œ๋Š” ์ตœ๋Œ€ํ•œ ํ‹€๋ฆฌ์ง€ ์•Š๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•ด ๋‚˜๊ฐ€์•ผ ํ•จ.
  • ์—ฌ๊ธฐ์„œ ์–ผ๋งˆ๋‚˜ ํ‹€๋ฆฌ๋Š”์ง€ ์•Œ๊ฒŒ ํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ loss function (์†์‹คํ•จ์ˆ˜) ์ž„.
  • ์ด ์†์‹คํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•ด ๋†“์œผ๋ฉด ๊ฐ€์ค‘์น˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ข‹๊ณ  ๋‚˜์œ์ง€๋ฅผ ์•Œ๋ ค์คŒ.
  • loss function์˜ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ์•„๊ฐ€๋Š” ๊ฒƒ์„ ์ตœ์ ํ™”๋ผ๊ณ  ํ•˜๋ฉฐ, ์ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ฐ”๋กœ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž„.
  • optimizer์€ loss๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด weight์™€ learning rate ์™€ ๊ฐ™์€ neural network ์†์„ฑ์„ ๋ณ€๊ฒฝํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜
1-1-1) Gradient Descent
  • ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ด์ง€๋งŒ ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • linear regression ๋ฐ classification ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋จ.
  • neural network backpropagation์€ Gradient Descent ์‚ฌ์šฉ.
  • ์ด ์นœ๊ตฌ๋Š” loss function์˜ 1์ฐจ ๋„ํ•จ์ˆ˜์— ์˜์กดํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • ํ•จ์ˆ˜๊ฐ€ ์ตœ์†Ÿ๊ฐ’์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋„๋ก backpropagation์„ ํ†ตํ•ด weight๋ฅผ ๋ณ€๊ฒฝํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•จ.
  • loss๊ฐ€ ํ•œ layer์—์„œ ๋‹ค๋ฅธ layer๋กœ ์ „๋‹ฌ๋˜๊ณ  parameter(weight)๊ฐ€ loss์— ๋”ฐ๋ผ ์ˆ˜์ •๋˜์–ด loss๋ฅผ ์ตœ์†Œํ™” ํ•  ์ˆ˜ ์žˆ์Œ.
1-2) SGD(Stochastic Gradient Descent)
  • ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๊ฐ trainig example๋งˆ๋‹ค ํ•œ ๋ฒˆ์”ฉ ๊ณ„์‚ฐ๋˜๋ฉด์„œ ๋ฐ”๋€œ
  • ex) ๋ฐ์ดํ„ฐ์…‹์ด 1000๊ฐœ์˜ row๋ฅผ ๊ฐ–๊ณ  ์žˆ์œผ๋ฉด SGD๋Š” ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ํ•œ cycle์—์„œ parameter์„ 1000๋ฒˆ ์—…๋ฐ์ดํŠธ ์‹œํ‚ด.
  • ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๊ณ„์† ์—…๋ฐ์ดํŠธ ๋˜๋‹ค ๋ณด๋‹ˆ ์†์‹คํ•จ์ˆ˜ ๋ณ€๋™์ด ํฌ๊ฒŒ ๋จ.
  • SGD๋Š” ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ์•ˆ์—์„œ loss๋ฅผ ๊ณ„์‚ฐํ•จ
  • ๊ทธ๋ ˆ๋””์–ธํŠธ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์„ ์ด์šฉํ•ด ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒกํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธ
  • ๋ฌธ์ œ์ 
    1. ์†๋„๊ฐ€ ๋Š๋ฆผ
    • f(x, y) = $x^2+y^2$ ๊ฐ™์€ ๊ทธ๋ž˜ํ”„๋ผ๊ณ  ํ•˜๋ฉด ๊ฐ๊ฐ ๋ฏธ๋ถ„ ํ•จ์ˆ˜๋Š” dx ์™€ dy๊ฐ€ ๋  ๊ฒƒ์ž„.
    • ์ด ๋•Œ ์ˆ˜ํ‰๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๊ธฐ์šธ๊ธฐ ๋ณ€ํ™”๊ฐ€ ์ž‘๊ณ , ์ˆ˜์ง ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๊ธฐ์šธ๊ธฐ๊ฐ€ ๊ฐ€ํŒŒ๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์ง€๊ทธ์žฌ๊ทธ๋กœ.
    • ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ€์ค‘์น˜๊ฐ€ 2๊ฐœ๋ผ๊ณ  ๊ฐ€์ •ํ–ˆ์„ ๋•Œ, ํ•˜๋‚˜์˜ ๊ธฐ์šธ๊ธฐ๋Š” ๋ณ€ํ™”๊ฐ€ ์ž‘๊ณ , ํ•˜๋‚˜์˜ ๊ธฐ์šธ๊ธฐ๋Š” ๋ณ€ํ™”๊ฐ€ ํฌ๋‹ค๋ฉด ์ €๋ ‡๊ฒŒ ์ง€๊ทธ์žฌ๊ทธ๋กœ ๊ฐ€๊ฒŒ ๋  ๊ฒƒ์ž„. ⇒ ๋‘ ๋ฒกํ„ฐ์˜ ํ•ฉ ๋ฐฉํ–ฅ์œผ๋กœ ์›€์ง์—ฌ์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ. ๊ทธ๋ž˜์„œ ์†๋„๊ฐ€ ์ •๋ง ๋Š๋ฆผ.
    • ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ์—„์ฒญ๋‚˜๊ฒŒ ๋ฏผ๊ฐํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ์™„๋งŒํ•จ.
    1. local minima
    • ๊ตด๊ณก์ด ์žˆ๋Š” ๋ชจ์–‘์—์„œ๋Š” gradient๊ฐ€ 0์ด ๋˜๋ฉด์„œ ๋ฉˆ์ถฐ๋ฒ„๋ฆผ.
    • gradient๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜๋Š” ๊ฒƒ์ธ๋ฐ ์ € ์ƒํ™ฉ์—์„œ๋Š” 0์ด ๋˜๊ณ , ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์€ loss๊ฐ€ ์ปค์ง€๋Š” ๋ฐฉํ–ฅ์ด๋ฏ€๋กœ ํ•™์Šต์ด ๋ฉˆ์ถ”๊ฒŒ ๋จ.
    1. saddle point
    • ํ•œ์ชฝ์œผ๋กœ๋Š” ์ฆ๊ฐ€ํ•˜๊ณ , ๋‹ค๋ฅธ ํ•œ์ชฝ์€ ๊ฐ์†Œ. ์ € ์ค‘๊ฐ„ ์นœ๊ตฌ๋Š” ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ 0์ด ๋˜์–ด๋ฒ„๋ฆผ.
    • ๊ณ ์ฐจ์› ๊ทธ๋ž˜ํ”„์—์„œ ํ”ํžˆ ์ƒ๊ธฐ๋Š” ๋ฌธ์ œ์ž„.
    • ์™„๋ฒฝํžˆ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์€ ์•„๋‹ˆ์ง€๋งŒ, ๊ทธ ์ฃผ๋ณ€์ด ๊ต‰์žฅํžˆ ์™„๋งŒํ•ด์„œ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋Š๋ฆฌ๊ฒŒ ์ง„ํ–‰ํ•˜๊ณ  ๊ทธ๊ณณ์— ์•ˆ์ฃผํ•˜๊ฒŒ ๋จ.

    Monkey Saddle

    • ์™ผ์ชฝ๊ฐ™์ด ์ƒ๊ธด Monkey Saddle์ด๋ž€ ๊ทธ๋ž˜ํ”„๊ฐ€ ์žˆ๋‹ค.
    • ๊ฐ€์šด๋ฐ ๋„“๊ณ  ๊ฑฐ์˜ ํ‰ํ‰ํ•œ ๋ถ€๋ถ„์œผ๋กœ ๊ฐ€์ค‘์น˜๊ฐ€ ์—…๋ฐ์ดํŠธ ๋˜๋ฉด, ๊ทธ ์ฃผ๋ณ€์˜ ๊ธฐ์šธ๊ธฐ๋„ ๊ต‰์žฅํžˆ ์™„๋งŒํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์—…๋ฐ์ดํŠธ๊ฐ€ ๋งค์šฐ ๋”๋””๊ฒŒ ์ง„ํ–‰๋˜๊ณ  ๊ฑฐ์˜ ๋ฉˆ์ถฐ๋ฒ„๋ฆฌ๋Š” ํ˜„์ƒ์ด ์ƒ๊ธด๋‹ค.

    ⇒ ๋”ฐ๋ผ์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜์–ด๋„ ๋ฉˆ์ถ”์ง€ ์•Š๊ฒŒ ํ•˜๋Š” ํž˜์ด ํ•„์š”ํ•จ.

1-3) Mini-Batch Gradient Descent
  • ๋ฐ์ดํ„ฐ์…‹์„ ๋ฐฐ์น˜ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„๊ณ  ๋งค ๋ฐฐ์น˜ ํ›„์— ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์—…๋ฐ์ดํŠธ ๋˜๋Š” ๋ฐฉ๋ฒ•.
  • ๋‹ค์–‘ํ•œ ๋ฐฐ์น˜๋กœ ๋‚˜๋‰˜๊ณ  ๋งค ๋ฐฐ์น˜ ํ›„์— ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ ๋จ.
1-4) SGD + Momentum
  • mementum ⇒ ๊ณ„์† ๋‚ด๋ ค๊ฐ€๋˜ ์„ฑ๊ฒฉ์ด์˜€๋‹ค๋ฉด ๊ณ„์† ๋‚ด๋ ค๊ฐ€๊ฒŒ.
  • ์ฆ‰, ๊ฐ€์†๋„์˜ ๊ฐœ๋…์ด ์ถ”๊ฐ€๋œ ๊ฒƒ์ด๋ผ๊ณ  ๋ณด๋ฉด ๋จ.
  • ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ธ ์ง€์ ์ด ์žˆ๋‹ค ํ•œ๋“ค, ๋‚ด๋ ค์˜ค๋˜ ์†๋„์— ์˜ํ–ฅ ๋ฐ›์•„์„œ ์ญ‰ ๋‚ด๋ ค๊ฐ.
  • 1๋‹จ๊ณ„: ์†๋„ ์—…๋ฐ์ดํŠธ⇒ t+1์ง€์ ์—์„œ์˜ ์†๋„๋ฅผ ์ง์ „๋‹จ๊ณ„์ธ t์ง€์ ์—์„œ์˜ ์†๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜ˆ์ธก.
  • ์ง์ „ ์ง€์ ์—์„œ์˜ ์†๋„ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ ๋ คํ•ด์„œ ์—…๋ฐ์ดํŠธ ํ•˜๋˜, ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ๋น ๋ฅด๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š” ๊ฒƒ์„ ์ œํ•œํ•˜๊ธฐ ์œ„ํ•ด ๋งˆ์ฐฐ๊ณ„์ˆ˜(rho) ์‚ฌ์šฉ.
  • rho๋Š” ๋ณดํ†ต 0.99๋‚˜ 0.9 ์‚ฌ์šฉ
  • 2๋‹จ๊ณ„: ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ⇒ loss ํ•จ์ˆ˜์—์„œ t+1์ง€์ ์˜ ๊ฒฝ์šฐ ์ง์ „์ง€์ ์—์„œ์˜ ํ•™์Šต๋ฅ  ์ง€์ ์—์„œ์˜ ์˜ˆ์ธก ์†๋„๋ฅผ ๊ณ ๋ คํ•ด ์—…๋ฐ์ดํŠธ ์ง„ํ–‰.
  • ๋‹ค์‹œ ๋งํ•ด ์†๋„๊ฐ€ ์ถ”๊ฐ€ ๋๋‚˜ ์•ˆ๋๋‚˜์˜ ์ฐจ์ด.
  • ๋”ฐ๋ผ์„œ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ๋ชจ๋ฉ˜ํ…€์€ ๋” ํฐ ์Šคํ…์œผ๋กœ ๊ฐ ⇒ ์†๋„ํ•ญ ๋•Œ๋ฌธ์—.
  • ์ง€๊ทธ์žฌ๊ทธ์˜ ์ƒํ™ฉ์ด๋ผ๋ฉด momentum์ด ๋ณ€๋™์„ ์ƒ์‡„์‹œ์ผœ๋ฒ„๋ฆผ.
  • ์ด๋ฅผ ํ†ตํ•ด ๋ฏผ๊ฐํ•œ ์ˆ˜์ง ๋ฐฉํ–ฅ์˜ ๋ณ€๋™์€ ์ค„์—ฌ์ฃผ๊ณ  ์ˆ˜ํ‰๋ฐฉํ–ฅ์˜ ์›€์ง์ž„์€ ๊ฐ€์†ํ™” ์‹œํ‚ด.
  • ๋ฌธ์ œ์ 
    • ๊ณ„์† ๋‚ด๋ ค๊ฐ€๋Š” ์„ฑ์งˆ์„ ๋ณด์ด๊ฒŒ ๋˜๋ฉด ๊ณ„์† ๋‚ด๋ ค๊ฐ.
    • ๊ฒฝ์‚ฌ๊ฐ€ ๊ฐ€ํŒŒ๋ฅด๋ฉด ๋น ๋ฅธ ์†๋„๋กœ ๋‚ด๋ ค์˜ค๋‹ค๊ฐ€ ์ตœ์†Œ ์ง€์ ์„ ๋งŒ๋‚˜๋ฉด gradient๋Š” ์ˆœ๊ฐ„์ ์œผ๋กœ ์ž‘์•„์ง€์ง€๋งŒ ์†๋„๋Š” ๋น ๋ฅด๊ธฐ ๋–„๋ฌธ์— ์ตœ์†Œ ์ง€์ ์„ ์ง€๋‚˜์น˜๊ฒŒ ๋จ. ⇒ overshooting ๋ฌธ์ œ
    • ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๊ด€์„ฑ์„ ํ™œ์šฉํ•ด์„œ ๊ทน์†Ÿ๊ฐ’์œผ๋กœ๋ถ€ํ„ฐ ๋น ์ ธ๋‚˜์˜ฌ ์ˆ˜๋„.
1-5) Nesterov Accelerated Gradient
  • ๋ชจ๋ฉ˜ํ…€์„ ๋” ์—…๊ทธ๋ ˆ์ด๋“œ ํ•œ ๋ฐฉ๋ฒ• ⇒ ์˜ค๋ฒ„์ŠˆํŒ…์„ ๋ณด์™„ํ•œ ๋ฐฉ๋ฒ•.
  • ํ˜„์žฌ ์†๋„๋กœ ํ•œ๊ฑธ์Œ ๋ฏธ๋ฆฌ ๊ฐ€๋ณด๊ณ  ์˜ค๋ฒ„์ŠˆํŒ…๋œ ๋งŒํผ ๋‹ค์‹œ ๋‚ด๋ฆฌ๋ง‰๊ธธ๋กœ ๊ฐ.
  • ์ฆ‰, ๋ฏธ๋ฆฌ ์˜ˆ์ธกํ•ด๋ณด๊ณ  ๊ฐ€๋Š” ๋ฐฉ๋ฒ•.
  • ๊ธฐ์กด ๋ชจ๋ฉ˜ํ…€์˜ ๊ฒฝ์šฐ, ์ง์ „ ์ง€์ ์˜ gradient์™€ ์†๋„ ๋ฒกํ„ฐ์˜ ํ•ฉ๋ฒกํ„ฐ๋กœ ๋‹ค์Œ ์Šคํ…์˜ ์ง€์ ์„ ๊ตฌํ•จ
  • but, ์ด ์นœ๊ตฌ์˜ ๊ฒฝ์šฐ, ์ง์ „์ง€์ ์—์„œ ์†๋„๋ฒกํ„ฐ๋งŒํผ ์ด๋™ํ•œ ์ง€์ (์ด์ „์—์„œ ๋ฏธ๋ฆฌ ํ•œ๋ฒˆ ๋” ๊ฐ€๋ด„)์—์„œ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ตฌํ•ด์„œ ์—…๋ฐ์ดํŠธํ•ด์คŒ.
  • ์ฆ‰ ์ง์ „์ง€์ (xt)์—์„œ ๋ฏธ๋ฆฌ ์†๋„๋ฒกํ„ฐ ๊ตฌํ•ด์„œ ๊ฐ€๋ณธ๊ฐ’์˜ ๋ฏธ๋ถ„ํ•œ ๊ธฐ์šธ๊ธฐ๋ฅผ ์—…๋ฐ์ดํŠธ(loss)๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋นผ์คŒ. ⇒ ํ•ด์„œ ๋‹ค์Œ์ง€์ ์— ๋”ํ•ด์คŒ.
  • ์ด๋•Œ p๋Š” rho๊ฐ’.
1-6) Adagrad
  • ์†์‹คํ•จ์ˆ˜ ๊ณก๋ฉด์˜ ๋ณ€ํ™”์— ๋”ฐ๋ผ ์ ์‘์ ์œผ๋กœ ํ•™์Šต๋ฅ ์„ ์ •ํ•˜๋Š” ๊ฒƒ.
  • ํ•™์Šต๋ฅ ์„ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋งž์ถคํ˜• ๊ฐ’์„ ๋งŒ๋“ค์–ด์คŒ(ํ•™์Šต๋ฅ ์„ ์„œ์„œํžˆ ๋‚ฎ์ถฐ์คŒ)
  1. learning rate decay(ํ•™์Šต๋ฅ  ๊ฐ์†Œ)
  • ์ดˆ๋ฐ˜์—๋Š” ํฐ ํญ์œผ๋กœ ์ด๋™ํ•˜์—ฌ ์ตœ๋Œ€ํ•œ ๋น ๋ฅด๊ฒŒ ๋‚ด๋ ค๊ฐ€๊ณ , ์ ์ฐจ ํ•™์Šต๋ฅ ์„ ์ค„์—ฌ ์กฐ์‹ฌ์Šค๋Ÿฝ๊ฒŒ ๋‚ด๋ ค๊ฐ€๋Š” ๋ฐฉ๋ฒ•
  1. adaptive learning rate(์ ์‘์  ํ•™์Šต๋ฅ )
  • ex) ์†์‹คํ•จ์ˆ˜์˜ ๊ฒฝ์‚ฌ๊ฐ€ ๊ฐ€ํŒŒ๋ฅผ ๋•Œ ํฐํญ์œผ๋กœ ์ด๋™ํ•˜๋ฉด์„œ ์ตœ์ ํ™” ๊ฒฝ๋กœ๋ฅผ ๋ฒ—์–ด๋‚˜๊ฑฐ๋‚˜ ์ตœ์†Œ ์ง€์ ์„ ์ง€๋‚˜์น  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ž‘์€ ํญ์œผ๋กœ ์ด๋™ํ•จ. ๊ฒฝ์‚ฌ๊ฐ€ ์™„๋งŒํ•˜๋ฉด ํฐ ํญ์œผ๋กœ ์ด๋™.
  • y์ถ• ๋ฐฉํ–ฅ์˜ ๊ฒฝ์šฐ, ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ปค์„œ ์ฒ˜์Œ์—๋Š” ํฌ๊ฒŒ ์›€์ง์ž„
  • ์ด ํฐ ์›€์ง์ž„์ด h๋ฅผ ํฌ๊ฒŒ ๋งŒ๋“ฌ(๊ธฐ์šธ๊ธฐ์˜ ์ œ๊ณฑ) ⇒ ์ฒ˜์Œ์—๋Š” ํฌ๊ฒŒ ์›€์ง์ด์ง€๋งŒ, h๋ฅผ ๊ฐฑ์‹  ์‹œํ‚ค๋ฉด์„œ ํ•™์Šต๋ฅ (๋ณดํญ)์„ ์ž‘๊ฒŒ
  • → y์ถ• ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐฑ์‹  ๊ฐ•๋„๊ฐ€ ๋น ๋ฅด๊ฒŒ ์•ฝํ•ด์ง. ์ง€๊ทธ์žฌ๊ทธ ์›€์ง์ž„๋„ ์ค„์–ด๋“ฆ(lr ํšจ๊ณผ)
  • ๊ฒฝ์‚ฌ๊ฐ€ ์™„๋งŒํ•  ๋•Œ๋Š” ์ตœ์ ํ•ด ๊ฒฝ๋กœ๊ฐ€ ์•„๋‹ ์ˆ˜ ์žˆ๊ธฐ์— ํฐ ํญ์œผ๋กœ ์ด๋™ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Œ
  • ๊ฒฝ์‚ฌ๊ฐ€ ๊ฐ€ํŒŒ๋ฅผ ๋•Œ ํฐ ํญ์œผ๋กœ ์ด๋™ํ•  ๊ฒฝ์šฐ, ์ตœ์ ํ™” ๊ฒฝ๋กœ๋ฅผ ๋ฒ—์–ด๋‚˜๊ฒŒ ๋จ(์ตœ์†Œ ์ง€์ ์„ ๋ฒ—์–ด๋‚˜๋Š”)

  • ๊ทธ๋Ÿฌ๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋Ÿ‰์— ํ•™์Šต๋ฅ ์ด ์ ์‘์ ์œผ๋กœ ์กฐ์ •๋˜์–ด์•ผ.
  • ์ด์ „ ๊ฒฝ์‚ฌ๋„๋ฅผ ๋ˆ„์ ํ•œ๊ฑธ ๊ฐ€์ง€๊ณ  ๊ณฑํ•ด์„œ ์ ์‘์‹œํ‚ค๋Š”๊ฑฐ.
  • ์ด์ „ ๊ฐ’๋“ค์„ ๊ณ„์† ๊ณฑํ•ด์„œ ๋ˆ„์ .
  • SGD ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ ์‹์—์„œ ํ•™์Šต๋ฅ ์„ ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋Ÿ‰์˜ ์ œ๊ณฑ๊ทผ์œผ๋กœ ๋‚˜๋ˆ ์ฃผ๋ฉด ์ ์‘์  ํ•™์Šต๋ฅ ์ด ๋จ.
  • ์ฆ‰, ์ง์ „ ์‹œ์ ์—์„œ์˜ ๊ฐ’์—์„œ ์ ์‘์  ํ•™์Šต๋ฅ  ๊ฐ’์„ ๋นผ๋ฉด ๋จ.⇒ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ณ„๋กœ ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋Ÿ‰์„ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํŒŒ๋ผ๋ฏธํ„ฐ ๋ณ„๋กœ ๊ฐœ๋ณ„ ํ•™์Šต๋ฅ ์„ ๊ฐ€์ง€๋Š” ํšจ๊ณผ ์ƒ์„ฑ. ⇒ ๋” ์ •ํ™•ํ•˜๊ณ  ๋น ๋ฅด๊ฒŒ ๊ฐˆ ์ˆ˜ ์žˆ์Œ.
  • ๋ฌธ์ œ์ 
    • ํ•™์Šต ์กฐ๊ธฐ ์ค‘๋‹จ ํ˜„์ƒ⇒ ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋Ÿ‰์„ ์ „์ฒด ๊ฒฝ๋กœ์˜ ๊ธฐ์šธ๊ธฐ ๋ฒกํ„ฐ ํฌ๊ธฐ๋กœ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์ด ์ง„ํ–‰๋ ์ˆ˜๋ก ๊ณก๋ฉด์˜ ๋ณ€ํ™”๋Ÿ‰์€ ์ ์ ์ปค์ง€๊ณ , ํ•™์Šต๋ฅ ์€ ์ ์  ์ž‘์•„์ง๊ทธ๋ž˜์„œ ๋‚˜์˜จ ๊ฒƒ์ด RMSProp.
    • ์ฆ‰, ๊ฒฝ์‚ฌ๊ฐ€ ๊ฐ€ํŒŒ๋ฅธ ๊ณณ์—์„œ ํ•™์Šต ์‹œ์ž‘ํ–ˆ์œผ๋ฉด ์ดˆ๋ฐ˜๋ถ€ํ„ฐ ์ ์‘์  ํ•™์Šต๋ฅ ์ด ๊ฐ์†Œํ•˜๊ธฐ ์‹œ์ž‘ํ•ด์„œ ์กฐ๊ธฐ ํ•™์Šต ์ค‘๋‹จ๋  ์ˆ˜๋„.
1-7) RMSProp
  • Adagrad์˜ ํ•™์Šต์กฐ๊ธฐ์ค‘๋‹จ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์˜จ ๊ฒƒ.
  • ๊ณก๋ฉด ๋ณ€ํ™”๋Ÿ‰์„ ์ธก์ •ํ•  ๋•Œ ์ „์ฒด ๊ฒฝ๋กœ๊ฐ€ ์•„๋‹Œ ์ตœ๊ทผ ๊ฒฝ๋กœ์˜ ๋ณ€ํ™”๋Ÿ‰์„ ์ธก์ •ํ•˜๋ฉด ๊ณก๋ฉด ๋ณ€ํ™”๋Ÿ‰์ด ๋ˆ„์ ๋˜์–ด ๊ณ„์†ํ•ด์„œ ์ฆ๊ฐ€ํ•˜๋Š” ํ˜„์ƒ์„ ์—†์•จ ์ˆ˜ ์žˆ์Œ.
  • PMSProp์€ ์ตœ๊ทผ ๊ฒฝ๋กœ์˜ ๊ณก๋ฉด ๋ณ€ํ™”๋Ÿ‰์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ง€์ˆ˜๊ฐ€์ค‘์ด๋™ํ‰๊ท  ์‚ฌ์šฉ.
  • ์ง€์ˆ˜๊ฐ€์ค‘์ด๋™ํ‰๊ท ์˜ค๋ž˜๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ง€์ˆ˜์ ์œผ๋กœ ๊ฐ์‡ ํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•.

 

  • B๊ฐ€ ์ถ”๊ฐ€๋œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Œ.
  • ๋ˆ„์ ๋œ grad_squaered ํ•ญ์—๋Š” B๋ฅผ ๊ณฑํ•˜๊ณ , ํ˜„์žฌ์˜ dxํ•ญ์—๋Š” 1-B๋ฅผ ๊ตฌํ•ด์„œ ๋ˆ„์ ๋˜๋Š” ์†๋„๋ฅผ ์ค„์—ฌ์คŒ.

  • RMSProp ์˜ ์žฅ์ ์€ ๋ฏธ๋ถ„๊ฐ’์ด ํฐ ๊ณณ์—์„œ๋Š” ์—…๋ฐ์ดํŠธ ํ•  ๋•Œ ํฐ ๊ฐ’์œผ๋กœ ๋‚˜๋ˆ ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด ํ•™์Šต๋ฅ  ๋ณด๋‹ค ์ž‘์€ ๊ฐ’์œผ๋กœ ์—…๋ฐ์ดํŠธ๋จ → ์ง„๋™ ์ค„์ด๋Š”๋ฐ ๋„์›€ ๋จ.
  • ๋ฐ˜๋ฉด ๋ฏธ๋ถ„๊ฐ’์ด ์ž‘์€ ๊ณณ์—์„œ๋Š” ์—…๋ฐ์ดํŠธ์‹œ ์ž‘์€ ๊ฐ’์œผ๋กœ ๋‚˜๋ˆ ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด ํ•™์Šต๋ฅ  ๋ณด๋‹ค ํฐ ๊ฐ’์œผ๋กœ ์—…๋ฐ์ดํŠธ๋จ.
  • ๋ฌธ์ œ์ 
    • r(t+1) + e ⇒ ์ ์‘์  ํ•™์Šต๋ฅ ์„ ์˜๋ฏธํ•˜๋Š”๋ฐ, B๊ฐ€ 0.99๋ผ๊ณ  ๊ฐ€์ •ํ•˜๋ฉด r1์€ 0.01๋กœ ๊ฐ’์ด ์ž‘์•„์ง. ์ด ๊ฐ’์„ ์ € x+1์‹์— ๋„ฃ๊ฒŒ๋˜๋ฉด ๋ถ„๋ชจ๊ฐ€ ์ž‘์•„์ง€๋ฏ€๋กœ ๋นผ์ง€๋Š” ๊ฐ’์ด ์ปค์ง€๊ฒŒ ๋จ.
    • ์ฆ‰, ์ถœ๋ฐœ ์ง€์ ์—์„œ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ์ง€์ ์œผ๋กœ ์ด๋™ํ•˜๊ฒŒ ๋จ.

    ⇒ ๊ธฐ์กด ํ•™์Šต๋ฅ  ๋ณด๋‹ค ํฐ ๊ฐ’์œผ๋กœ ์—…๋ฐ์ดํŠธ๋จ.

    ⇒ ์ด๊ฑธ ๋ฐ”๋กœ ํ•™์Šต ์ดˆ๊ธฐ ๊ฒฝ๋กœ ํŽธํ–ฅ ๋ฌธ์ œ๋ผ๊ณ  ํ•จ.

    ⇒ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์˜จ๊ฒŒ ๋ฐ”๋กœ adam์ž„.

1-8) Adam
  • PMSProp + Momentum ํ•ฉ์นจ.
  • ์ฒ˜์Œ์— ๊ด€์„ฑ์„ ๊ตฌํ•˜๊ณ  ๊ด€์„ฑ์„ ์ด์šฉํ•ด์„œ ์ง€์ˆ˜๊ฐ€์ค‘์ด๋™ํ‰๊ท  ๊ตฌํ•จ. ⇒ pmsprop๊ณผ ๋‹ค๋ฅธ ์ ์„ ์†๋„(๊ด€์„ฑ)์„ ๊ณฑํ•œ๋‹ค๋Š”๊ฑฐ.
    < ์ดˆ๊ธฐ ๊ฒฝ๋กœ ํŽธํ–ฅ ์ œ๊ฑฐ >
  • pmsprop์—์„œ์˜ ์ฒ˜์Œ ๋‹จ๊ณ„๋Š”
  • ์ฒ˜์Œ์— ์ด๋ ‡๊ฒŒ ๋‚˜์˜ค๊ณ , ์ด๋™ํ•˜๋Š”๊ฒŒ ์ปค์ง. ๊ทธ๋ž˜์„œ ์ดˆ๋ฐ˜๋ถ€ํ„ฐ ๋„ˆ๋ฌด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ์ด๋™ํ•˜๋Š” ๋ฌธ์ œ ๋ฐœ์ƒ⇒ ํ•˜์ง€๋งŒ Adam์˜ ์‹ ๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š”
    • r0๋Š” 0์ด๊ณ , ๊ฒฐ๊ตญ์— (1-b2) ์„ธ๋ชจ ๊ธฐ์šธ๊ธฐ ์ œ๊ณฑ / (1-b2) ์ด๋ฏ€๋กœ 1-b2 ์‚ฌ๋ผ์ ธ์„œ
    ์ด ๊ฐ’์ด ๋‚˜์˜ด. ๊ฒฐ๊ตญ์€ ์ œ๊ณฑ๊ฐ’์ด๋ฏ€๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ์•„์ฃผ ์ž‘์•„์งˆ ์ผ์ด ์—†์Œ.๊ทธ๋ฆฌ๊ณ  ํ›ˆ๋ จ ์ง„ํ–‰๋ ์ˆ˜๋ก B1, B2๋Š” ์ž‘์•„์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋ถ„๋ชจ๋Š” ๋‘˜๋‹ค ๊ฑฐ์˜ 1๋กœ ๋ฐ”๋€Œ๊ฒŒ ๋จ ⇒ ๊ฒฐ๊ตญ ์›๋ž˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๋ณ€ํ•˜๊ฒŒ ๋จ. (๊ธฐ์กด PMSProp ์‹)
  • ๋”ฐ๋ผ์„œ ํ•™์Šต ์ดˆ๋ฐ˜์— ํ•™์Šต๋ฅ ์ด ๊ธ‰๊ฒฉํžˆ ์ปค์ง€๋Š” ํŽธํ–ฅ์ด ์ œ๊ฑฐ๋จ.
+ 1์ฐจ ๊ทผ์‚ฌ์™€ 2์ฐจ ๊ทผ์‚ฌ
  • ํ˜„์žฌ๊นŒ์ง€ ๋ฐฐ์šด loss๋Š” 1์ฐจ ๊ทผ์‚ฌ์ž„.

First-Order Optimization

Second-Order Optimizaion

  • 2์ฐจ ๊ทผ์‚ฌ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๋” minima์— ๋” ์ž˜ ์ ‘๊ทผ ๊ฐ€๋Šฅ.
  • ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— learning rate ํ•„์š” ์—†์Œ.
2. Ensemble Models
  • ๋ชจ๋ธ์„ ํ•˜๋‚˜๋งŒ ํ•™์Šต ์‹œํ‚ค๋Š” ๊ฒƒ์ด ์•„๋‹Œ 10๊ฐœ์˜ ๋ชจ๋ธ์„ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต ์‹œํ‚ค๋Š” ๊ฒƒ. ์ด๋ฅผ ๋ชจ๋ธ ์•™์ƒ๋ธ”์ด๋ผ ๋ถ€๋ฆ„.
  1. 10๊ฐœ ๋ชจ๋ธ ๊ฐ ๊ตฌํ•ด์„œ ํ‰๊ท ๋‚ด๊ธฐ
  1. ํ•˜๋‚˜์˜ ๋ชจ๋ธ์—์„œ ํ•™์Šต ์ค‘๊ฐ„์ค‘๊ฐ„์˜ ๊ฐ’๋“ค์„ ์ €์žฅํ•ด๋†“๊ณ  ํ‰๊ท ๊ฐ’ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•
  1. learning rate๋ฅผ ๋‚ฎ์ท„๋‹ค๊ฐ€ ๋†’์˜€๋‹ค๊ฐ€๋ฅผ ๋ฐ˜๋ณตํ•ด์„œ ํ•™์Šต ๊ณผ์ •์—์„œ loss ํ•จ์ˆ˜์˜ ๋‹ค์–‘ํ•œ ์ง€์—ญ์—์„œ ์ˆ˜๋ ดํ•˜๋„๋ก ๋งŒ๋“ฌ. ๊ทธ๋ฆฌ๊ณ  ์ˆ˜๋ ดํ•  ๋•Œ๋งˆ๋‹ค์˜ ๊ฐ’์„ ์ €์žฅํ•ด๋†“๊ณ  ํ‰๊ท ๋‚ด๊ธฐ.
  1. ๋“ฑ์ด ์žˆ๋‹ค~
3. Regularization
  • ๊ทœ์ œํ™”๋ฅผ ํ•˜๋Š” ์ด์œ ๋Š” ๊ฒฐ๊ตญ ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ฐฉ์ง€ ํ•˜๊ธฐ ์œ„ํ•ด์„œ์ž„
  • ๊ทธ๋ž˜์„œ ์ €๋ ‡๊ฒŒ 4๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ๊ทœ์ œํ™” ๋ฐฉ๋ฒ•์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋„ฃ์€ ๋“ฏ.
1. dropout
2. Batch normalize
  • ์ƒ๋žต.
3. Data Augmentation
  1. horizontal flips
  1. random crops and scales
  1. color jitter
4. stochastic depth
  • skip connection๊ณผ ๊ฐ™์€ ใ„ฑ๊ฒƒ.
4. Transfer learning(์žฌํ•™์Šต)
  • ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜' ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ–ˆ๋˜ ๋„คํŠธ์›Œํฌ(DNN;Deep Neural Network)๋ฅผ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹ ํ˜น์€ ๋‹ค๋ฅธ ๋ฌธ์ œ(task)์— ์ ์šฉ์‹œ์ผœ ํ‘ธ๋Š” ๊ฒƒ์„ ์˜๋ฏธ
  • ์ด ๋ฐฉ๋ฒ•์œผ๋กœ๋„ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์œผ๋กœ ์ธํ•œ ์˜ค๋ฒ„ํ”ผํŒ… ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ ํ•  ์ˆ˜ ์žˆ์Œ
  • ์ด ์นœ๊ตฌ๋Š” ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๊ฒ๋‚˜ ๋งŽ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฑธ ๊บ ์คŒ
  • ์žฌํ•™์Šต
  • ์•ž์„œ ํ•™์Šต๋œ ํ”ผ์ฒ˜๋“ค์„ ์šฐ๋ฆฌ๊ฐ€ ํ•™์Šต์‹œํ‚ฌ ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธ.
  • ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ๊ฒฝ์šฐ
    • ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ์ถœ๋ ฅ ํด๋ž˜์Šค ์ˆ˜ C๋ฅผ ์ถœ๋ ฅํ•˜๋„๋ก ์ œ์ผ ๋งˆ์ง€๋ง‰ layer๋งŒ ์ดˆ๊ธฐํ™” ํ•œ ํ›„, ์ด layer๋ฅผ ์ œ์™ธํ•œ ๋‚˜๋จธ์ง€ layer๋Š” freeze์‹œํ‚จ ํ›„, ํ•™์Šต์„ ์ง„ํ–‰ํ•œ๋‹ค.
    • ์ฆ‰, ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ layer๋งŒ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค.
  • ๋ฐ์ดํ„ฐ๊ฐ€ ์กฐ๊ธˆ ๋” ์žˆ๋Š” ๊ฒฝ์šฐ
    • ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ๊ฒฝ์šฐ์—์„œ์™€ ๊ฐ™์ด ๋งˆ์ง€๋ง‰ layer๋ฅผ ์ดˆ๊ธฐํ™” ํ•˜๋Š” ๊ฒƒ์€ ๋™์ผํ•˜์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ๋งŽ์œผ๋ฏ€๋กœ, ๋ช‡๊ฐœ์˜ layer๋ฅผ ๋” ํ•™์Šต์— ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

728x90
๋ฐ˜์‘ํ˜•