๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/2023 DL ๊ธฐ์ดˆ ์ด๋ก  ๊ณต๋ถ€

[ํŒŒ์ด์ฌ ๋”ฅ๋Ÿฌ๋‹ ํŒŒ์ดํ† ์น˜] Part3

by ์ œ๋ฃฝ 2023. 7. 8.
728x90
๋ฐ˜์‘ํ˜•

 

  • ๊ธฐ์กด ์‹ ๊ฒฝ๋ง์˜ ๋‹จ์ :
  1. ๊ณผ์ ํ•ฉ
  1. Gradient Vanishing
  1. ++ Internal Covariance Shift ํ˜„์ƒ ๋ฐœ์ƒ ( Input ๋ถ„ํฌ๊ฐ€ ๋‹ฌ๋ผ์ง์— ๋”ฐ๋ผ ํ•™์Šต ์†๋„๊ฐ€ ๋Š๋ ค์ง€๋Š” ํ˜„์ƒ

⇒ ์ด๋ฅผ ์™„ํ™”์‹œํ‚ค๊ณ ์ž ๋”ฅ๋Ÿฌ๋‹์ด ๋‚˜์˜ค๊ฒŒ ๋จ

๊ณผ์ ํ•ฉ๊ณผ ๊ธฐ์šธ๊ธฐ ๊ฐํ‡ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ ๋”ฅ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•
drop - out
  • ํ•™์Šต ์‹œ์—๋Š” dropout ์‹คํ–‰
  • ํ‰๊ฐ€ ์‹œ์—๋Š” drop out ์‚ฌ์šฉx (๋ชจ๋“  ๋…ธ๋“œ๋ฅผ ํ™œ์šฉํ•ด output ๊ณ„์‚ฐ)
activation ํ•จ์ˆ˜
  • relu ํ•จ์ˆ˜
  • ์ž…๋ ฅ ๊ฐ’์ด 0 ์ด์ƒ ๋ถ€๋ถ„์ด๋ฉด ๊ธฐ์šธ๊ธฐ 1, 0 ์ดํ•˜ ๋ถ€๋ถ„์€ 0 ⇒ ๋”ฐ๋ผ์„œ ์•„์˜ˆ ์—†์–ด์ง€๊ฑฐ๋‚˜ ์™„์ „ํžˆ ์‚ด๋ฆฌ๋Š” ๊ฒƒ์œผ๋กœ ํ•ด์„ ๊ฐ€๋Šฅ
  • ⇒ ๋ ˆ์ด์–ด๊ฐ€ ๊นŠ์–ด์ ธ๋„ Gradient Vanishing์ด ์ผ์–ด๋‚˜๋Š” ๊ฒƒ์„ ์™„ํ™”์‹œํ‚ด
Batch Normalization
  • Internal Covariance Shift ํ˜„์ƒ ๋ง‰๊ธฐ ์œ„ํ•ด ๋‚˜์˜ด
  • ์ •๊ทœํ™” ์‹œํ‚ด
Initialization
  • LeCun Initialization
  • Xavier Initialization (์ด์ „ ๋ ˆ์ด์–ด์˜ ๋…ธ๋“œ์ˆ˜์™€ ๋‹ค์Œ ๋ ˆ์ด์–ด์˜ ๋…ธ๋“œ ์ˆ˜์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜ ๊ฒฐ์ •์ง€์Œ)
  • He Initialization ( Relu ํ•จ์ˆ˜์—์„œ๋„ ์šฉ์ดํ•˜๊ฒŒ ์“ฐ์ผ ์ˆ˜ ์žˆ๋Š” ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•)
๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐฑ์‹ 
  • SGD
    • ์กฐ๊ธˆ์”ฉ ์ตœ์  ํ•ด๋ฅผ ์ฐพ์•„๊ฐ
    • ์ „์ฒด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด Back Propagation x
    • ๋ฐฐ์น˜ ๋‹จ์œ„๋กœ ์—ญ์ „ํŒŒ ์ง„ํ–‰ ⇒ ์ผ์ง์„ ์œผ๋กœ ๊ฐ€์ง€ ์•Š์Œ
  • Momentum
    • gradiant ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€๋˜ ๊ด€์„ฑ ์ถ”๊ฐ€
    • ๋ณดํญ์„ ํฌ๊ฒŒ ํ•˜๋Š” ๊ฐœ๋…
    • ๋”ฐ๋ผ์„œ ์ตœ์  ํ•ด๊ฐ€ ์•„๋‹Œ ์ง€์—ญํ•ด๋ฅผ ์ง€๋‚˜์น  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ 
  • NAG(nesterov Accelerated Gradient)
    • momentum์œผ๋กœ( ๊ด€์„ฑ) ์ด๋™ ํ›„ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ตฌํ•ด ์ด๋™ํ•˜๋Š” ๋ฐฉ์‹
  • Adagrad
    • ๊ฐ€๋ณด์ง€ ์•Š์€ ๊ณณ์€ ๋งŽ์ด ์›€์ง์ด๊ณ  ๊ฐ€๋ณธ ๊ณณ์€ ์กฐ๊ธˆ์”ฉ ์›€์ง์ด์ž!
  • PMSProp
    • Adagrad ๋‹จ์  ๋ณด์™„ํ•œ ๋ฐฉ๋ฒ•( ์ด์ „ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์† ๊ณฑํ•˜๊ธฐ์— ์–ด๋Š ์ˆœ๊ฐ„ 0์ด ๋จ)
  • Adadelta
    • Adagrad ๋‹จ์  ๋ณด์™„ํ•œ ๋ฐฉ๋ฒ•
    • ๊ธฐ์šธ๊ธฐ์˜ ์–‘์ด ๋„ˆ๋ฌด ์ ์–ด์ง€๋ฉด ์›€์ง์ž„์ด ๋ฉˆ์ถœ ์ˆ˜๋„
  • Adam
    • RMSProp + Momentum
  • RAdam
    • ํ•™์Šต ์ดˆ๊ธฐ์— ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋งค์šฐ ์ž‘์•„์ ธ์„œ ํ•™์Šต์ด ๋”์ด์ƒ ์ผ์–ด๋‚˜์ง€ ์•Š๋Š” ํ˜„์ƒ ๋ฐœ์ƒ → ์ด๋ฅผ ๋ณด์™„ํ•œ ๊ฒƒ์ด RAdam
๋น„์ง€๋„ํ•™์Šต
  • ํšŒ๊ท€์™€ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ์ง€๋„ํ•™์Šต but ๋น„์ง€๋„ ํ•™์Šต๋„ ์ ์ฐจ ๊ฐœ๋ฐœ๋จ
  • GAN
  • AE (Auto Encoder)
    • Input๊ณผ Output์„ ๋˜‘๊ฐ™์ด ์„ค์ •ํ•ด์ค˜์•ผ ํ•จ
    • Input data๋ฅผ latent space์— ์••์ถ•์‹œํ‚จ ํ›„ ์ƒˆ๋กœ์šด ํ”ผ์ฒ˜๋กœ ๋งŒ๋“ฌ ⇒ ์„ฑ๋Šฅ ๋†’์•„์ง, ์ฐจ์›์„ ์ค„์ž„
    • ๋ฐ์ดํ„ฐ๋ฅผ ์›๋ž˜ ๋ฐ์ดํ„ฐ๋กœ ์ž˜ ๋ณต์› ์‹œํ‚ค๋Š” ํ•™์Šต์„ ํ•จ
  • SAE(Stacked AutoEncoder) ์ธต์œผ๋กœ ์Œ“์€
    • AE์˜ ์ƒˆ๋กœ์šด ํ”ผ์ฒ˜๊ฐ€ ์œ ์˜๋ฏธ ํ•˜๋‹ค๋ฉด ์ด ํ”ผ์ฒ˜๋ฅผ ์Œ“์•„ ์˜ฌ๋ ค์„œ ํ•™์Šต → ๋” ์ข‹์€ ํ•™์Šต ๋ชจ๋ธ์ด ๋  ๊ฒƒ์ด๋‹ค!
    • input data๋กœ AE1 ํ•™์Šต
    • 1์—์„œ ํ•™์Šต๋œ ๋ชจํ˜•์˜ ์€๋‹‰์ธต(๋ฏผํŠธ์ƒ‰)์„ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋กœ ๋ฐ›์€ ํ›„ AE2 ํ•™์Šต
    • ๋ฐ˜๋ณต
    • ๋งˆ์ง€๋ง‰์—๋Š” ๋ถ„๋ฅ˜ ๊ธฐ๋Šฅ ํ•จ์ˆ˜ (softmax) ๋ฅผ ์‚ฌ์šฉ
    • fine tuning์œผ๋กœ ๋‹ค์ถฉ ์‹ ๊ฒฝ๋ง ๋‹ค์‹œ ์žฌํ•™์Šต
  • DAE(Denoising AutoEncoder) noise
    • ์•ˆ๊ฐœ ๋‚€ ์ƒํ™ฉ์—์„œ ์šด์ „์„ ์—ฐ์Šตํ•˜๋ฉด ์‹ค์ „์— ๋„์›€์ด ๋œ๋‹ค!์˜ ์˜๋ฏธ
    • input : x+ noise
    • output: x
    • ์ธํ’‹์— noise๋ฅผ ์ฒ˜์Œ์— ์ค˜์„œ ์‹ค์ œ ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™€๋„ ๊ฐ•๊ฑดํ•œ ๋ชจ๋ธ ๋งŒ๋“ค๊ฒ ๋‹ค!

 


728x90
๋ฐ˜์‘ํ˜•