๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/2023 DL ๊ธฐ์ดˆ ์ด๋ก  ๊ณต๋ถ€

[๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์‹œ์ฆŒ 2] lab-09-1~4

by ์ œ๋ฃฝ 2023. 7. 9.
728x90
๋ฐ˜์‘ํ˜•

 

 

lab-09-1~4
09-1 ReLU
  • sigmoid์˜ ๊ฒฝ์šฐ, ๋ฏธ๋ถ„๊ฐ’์ด ๊ฑฐ์˜ 0์ด๊ธฐ์— ์—ญ์ „ํŒŒ๋ฅผ ํ•  ๊ฒฝ์šฐ, ์•ž ๋‹จ์—์„œ๋Š” ๊ฑฐ์˜ 0์— ์ˆ˜๋ ดํ•˜๊ฒŒ ๋จ.
  • ๋”ฐ๋ผ์„œ ReLU๊ฐ€ ๋‚˜์˜ค๊ฒŒ ๋จ.
09-2 Weight initialization
  • RBM์€ ๋‘ ๊ฐœ์˜ ์ธต(์ž…๋ ฅ์ธต 1๊ฐœ, ์€๋‹‰์ธต 1๊ฐœ)์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์€ ์•„๋‹˜
    • ๋‹ค๋งŒ RBM์€ ์‹ฌ์ธต ์‹ ๋ขฐ ์‹ ๊ฒฝ๋ง(DBN:Deep Belief Network)์„ ๊ตฌ์„ฑํ•˜๋Š” ์š”์†Œ๋กœ ์‚ฌ์šฉ
  • X→Y ์ถœ๋ ฅ, ๋ฐ˜๋Œ€๋กœ Y-X’๋กœ๋„ ๋ณต์› ๊ฐ€๋Šฅ
  • ๋ ˆ์ด์–ด ์•ˆ์— ์žˆ๋Š” ๋…ธ๋“œ๋ผ๋ฆฌ๋Š” ์„œ๋กœ ์—ฐ๊ฒฐ x
  • ๋‹ค๋ฅธ layer ์‚ฌ์ด์—๋Š” ์„œ๋กœ ์—ฐ๊ฒฐ o
  • ๋‘ ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• (forward ↔ backprop์„ ๋ฐ˜๋ณตํ•˜๋ฉด์„œ bias์™€ weight ์กฐ์ •)
  • RBM์„ ์—ฌ๋Ÿฌ๋ฒˆ ํ•™์Šต ํ•˜๋Š” ๊ฒƒ: DBM
  • pre-training, Fine-training ๋‘ ๊ฐ€์ง€ ๊ณผ์ •์œผ๋กœ ๋‚˜๋ˆ„์–ด์ง„๋‹ค.
  • Pre-training : ๋‘ layer ์‚ฌ์ด์—์„œ weight๋ฅผ ํ•™์Šต -> ๊ณ ์ • -> ์•ž ๋‹จ์˜ ๋‘ layer ์‚ฌ์ด์—์„œ ๋‹ค์‹œ weightํ•™์Šต, layer์˜ ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•œ๋‹ค.
  • Fine-training : ํ•™์Šต๋œ weight์„ ๊ฐ€์ง€๊ณ  ์ „์ฒด ๋ชจ๋ธ์—์„œ ํ•™์Šต์„ ์ง„ํ–‰ํ•œ๋‹ค.
  • ์‹ค์ œ๋กœ RBM/DBM์€ ๋ณต์žกํ•ด์„œ ์ž˜ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ
  • ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”๋กœ Xavier, he initialization, + batch nomalization๋„ ์‚ฌ์šฉ
09-3 Dropout
  • Underfitting : ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜์—ฌ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.
  • Overfitting : ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณผ๋„ํ•˜๊ฒŒ ํ•™์Šตํ•˜์—ฌ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ unseen data์— ๋Œ€ํ•ด์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€ ๋ชปํ•œ๋‹ค.
  • ์˜ค๋ฒ„ํ”ผํŒ… ๋ฐฉ์ง€
  1. ๋” ๋งŽ์€ ํŠธ๋ ˆ์ธ ๋ฐ์ดํ„ฐ
  1. ํ”ผ์ฒ˜ ์ˆ˜ ์ค„์ด๊ธฐ
  1. ์ •๊ทœํ™”
  1. dropout

> ํ•™์Šต์„ ์ง„ํ–‰์‹œ, drop out probability์— ๋งž์ถฐ ๋…ธ๋“œ(์ •์ , ๊ผญ์ง€์ )๋“ค์„ ๋น„ํ™œ์„ฑํ™” ํ•ด์ค€๋‹ค. > ๋น„ํ™œ์„ฑํ™”๋˜๋Š” node๋“ค์€ ์ž„์˜(random)๋กœ ์ •ํ•ด์ง„๋‹ค. > Drop out์€ overfitting์„ ๋ฐฉ์ง€ํ•˜๊ณ , ๋งค๋ฒˆ ๋žœ๋คํ•˜๊ฒŒ node๋“ค์ด ์„ ํƒ๋˜๊ธฐ์— ๋งค๋ฒˆ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋ชจ๋ธ๋กœ ํ•™์Šตํ•˜๋Š” ํšจ๊ณผ๋ฅผ ๊ฐ€์ง„๋‹ค.(์ฆ‰, network ensemble ํšจ๊ณผ)

09-4 Batch Normalization
  • gradient vanishing( gradiant๊ฐ€ ์ž‘์•„์ ธ์„œ ์†Œ๋ฉธํ•˜๋Š”)
  • ↔ exploding ๊ทธ ๋ฐ˜๋Œ€( gradiant๊ฐ€ ๋„ˆ๋ฌด ์ปค์ง€๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ)
  • ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ ํ•ด๊ฒฐ
  1. ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ๋ฐ”๊พธ๊ธฐ( eX) sigmoid → ReLU)
  1. ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”
  1. ์ž‘์€ ํ•™์Šต๋ฅ 
  1. ๋ฐฐ์น˜ ์ •๊ทœ
  • Layer๊ฐ€ ๋” ๊นŠ์–ด์งˆ์ˆ˜๋ก ๊ณ ์–‘์ด ์ด๋ฏธ์ง€ ๋ถ„ํฌ๊ฐ€ ์™œ๊ณก ๋˜๋Š” ํ˜„์ƒ์„ ๋ณด์ด๊ณ  ์žˆ๋‹ค.
  • ๊ณ ์–‘์ด ์ด๋ฏธ์ง€ ๋ถ„ํฌ๊ฐ€ ์™œ๊ณก์ด ๋˜๋ฉด ์ด๋ฏธ์ง€๋ฅผ ๊ณ ์–‘์ด๋กœ ์ธ์‹ํ•˜์ง€ ์•Š๋Š”๋‹ค.
  • layer๊ฐ€ ๋งŽ์„์ˆ˜๋ก ๋ณ€ํ™”๊ฐ€ ๋” ํฌ๊ฒŒ ๋ฐœ์ƒ (์•ž์˜ ๋ณ€ํ™”๊ฐ€ ๋ˆ„์ ๋˜๊ธฐ์—)
  • ๊ฐ€์ค‘์น˜๊ฐ€ ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ผ์ง€๋ฉด ์™„์ „ํžˆ ๋‹ค๋ฅธ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ .
  • ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๊ฐ layer์— ๋ฐฐ์น˜ ์ •๊ทœํ™” ๊ณผ์ •์„ ์ถ”๊ฐ€ํ•ด์ค€๋‹ค๋ฉด, ๊ฐ€์ค‘์น˜์˜ ์ฐจ์ด๋ฅผ ์™„ํ™”ํ•˜์—ฌ ๋ณด๋‹ค ์•ˆ์ •์ ์ธ ํ•™์Šต์ด ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค.

 

  • ๋จผ์ €, hidden layer์˜ ํ™œ์„ฑํ™”ํ•จ์ˆ˜ ์ž…๋ ฅ๊ฐ’or์ถœ๋ ฅ๊ฐ’ ์ƒํƒœ์ธ ๋ฐฐ์น˜์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•œ๋‹ค.
  • ์ดํ›„, ํ•ด๋‹น ๋ฐฐ์น˜๋ฅผ ํ‰๊ท  0, ๋ถ„์‚ฐ 1์ด ๋˜๋„๋ก ์ •๊ทœํ™”ํ•œ๋‹ค.
    • ์—ก์‹ค๋ก ์€ ๋ถ„๋ชจ๊ฐ€ 0 ์ด ๋˜๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•œ ์•„์ฃผ ์ž‘์€ ์ˆซ์ž(1e-5)์ด๋‹ค.
  • ์ •๊ทœํ™” ์ดํ›„, ๋ฐฐ์น˜ ๋ฐ์ดํ„ฐ๋“ค์„ scale(๊ฐ๋งˆ(γ)), shift(๋ฒ ํƒ€(β)) ๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๊ฐ’์œผ๋กœ ๋ฐ”๊พผ๋‹ค.
    • ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ„์† ์ •๊ทœํ™” ํ•˜๊ฒŒ ๋˜๋ฉด, ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๋น„์„ ํ˜• ์„ฑ์งˆ์„ ์žƒ๊ฒŒ ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค๋ฉด, ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด Sigmoid ํ•จ์ˆ˜๊ฐ€ ์žˆ์„ ๋•Œ, ์ž…๋ ฅ ๊ฐ’์ด N(0, 1) ์ด๋ผ๋ฉด, 95% ์˜ ์ž…๋ ฅ ๊ฐ’์€ Sigmoid ํ•จ์ˆ˜ ๊ทธ๋ž˜ํ”„์˜ ์ค‘๊ฐ„ (x = (-1.96, 1.96) ๊ตฌ๊ฐ„)์— ์†ํ•˜๊ฒŒ ๋œ๋‹ค.
    • ํ•ด๋‹น ๋ถ€๋ถ„์ด ์„ ํ˜•์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋น„์„ ํ˜• ์„ฑ์งˆ์„ ์žƒ๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค.
    • ํ•˜์ง€๋งŒ, ๊ฐ๋งˆ(γ), ๋ฒ ํƒ€(β)๋ฅผ ํ†ตํ•ด ํ™œ์„ฑํ•จ์ˆ˜๋กœ ๋“ค์–ด๊ฐ€๋Š” ๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ๋ฐ”๊ฟ”์คŒ์œผ๋กœ์จ, ๋น„์„ ํ˜• ์„ฑ์งˆ์„ ๋ณด์กดํ•˜๊ฒŒ ๋œ๋‹ค.
    • ๊ฐ๋งˆ(γ), ๋ฒ ํƒ€(β) ๊ฐ’์€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ณ€์ˆ˜์ด๋ฉฐ, Backpropagation์„ ํ†ตํ•ด์„œ ํ•™์Šต์ด ๋œ๋‹ค.

 

  • Layer๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก ๋ถ„ํฌ๊ฐ€ ์™œ๊ณก ๋˜๋Š” ํ˜„์ƒ์„ ๋ง‰๊ธฐ ์œ„ํ•ด์„œ ๊ฐ layer๋“ค๋งˆ๋‹ค Normalization์„ ํ•˜์—ฌ ๋ณ€ํ˜•๋œ ๋ถ„ํฌ๊ฐ€ ๋‚˜์˜ค์ง€ ์•Š๋„๋ก ํ•œ๋‹ค.
  • Normalization์„ ํ•˜๋ฉด activation function์˜ Non - linearity ์„ฑ์งˆ์„ ์žƒ๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
  • ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด์„œ Normalization๊ฐ’์— gamma๋ฅผ ๊ณฑํ•˜๊ณ  beta๋ฅผ ๋”ํ•œ ๋’ค back-prop ๊ณผ์ •์—์„œ gamma์™€ beta๋ฅผ ํ•™์Šต์‹œ์ผœ์ค€๋‹ค.

ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„

  • ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„๋‚˜ ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•  ๋ฏธ๋‹ˆ๋ฐฐ์น˜๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์ „์ฒด Training Set์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์‚ฌ์šฉํ•œ๋‹ค.
  • ํ•˜์ง€๋งŒ, ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ์€ ์ „์ฒด Training set์— ๋Œ€ํ•œ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์€ ๋ฌด๋ฆฌ์ด๊ธฐ ๋•Œ๋ฌธ์—,
  • ์•„๋ž˜์˜ ์‹๊ณผ ๊ฐ™์ด ๋ชจ๋ธ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉํ•œ, ๊ฐ n๊ฐœ์˜ ๋ฏธ๋‹ˆ๋ฐฐ์น˜์— ๋Œ€ํ•œ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์ด์šฉํ•ด, ์ „์ฒด Training Set์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๋Œ€์‹ ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ํ•˜์ง€๋งŒ, ์œ„์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ• ๋Œ€์‹ , ๋ฏธ๋ฆฌ ์ €์žฅํ•ด๋‘” n๊ฐœ์˜ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์˜ ์ด๋™ ํ‰๊ท ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๊ฒฐํ•œ๋‹ค.
    • ์ด๋Ÿฌํ•œ ์ด๋™ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์œ„ํ•ด, ๋ชจ๋ธ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๋งค ๋ฏธ๋‹ˆ๋ฐฐ์น˜๋งˆ๋‹ค ์ด๋™ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์ €์žฅํ•ด๋†”์•ผํ•œ๋‹ค.
    • ๊ทธ๋ž˜์•ผ ํ…Œ์ŠคํŠธ ์‹œ, ๋ชจ๋ธ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์ €์žฅํ•œ ์ด๋™ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ์œ„์˜ ์‹์—์„œ α๊ฐ’์€ ์ผ๋ฐ˜์ ์œผ๋กœ 1์— ๊ฐ€๊นŒ์šด 0.9, 0.99, 0.999๋กœ ์„ค์ •ํ•œ๋‹ค.

728x90
๋ฐ˜์‘ํ˜•