728x90
๋ฐ์ํ
lab-09-1~4
09-1 ReLU
- sigmoid์ ๊ฒฝ์ฐ, ๋ฏธ๋ถ๊ฐ์ด ๊ฑฐ์ 0์ด๊ธฐ์ ์ญ์ ํ๋ฅผ ํ ๊ฒฝ์ฐ, ์ ๋จ์์๋ ๊ฑฐ์ 0์ ์๋ ดํ๊ฒ ๋จ.
- ๋ฐ๋ผ์ ReLU๊ฐ ๋์ค๊ฒ ๋จ.
09-2 Weight initialization
- RBM์ ๋ ๊ฐ์ ์ธต(์
๋ ฅ์ธต 1๊ฐ, ์๋์ธต 1๊ฐ)์ผ๋ก ๊ตฌ์ฑ๋์ด์๊ธฐ ๋๋ฌธ์ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ์๋
- ๋ค๋ง RBM์ ์ฌ์ธต ์ ๋ขฐ ์ ๊ฒฝ๋ง(DBN:Deep Belief Network)์ ๊ตฌ์ฑํ๋ ์์๋ก ์ฌ์ฉ
- X→Y ์ถ๋ ฅ, ๋ฐ๋๋ก Y-X’๋ก๋ ๋ณต์ ๊ฐ๋ฅ
- ๋ ์ด์ด ์์ ์๋ ๋ ธ๋๋ผ๋ฆฌ๋ ์๋ก ์ฐ๊ฒฐ x
- ๋ค๋ฅธ layer ์ฌ์ด์๋ ์๋ก ์ฐ๊ฒฐ o
- ๋ ๋ถํฌ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ์ธก์ ํ๋ ๋ฐฉ๋ฒ (forward ↔ backprop์ ๋ฐ๋ณตํ๋ฉด์ bias์ weight ์กฐ์ )
- RBM์ ์ฌ๋ฌ๋ฒ ํ์ต ํ๋ ๊ฒ: DBM
- pre-training, Fine-training ๋ ๊ฐ์ง ๊ณผ์ ์ผ๋ก ๋๋์ด์ง๋ค.
- Pre-training : ๋ layer ์ฌ์ด์์ weight๋ฅผ ํ์ต -> ๊ณ ์ -> ์ ๋จ์ ๋ layer ์ฌ์ด์์ ๋ค์ weightํ์ต, layer์ ๊ฐ์์ ๋ฐ๋ผ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ค.
- Fine-training : ํ์ต๋ weight์ ๊ฐ์ง๊ณ ์ ์ฒด ๋ชจ๋ธ์์ ํ์ต์ ์งํํ๋ค.
- ์ค์ ๋ก RBM/DBM์ ๋ณต์กํด์ ์ ์ฌ์ฉํ์ง ์์
- ๊ฐ์ค์น ์ด๊ธฐํ๋ก Xavier, he initialization, + batch nomalization๋ ์ฌ์ฉ
09-3 Dropout
- Underfitting : ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ์ฌ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
- Overfitting : ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๊ณผ๋ํ๊ฒ ํ์ตํ์ฌ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ unseen data์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง ๋ชปํ๋ค.
- ์ค๋ฒํผํ ๋ฐฉ์ง
- ๋ ๋ง์ ํธ๋ ์ธ ๋ฐ์ดํฐ
- ํผ์ฒ ์ ์ค์ด๊ธฐ
- ์ ๊ทํ
- dropout
> ํ์ต์ ์งํ์, drop out probability์ ๋ง์ถฐ ๋ ธ๋(์ ์ , ๊ผญ์ง์ )๋ค์ ๋นํ์ฑํ ํด์ค๋ค. > ๋นํ์ฑํ๋๋ node๋ค์ ์์(random)๋ก ์ ํด์ง๋ค. > Drop out์ overfitting์ ๋ฐฉ์งํ๊ณ , ๋งค๋ฒ ๋๋คํ๊ฒ node๋ค์ด ์ ํ๋๊ธฐ์ ๋งค๋ฒ ๋ค๋ฅธ ํํ์ ๋ชจ๋ธ๋ก ํ์ตํ๋ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋ค.(์ฆ, network ensemble ํจ๊ณผ)
09-4 Batch Normalization
- gradient vanishing( gradiant๊ฐ ์์์ ธ์ ์๋ฉธํ๋)
- ↔ exploding ๊ทธ ๋ฐ๋( gradiant๊ฐ ๋๋ฌด ์ปค์ง๊ฒ ๋๋ ๊ฒฝ์ฐ)
- ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ํด๊ฒฐ
- ํ์ฑํ ํจ์ ๋ฐ๊พธ๊ธฐ( eX) sigmoid → ReLU)
- ๊ฐ์ค์น ์ด๊ธฐํ
- ์์ ํ์ต๋ฅ
- ๋ฐฐ์น ์ ๊ท
- Layer๊ฐ ๋ ๊น์ด์ง์๋ก ๊ณ ์์ด ์ด๋ฏธ์ง ๋ถํฌ๊ฐ ์๊ณก ๋๋ ํ์์ ๋ณด์ด๊ณ ์๋ค.
- ๊ณ ์์ด ์ด๋ฏธ์ง ๋ถํฌ๊ฐ ์๊ณก์ด ๋๋ฉด ์ด๋ฏธ์ง๋ฅผ ๊ณ ์์ด๋ก ์ธ์ํ์ง ์๋๋ค.
- layer๊ฐ ๋ง์์๋ก ๋ณํ๊ฐ ๋ ํฌ๊ฒ ๋ฐ์ (์์ ๋ณํ๊ฐ ๋์ ๋๊ธฐ์)
- ๊ฐ์ค์น๊ฐ ์กฐ๊ธ๋ง ๋ฌ๋ผ์ง๋ฉด ์์ ํ ๋ค๋ฅธ ๊ฐ์ ์ป์ ์ ์๋ค๋ ์ .
- ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ฐ layer์ ๋ฐฐ์น ์ ๊ทํ ๊ณผ์ ์ ์ถ๊ฐํด์ค๋ค๋ฉด, ๊ฐ์ค์น์ ์ฐจ์ด๋ฅผ ์ํํ์ฌ ๋ณด๋ค ์์ ์ ์ธ ํ์ต์ด ์ด๋ฃจ์ด์ง ์ ์๋ค.
- ๋จผ์ , hidden layer์ ํ์ฑํํจ์ ์ ๋ ฅ๊ฐor์ถ๋ ฅ๊ฐ ์ํ์ธ ๋ฐฐ์น์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ๋ค.
- ์ดํ, ํด๋น ๋ฐฐ์น๋ฅผ ํ๊ท 0, ๋ถ์ฐ 1์ด ๋๋๋ก ์ ๊ทํํ๋ค.
- ์ก์ค๋ก ์ ๋ถ๋ชจ๊ฐ 0 ์ด ๋๋ ๊ฒ์ ๋ง๊ธฐ ์ํ ์์ฃผ ์์ ์ซ์(1e-5)์ด๋ค.
- ์ ๊ทํ ์ดํ, ๋ฐฐ์น ๋ฐ์ดํฐ๋ค์ scale(๊ฐ๋ง(γ)), shift(๋ฒ ํ(β)) ๋ฅผ ํตํด ์๋ก์ด ๊ฐ์ผ๋ก ๋ฐ๊พผ๋ค.
- ๋ฐ์ดํฐ๋ฅผ ๊ณ์ ์ ๊ทํ ํ๊ฒ ๋๋ฉด, ํ์ฑํ ํจ์์ ๋น์ ํ ์ฑ์ง์ ์๊ฒ ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
- ์๋ฅผ ๋ค๋ฉด, ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด Sigmoid ํจ์๊ฐ ์์ ๋, ์ ๋ ฅ ๊ฐ์ด N(0, 1) ์ด๋ผ๋ฉด, 95% ์ ์ ๋ ฅ ๊ฐ์ Sigmoid ํจ์ ๊ทธ๋ํ์ ์ค๊ฐ (x = (-1.96, 1.96) ๊ตฌ๊ฐ)์ ์ํ๊ฒ ๋๋ค.
- ํด๋น ๋ถ๋ถ์ด ์ ํ์ด๊ธฐ ๋๋ฌธ์, ๋น์ ํ ์ฑ์ง์ ์๊ฒ ๋๋ ๊ฒ์ด๋ค.
- ํ์ง๋ง, ๊ฐ๋ง(γ), ๋ฒ ํ(β)๋ฅผ ํตํด ํ์ฑํจ์๋ก ๋ค์ด๊ฐ๋ ๊ฐ์ ๋ฒ์๋ฅผ ๋ฐ๊ฟ์ค์ผ๋ก์จ, ๋น์ ํ ์ฑ์ง์ ๋ณด์กดํ๊ฒ ๋๋ค.
- ๊ฐ๋ง(γ), ๋ฒ ํ(β) ๊ฐ์ ํ์ต ๊ฐ๋ฅํ ๋ณ์์ด๋ฉฐ, Backpropagation์ ํตํด์ ํ์ต์ด ๋๋ค.
- Layer๊ฐ ๊น์ด์ง์๋ก ๋ถํฌ๊ฐ ์๊ณก ๋๋ ํ์์ ๋ง๊ธฐ ์ํด์ ๊ฐ layer๋ค๋ง๋ค Normalization์ ํ์ฌ ๋ณํ๋ ๋ถํฌ๊ฐ ๋์ค์ง ์๋๋ก ํ๋ค.
- Normalization์ ํ๋ฉด activation function์ Non - linearity ์ฑ์ง์ ์๊ฒ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๋ค.
- ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด์ Normalization๊ฐ์ gamma๋ฅผ ๊ณฑํ๊ณ beta๋ฅผ ๋ํ ๋ค back-prop ๊ณผ์ ์์ gamma์ beta๋ฅผ ํ์ต์์ผ์ค๋ค.
ํ ์คํธ ๋จ๊ณ
- ํ ์คํธ ๋จ๊ณ๋ ์ถ๋ก ๋จ๊ณ์์๋ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ ๋ฏธ๋๋ฐฐ์น๊ฐ ์๊ธฐ ๋๋ฌธ์, ์ ์ฒด Training Set์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ฌ์ฉํ๋ค.
- ํ์ง๋ง, ์์ฒญ๋๊ฒ ๋ง์ ์ ์ฒด Training set์ ๋ํ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ๋ ๊ฒ์ ๋ฌด๋ฆฌ์ด๊ธฐ ๋๋ฌธ์,
- ์๋์ ์๊ณผ ๊ฐ์ด ๋ชจ๋ธ ํ์ต ๋จ๊ณ์์ ์ฌ์ฉํ, ๊ฐ n๊ฐ์ ๋ฏธ๋๋ฐฐ์น์ ๋ํ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ด์ฉํด, ์ ์ฒด Training Set์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๋์ ํ ์ ์๋ค.
- ํ์ง๋ง, ์์ ๊ฐ์ ๋ฐฉ๋ฒ ๋์ , ๋ฏธ๋ฆฌ ์ ์ฅํด๋ n๊ฐ์ ๋ฏธ๋ ๋ฐฐ์น์ ์ด๋ ํ๊ท ์ ์ฌ์ฉํ์ฌ ํด๊ฒฐํ๋ค.
- ์ด๋ฌํ ์ด๋ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ํด, ๋ชจ๋ธ ํ์ต ๋จ๊ณ์์ ๋งค ๋ฏธ๋๋ฐฐ์น๋ง๋ค ์ด๋ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ ์ฅํด๋์ผํ๋ค.
- ๊ทธ๋์ผ ํ ์คํธ ์, ๋ชจ๋ธ ํ์ต ๋จ๊ณ์์ ์ ์ฅํ ์ด๋ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ฌ์ฉํ ์ ์๋ค.
- ์์ ์์์ α๊ฐ์ ์ผ๋ฐ์ ์ผ๋ก 1์ ๊ฐ๊น์ด 0.9, 0.99, 0.999๋ก ์ค์ ํ๋ค.
728x90
๋ฐ์ํ
'Deep Learning > 2023 DL ๊ธฐ์ด ์ด๋ก ๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ชจ๋๋ฅผ ์ํ ๋ฅ๋ฌ๋ ์์ฆ 2] lab-10-1~2 (0) | 2023.07.09 |
---|---|
[๋ชจ๋๋ฅผ ์ํ ๋ฅ๋ฌ๋ ์์ฆ 2] lab-01-1~08-2 (0) | 2023.07.09 |
[๋ฐ๋ฐ๋ฅ๋ถํฐ ์์ํ๋ ๋ฅ๋ฌ๋ 2] chap1(์ ๊ฒฝ๋ง ๋ณต์ต) (0) | 2023.07.09 |
[๋ฐ๋ฐ๋ฅ๋ถํฐ ์์ํ๋ ๋ฅ๋ฌ๋ 2] chap2(์์ฐ์ด) (0) | 2023.07.09 |
[๋ฐ๋ฐ๋ฅ๋ถํฐ ์์ํ๋ ๋ฅ๋ฌ๋ 2] chap3(word2vec) (0) | 2023.07.09 |