1. Activation Functions
- ํ์ฑํ ํจ์: ์ถ๋ ฅ๊ฐ์ ํ์ฑํ๋ฅผ ์ผ์ผํค๊ฒ ํ ๊ฒ์ธ๊ฐ๋ฅผ ์ ํ๊ณ ๊ทธ ๊ฐ์ ๋ถ์ฌํ๋ ํจ์.
- ์ฌ์ฉํ๋ ์ด์ : Data๋ฅผ ๋น์ ํ์ผ๋ก ๋ฐ๊พธ๊ธฐ ์ํจ
- ์ ๋น์ ํ์ผ๋ก ๋ฐ๊พธ๋๊ฐ?: ๋ณต์กํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด์⇒ ์ ํํจ์์ ๊ฒฝ์ฐ, ๋ง์ด ๊น์ด์ง์ง ์๋๋ค๋ ๋จ์ ์ด ์กด์ฌ. ์๋ฌด๋ฆฌ ๋ณต์กํ๊ฒ ๋ง๋ ๋ค๊ณ ํด๋ ex) h(x)= cx(์ผ์ฐจํจ์) ⇒ 3-layer ⇒ y(x)=h(h(h(x))) ⇒ y(x)=c^3x๋ก ๋ฐ์ ์๋จ. ๊ฒฐ๊ตญ ๊ฐ์ ์ ํ ํจ์์.๋ฐ๋ผ์, ๋ด๋ด๋คํธ์ํฌ์์ ์ธต์ ์๋ ํํ์ ์ป๊ณ ์ถ๋ค๋ฉด, ํ์ฑํํจ์๋ก๋ ๋ฐ๋์ ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉ.
- ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ์ ๋ ฅ์ด ๋ค์ด๊ฐ ๋, ์ถ๋ ฅ๊ฐ์ด ์ ํ์ผ๋ก ๋์ค์ง ์๊ธฐ ๋๋ฌธ์ ๋ง์ ๊น๊ฒ ๋ง๋ค ์ ์๋ค๋ ์ฅ์ ์กด์ฌ.
- ⇒ ๊ฒฐ๊ตญ linearํ ์ฐ์ฐ์ ๊ฐ์ layer์ ์์ญ๊ฐ ์์๋ ํ๋์ ์ ํ ์ฐ์ฐ์ผ๋ก ๋ฐ์ ๋ํ๋ผ ์ ์์. ⇒ hidden layer๊ฐ ํ ์ค๋ง ์กด์ฌํ๊ฒ ๋จ. (๋ณต์ก๋x)
1. Sigmoid ํจ์
- ๋จ์ผ, ์ด์ง ๋ถ๋ฅ์์ ๋ง์ด ์ฌ์ฉ๋จ
๋ฌธ์ ์ 1
- ์/์์ ํฐ๊ฐ์์ Saturation๋๋ ๊ฒ์ด gradient๋ฅผ ์์ค๋ค. (๊ธฐ์ธ๊ธฐ์์ค)
- x๊ฐ 0์ ๊ฐ๊น์ด๊ฑด ์ ๋์ํจ
๋ฌธ์ ์ 2
- ์ถ๋ ฅ์ด zero centered๊ฐ ์๋๋ค
- ๋ง์ฝ x๊ฐ ํญ์ ์์์ผ ๋, w์ gradient๋ ์๊ทธ๋ชจ์ด๋ upstream gradient์ ๋ถํธ๊ฐ ํญ์ ๊ฐ๊ฒ ๋๋ค. ์ด๋ W๋ก ํ์ฌ๊ธ ๋ชจ๋ ์์ ๋ฐฉํฅ์ด๋, ๋ชจ๋ ์์ ๋ฐฉํฅ์ผ๋ก๋ฐ์ ์ ๋ฐ์ดํธ๊ฐ ๋์ง ๋ชปํ๊ฒ ํ๊ธฐ ๋๋ฌธ์, zig zag path๋ฅผ ๋ฐ๋ฆ ⇒ ๋นํจ์จ์
⇒ ํ๋์ ํ์ดํ๊ฐ ์ต์ ์ ์ ๋ฐ์ดํธ์ง๋ง ๋นจ๊ฐ์์ผ๋ก๋ง ์์ง์ ⇒ ์ค๋ ๊ฑธ๋ฆผ
- ์ ์ด๋ง์ด ๋ฌด์์ด๋, ์์คํจ์๋ฅผ ํตํด ์ญ์ ํ๋ฅผ ํ๊ฒ ๋๋๋ฐ, ์ด๋ ์์คํจ์๊ฐ ์์๋ ์์๋์ ๋ฐ๋ผ์ ๋ฐฉํฅ์ด ๊ฒฐ์ ๋๋ ๊ฒ์
- ์๊ทธ๋ชจ์ด๋์ ๊ธฐ์ธ๊ธฐ๋ ๋ค ์์์ด๊ธฐ ๋๋ฌธ์, ์์คํจ์์ ๊ฐ์ด ์์ดใ ์์ด๋์ ๋ฐ๋ผ์ ํ์ชฝ์ผ๋ก ๋ฐ์ ์ ๋ฐ์ดํธ๊ฐ ์๋๋ค๋ ๊ฒ์ ์๋ฏธํ๊ธฐ๋ ํจ.
- ์ฆ, ์์คํจ์๊ฐ ์์์ด๋ฉด ์์๋ก๋ง, ์์คํจ์๊ฐ ์์๋ฉด ์์๋ก๋ง
- ๋ฐ๋ผ์ ์ง๊ทธ์ฌ๊ทธ๊ฐ ํ์ฑ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๊ธฐ๋ ํจ.
๋ฌธ์ ์ 3
- exp() ๊ฐ ์ฐ์ฐ cost๊ฐ ๋น์
2. tanh ํจ์
- sigmoid์ zero centered ๋ฌธ์ ํด๊ฒฐ.⇒ ๊ธฐ์ธ๊ธฐ ์์ค๊ณผ exp ์ฐ์ฐ ๋ฌธ์ ๋จ์
์ด๋ zero centered๊ฐ ํด๊ฒฐ๋๋ฉด ์ข์์ ⇒ ์์ sigmoid ๊ฐ์ ๊ฒฝ์ฐ, ์ธํ๊ณผ ๊ฐ์ค์น๊ฐ ๊ณฑํด์ง ๊ฐ์ ์๊ทธ๋ชจ์ด๋์ ๋ฃ๊ฒ ๋๋ฉด 0~1 ์ฌ์ด ๊ฐ์ผ๋ก ๋ณํ ์์ผ๋ฒ๋ฆผ (output) → ๋ฌด์กฐ๊ฑด ์์ ๊ฐ๋ง ๋์ค๊ฒ ๋๋ฏ๋ก ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์์๋ ์์๋์ ๋ฐ๋ผ์ ๊ฐ์ด ํ๋๋ก ์ ํด์ง
ํ์ง๋ง ํ์ ํธ์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ์ค์ฌ์ 0์ผ๋ก ์์น ์ํด.
๊ทธ๋ฌ๊ฒ ๋ ๊ฒฝ์ฐ ์์คํจ์ ๊ฐ์ ๊ตฌํ๊ฒ ๋์ด๋ -๊ฐ๋ถํฐ ์์ ๊ฐ๊น์ง ๋ค์ํ๊ฒ ์กด์ฌใ ใ
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ํ์ ์ ์ธ ํ์ต์์ ์ข ๋ ์์ํ ํ์ต์ด ์ผ์ด๋๊ฒ ๋จใ ใ
⇒ ์๋ถํฐ ์๊ฐ ๊น์ง ๋ค์ํ๊ฒ ⇒ ๋ฏธ๋ถํด๋ ์๋ถํฐ ์๊ฐ๊น์ง ๋ค์ํ๊ฒ ์กด์ฌ.
⇒ ์ฆ, ์ด์ ์ ๊ธฐ์ธ๊ธฐ๊ฐ ์์๋ ์ง ์์๋ ์ง ๊ธฐ์ธ๊ธฐ ๊ฐ์ด ๋ค์ํ๊ฒ ๋์ค๊ฒ ๋จ.
3. ReLU ํจ์
- ์๋ฌผํ์ ๋ด๋ฐ์ด ์ด๋ ๊ฒ ๋ฐ๋ฅธ๋ค๊ณ ํด์ ๋์ด
- ๊ณ์ฐ ํจ์จ
๋ฌธ์ ์
- zero- centered๊ฐ ์๋
- ์์ ์์ญ์์๋ saturation (x=0์์๋ gradient 0)
- gradient์ ์ ๋ฐ์ ์ฃฝ์ธ๋ค -> dead ReLU๋ผ๊ณ ํจ
์ด๋ฌํ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๋ ๊ฒ์ ์๋์ ๊ฐ๋ค.
- ์ง๋์น๊ฒ learning rate๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ
- Update๋ฅผ ์ง๋์น๊ฒ ํฌ๊ฒ ํด์ ReLU๊ฐ ๋ฐ์ดํฐ์ manifold๋ฅผ ๋ฒ์ด๋๊ฒ ๋จ.
- ์ด๊ธฐํ๋ฅผ ์๋ชปํ ๊ฒฝ์ฐ
- ๊ฐ์ค์น ํ๋ฉด์ด traning data๋ก ๋ถํฐ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ ๊ฒฝ์ฐ
4. Leaky ReLU
- ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์กฐ๊ธ์ด๋ผ๋ ์์ง์์ ์ฃผ์! ํด์ ๋์จ๊ฒ leaky~
5. PReLU
- leaky์ ์กฐ๊ธ ๋ณํ ๋ ๋ชจ๋ธ
- ์ํ ๊ฐ์ ํ์ตํด์ ์ฐพ์๊ฐ๋ ๋ฐฉ๋ฒ
- Leaky ReLU์ ๋น์ทํ์ง๋ง ๊ธฐ์ธ๊ธฐ alpha (ํ๋ผ๋ฏธํฐ)๋ก ๊ฒฐ์ ๋จ
6. ELU
- Exponential Linear Units (ELU)๋ก ReLU์ ๋ณํ์ผ๋ก ๋์จ ๊ฒ
- ๊ทธ๋ฆฌ๊ณ zero mean ํํ๊ฐ saturation ๋๋ ๋ฐ, ์ด๋ฐ saturation์ด ์ก์(noise)์ robust ํ๋ค๊ณ ํจ (feature selection๊ณผ ์ฐ๊ด)
- ์ ReLU, ELU๋ ์ noise์ robustํ ๊น?
- ์์ ์์ญ์์ saturate๋์ด gradient vanishing ๋๋ ๋ถ๋ถ์ด ์๋ค. ์ด๋ ๋ฐ์ดํฐ ์ ์ฒด๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ 0์ธ ๋ถ๋ถ์ด ์์ด ์ ํ์ ์ผ๋ก ํ์ตํ๊ฒ ๋๋ค.(generalized)
7. Maxout
- max ๊ฐ ์ด์ฉํด์ 2๊ฐ์ ํ๋ผ๋ฏธํฐ ์ค ๋ค์ ์ข์ ๊ฒ ์ ํํ๋ network.
- ์ฐ์ฐ๋ ๋ง์์ ธ์ ์ฌ์ฉ ์ํจ.
8. Activation ๊ฒฐ๋ก
2. Data Preprocessing
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ⇒ zero-centered, ์ ๊ทํ๋ฅผ ๋ง์ด ์ฌ์ฉ
- ์ด๋ฏธ ์ด๋ฏธ์ง๊ฐ 0~255๋ก ์ ํ ๋์ด ์์ด์ ์ ๊ทํ ์ฌ์ฉx zero๋ง ์ฌ์ฉํ๋ค๊ณ .
PCA์ Whitening ๊ธฐ๋ฒ๋ ์๋ค๊ณ ํ๋๋ฐ image์์๋ ์ ์ฐ์ด์ง ์๋๋ค๊ณ ํฉ๋๋ค.
- Principal Component Analysis(PCA)
- ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํ ์ํค๊ณ ๊ณต๋ถ์ฐ(Covariance) ํ๋ ฌ์ ๋ง๋ญ๋๋ค.
- ๊ณต๋ถ์ฐ ํ๋ ฌ์ด๋ ๊ฐ ๊ตฌ์กฐ๊ฐ ์๊ด๊ด๊ณ๋ฅผ ๋งํด์ฃผ๋ ํ๋ ฌ์ ๋๋ค.
- SVD factorization์ผ๋ก ์์ ์ค์ํ ๋ช ๊ฐ์ vector๋ค๋ง ์ด์ฉํ์ฌ ์ฐจ์์ ์ถ์ํ๋๋ฐ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- Whitening
- input์ feature๋ค์ uncorrelatedํ๊ฒ ๋ง๋ค๊ณ , ๊ฐ๊ฐ์ variance๋ฅผ 1๋ก ๋ง๋ค์ด์ค
- ๊ธฐ์ ๋ฒกํฐ (eigenbasis) ๋ฐ์ดํฐ๋ฅผ ์์ด์ ๋ฒจ๋ฅ(eigenvalue)๊ฐ์ผ๋ก ๋๋์ด ์ ๊ทํ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ด ๋ณํ์ ๊ธฐํํ์ ํด์์ ๋ง์ฝ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ multivariable gaussian ๋ถํฌ ๋ผ๋ฉด ์ด ๋ฐ์ดํฐ์ ํ๊ท ์ 0, ๊ณต๋ถ์ฐ์ ๋จ์ํ๋ ฌ(I)์ธ ์ ๊ท๋ถํฌ๋ฅผ ๊ฐ์ง๋๋ค.
3. Weight initialization
๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ 0์ผ๋ก ์ค์ ํ๋ค๋ฉด?
Gradient vanishing
๋ฐ์
- ๋ชจ๋ ๋ด๋ฐ์ด ๊ฐ์์ผ์ ํ๋ค
- ๋ชจ๋ ๊ฐ์ค์น๊ฐ ๋๊ฐ์ ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธ๋จ
- ๋ชจ๋ ๊ฐ์ค์น๋ฅผ ๋์ผํ๊ฒ ์ด๊ธฐํ์ํค๋ฉด symmetry breaking์ด ์ผ์ด๋ ์ ์๋ค.
- ์๋ก ๋ค๋ฅธ loss๋ฅผ ๊ฐ์ง ์ ์์ผ๋ ๋ง์ ๋ด๋ฐ๋ค์ด ๋์ผํ ๊ฐ์ค์น๋ก ์ฐ๊ฒฐ๋์ด ์์๊ฒ์ด๋ฉฐ, ๋ชจ๋ ๋ด๋ฐ์ด ๊ฐ์ ๋ฐฉ์์ผ๋ก ์ ๋ฐ์ดํธ ๋ ๊ฒ์ด๋ค.
1. ์์ ๋๋ค๊ฐ ์ด๊ธฐํ
⇒ ์์์ ์์ ๊ฐ์ผ๋ก
⇒ but ๊น์ network์์๋ ๋ฌธ์ ๋ฐ
- ์ธต์ด ๊น์ด์ง์๋ก weight๊ฐ ๋ค ์ฌ๋ผ์ ธ๋ฒ๋ฆผ(๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ์๋๋ ์ง์ ์ธ ๊ฐ์ด๋ฐ๋ง ์ด์๋จ๊ฒ ๋จ)
- ๊ฒฐ๊ตญ ๊ธฐ์ธ๊ธฐ ์์ค.
๋ง์ฝ scale(0.01) ์ฌ์ฉ์ํ๊ฒ ๋๋ฉด -1๋๋ 1๋ก ํ๋์ด๋ฒ๋ฆผ.
- loss๊ฐ ์์ฌ๋ผ์ง.
2. Xavier initialization
- ์์์๋ ๊ณ ์ ๋ ํฌ๊ธฐ๋ก scaling, but ์ด์น๊ตฌ๋ ๋ ธ๋์ ๊ฐ์๋ก ์ ๊ทํํจ.
- ์ ๋ ฅ ์๊ฐ ์์ผ๋ฉด ๋ ์์ ๊ฐ์ผ๋ก ๋๋๊ณ ๋ ํฐ๊ฐ์ ์ป์. ⇒ ์ด ๊ฒฝ์ฐ ๋ ํฐ ๊ฐ์ค์น๊ฐ ํ์.
- ํ์ง๋ง ReLU๋ฅผ ์ฐ๋ฉด ์ถ๋ ฅ ๋ถ์ฐ์ ์ ๋ฐ์ ๋ ๋ ค๋ฒ๋ฆฌ๋ ๊ฑฐ๋ผ์ ์ ์๋ํ์ง ์์. ๊ฐ์ด ๋๋ฌด ์์์ง. ๊ฒฐ๊ตญ ๋นํ์ฑ๋จ
- ์ด๋ฅผ ์ํด ์ถ๊ฐ์ ์ผ๋ก 2๋ฅผ ๋ ๋๋ ์ฃผ์ด ์ ๋ฐ์ด ์์ด์ก๋ค๋ ์ฌ์ค์ ๊ณ ๋ คํ๋ฉด ๊ฝค ์์๋
4. Batch Normalization
- ๊ฐ์ฐ์์(์ ๊ท)๋ถํฌ ๋ฒ์์์ ํ์ฑํ ํจ์๊ฐ ๊พธ์คํ ์ ์ด๋ฃจ์ด์ง๋ ๊ฒ์ ๋ชฉํ๋ก ํจ.
- ๊ทธ๋์ ๋์จ ๊ธฐ๋ฒ์ด batch ์ ๊ทํ
- ํ์ตํ๋ ๊ณผ์ ์ ์ ์ฒด์ ์ผ๋ก ์์ ์์ผ์ฃผ๋ ๊ฒ.
- activation ์ ์ ์ ๋ถํฌ๋๋๋ก ํ ํ์ activation ์งํํ ์ ์๋๋ก ํด์ค
- ๊ทธ๋์ ์์๊ฐ ์ ๋ ๊ฒ ๋๋ ๊ฒ.
- ์๋ฌธ์
- Activation function์ relu๋ฅผ ์ฌ์ฉํ๋ค๋ฉด?
- ๊ฐ์ค์น์ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํฌ๋ ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง๋ค๋ฉด?
๊ฐ๋ง ๊ฐ์ผ๋ก BN์ Variance ๊ฐ์ ์กฐ์ ํ๋ฉฐ, ๋ฒ ํ ๊ฐ์ผ๋ก ํ๊ท ๊ฐ์ ์กฐ์ ํ ์ ์๊ฒ๋ฉ๋๋ค.์ฐธ๊ณ ๋ก๊ฐ๋ง ๊ฐ์ด ํ์คํธ์ฐจ
์ด๊ณ ,๋ฒ ํ๊ฐ ํ๊ท ๊ฐ
์ด๋ฉดBN๋ฅผ ํ์ง ์๋ ๊ฒ
๊ณผ ๊ฐ์ต๋๋ค.๊ฐ๋ง
:Scaling
๋ฒ ํ
:Shifting
- ๊ทธ๋ฆฌ๊ณ ์ด ๊ฐ๋ง์ ๋ฒ ํ ๊ฐ์ ํ์ต์ Hyperparameter๋ก ์ฌ์ฉํ์ฌ ์๋ง์ ๊ฐ์ ์ป์ด๊ฐ๋๋ก ํฉ๋๋ค.
- ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ฌ๊ธฐ์ ๊ฐ๋ง์ ๋ฒ ํ ๊ฐ์ด ์ฃผ์ด์ง๊ฒ ๋ฉ๋๋ค.
- +++
๋ณดํต BN์ ํ๋ฉด Dropout์ ์์จ๋ ๋๋ค๊ณ ํฉ๋๋ค.
๊ทธ ์ด์ ๋ Dropout์ ๋๋คํ๊ฒ ๊ฐ์ ๊บผ๋ด์ฃผ๊ธฐ ๋๋ฌธ์ ๋๋ค.
BN๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฐฐ์น๋ง๋ค ๊ฐ์ด ์กฐ๊ธ์ฉ ๋ค๋ฅด๊ฒ ๋ค์ด๊ฐ๊ณ ๊ฐ์ด ๊ณ์ ๋ฐ๋๊ฒ ๋์ด ๋ ธ์ด์ฆ๊ฐ ์ ์ด์ง๊ฒ ๋๋ค๊ณ ํฉ๋๋ค.
๋ํ BN์ ์ ํ๋ณํ์ผ๋ก ๊ธฐ์กด์ ๊ณต๊ฐ์ ์ธ ๊ตฌ์กฐ
๊ฐ ์ ์ ์ง๋ฉ๋๋ค.
Notice) CONV์์ Batch Normalization ํ ๋ ์ฃผ์์ฌํญ
- ๊ธฐ์กด์ Wx + b ํํ๋ก weight๋ฅผ ์ ์ฉํด ์ฃผ๋๋ฐ BN์ Beta ๊ฐ๊ณผ ์ค๋ณต๋๋ค.
- ๊ณ ๋ก Wx + b ์ bias ๊ฐ์ ์ฌ์ฉํ์ง ์์๋ ๋๋ค.
- ์ฅ์
- Network์
Gradient flow๋ฅผ ํฅ์
์ํด
๋์ learning rate๋ฅผ ์ฌ์ฉํด๋ ์์ ์ ์ธ ํ์ต
๊ฐ๋ฅ
Weight ์ด๊ธฐํ์ ์์กด์ฑ์ ์ค์
Regularization๊ธฐ๋ฅ
๋ ํ์ฌdropout์ ํ์์ฑ์ ๊ฐ์
์ํด
Test ์์ overhead๊ฐ ์๋ค
. (ํ์ต๋ ๊ฒ์ ์ฌ์ฉ๋ง ํจ)
- Network์
- Testํ ๋ Minibatch์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ๊ตฌํ ์ ์์ผ๋
Training์์ ๊ตฌํ ๊ณ ์ ๋ Mean๊ณผ Std๋ฅผ ์ฌ์ฉ
ํจ
5. Babysitting the Learning Process
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- ์ํคํ ์ณ ์ ํ
- ๋คํธ์ํฌ ์ด๊ธฐํ
- ์ด๊ธฐ loss ์ฒดํฌ
- soft max๋ผ๋ฉด ๋ก๊ทธ ์ฒดํฌ, ์ดํ regularization term ์ถ๊ฐํ loss ์ฆ๊ฐ ์ฒดํฌ
- ๋ฐ์ดํฐ ์ผ๋ถ๋ง ํ์ต์์ผ๋ณด๊ธฐ
- regularization ์ฌ์ฉ x
- epoch๋ง๋ค loss ๋ด๋ ค๊ฐ๋์ง ํ์ธ, train accuracy ์ฆ๊ฐ ํ์ธ
- learning rate ์ ํ๊ธฐ
- regulaization ์ฝ๊ฐ๋ง ์ฃผ๊ณ learning rate ์ฐพ๊ธฐ
- learning rate๊ฐ ์์ผ๋ฉด gradient ์ ๋ฐ์ดํธ๊ฐ ์ถฉ๋ถํ ์ผ์ด๋์ง ์์ loss๊ฐ ์์์ค์ด๋ฌ
- ๋๋ฌด ํฌ๋ฉด NaNs cost๋ฐ์ฐ
- ๋ณดํต e-3 e-5 ์ฌ์ด ์ฌ์ฉ
6. Hyperparameter Optimization
cross-valindation์ training set์ผ๋ก ํ์ต์ํค๊ณ validation set์ผ๋ก ํ๊ฐํ๋ ๋ฐฉ์
- coarse stage: epoch ๋ช๋ฒ์ผ๋ก ์ข์์ง ์๋์ง ํ๋จ -> ๋ฒ์ ๊ฒฐ์
- ๋ก๊ทธ ์คํ์ด์ค์์ ์ฐจ์ ๊ฐ๋ง ์ํ๋งํ๋๊ฒ ์ข๋ค
- fine stage: ํ์ต ์ข ๋ ๊ธธ๊ฒ
- train ๋์ cost ๋ณํ๋ฅผ ์ฝ์. ์ด์ cost๋ณด๋ค ๋ ์ปค์ง๊ฑฐ๋ 3๋ฐฐ ๋์์ง๊ฑฐ๋ ํ๋ฉด NaNs ๋์ด. ์์ฒญ ๋น ๋ฅด๊ฒ ์ค๋ฅด๋ฉด ๋ฉ์ถ๊ณ ๋ค๋ฅธ๊ฑฐ ์ ํ
- ์ฌ๊ธฐ์ ๋งํ๋ cost๊ฐ ๋ญ์ง?
- reg๋ฒ์, lr ๋ฒ์ ์ ํจ
- ์ต์ ๊ฐ์ด ๋ฒ์์ ์ค์ ์ฏค์ ์์นํ๋๋ก ๋ฒ์๋ฅผ ์ค์
- random search๋ฅผ ์ฌ์ฉํ๋ฉด important variable์์ ๋ ๋ค์ํ ๊ฐ์ ์ํ๋ง ํ ์ ์์ด ์ข๋ค
loss curve
- ํํํ๋ค๊ฐ ๊ฐ์๊ธฐ ๊ฐํ๋ฅด๊ฒ ๋ด๋ ค๊ฐ-> ์ด๊ธฐํ ๋ฌธ์
= gradient์ ์ญ์ ํ๊ฐ ์ด๊ธฐ์๋ ์ ๋์ง ์๋ค๊ฐ ํ์ต์ด ์งํ๋๋ฉด์ ํ๋ณต
train๊ณผ va accuracy๊ฐ ํฐ ์ฐจ์ด๋ฉด ์ค๋ฒํ -> regularization์ ๊ฐ๋ ๋์ด๊ธฐ
gap์ด ์๋ค๋ฉด ์์ง overfitํ์ง ์์ ๊ฒ์ด๊ณ capacity๋ฅผ ๋์ผ ์ฌ์ ์๋ ๊ฒ