728x90
๋ฐ์ํ
1. Optimization
- SGD: ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ (๊ฒฝ์ฌํ๊ฐ๋ฒ)
- Mini batch GD: ๋ฐฐ์น ๋จ์๋ก ๋๋ ์ ๋ฐฐ์น๋ง๋ค ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ
- SGD + Momentum: ๊ธฐ์กด์ ๊ด์ฑ ํฉ์น ๊ฒ(์๋) ⇒ ๊ณ์ ๊ฐ๋ ค๋ ์ฑ์ง ํ์ฉ
- NAG: ์ด์ ์๋๋ก ํ๊ฑธ์ ๋ฏธ๋ฆฌ ๊ฐ๋ณด๊ณ ๊ธฐ์ธ๊ธฐ ๊ตฌํด์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ
- Adagrad: ์ ์ฒด์ ์์คํจ์ ๊ณก๋ฉด์ ๋ณํ๋ฅผ ํ์ต์์ผ์ ๋ค์ ํ์ต๋ฅ ์ ํด์ฃผ๋ ๊ฒ
- PMSprop: Adagrad ๋จ์ ๋ณด์ ⇒ ์ต๊ทผ ๊ณก๋ฉด ๋ณํ๋๋ง ๊ฐ์ ธ์์ ํ์ต๋ฅ ์ ํด์ค
- Adam: pmsprop + momentum
1-1) optimization ์ค๋ช
- ๋ฅ๋ฌ๋์ ํ์ต์์๋ ์ต๋ํ ํ๋ฆฌ์ง ์๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํด ๋๊ฐ์ผ ํจ.
- ์ฌ๊ธฐ์ ์ผ๋ง๋ ํ๋ฆฌ๋์ง ์๊ฒ ํ๋ ํจ์๊ฐ ๋ฐ๋ก loss function (์์คํจ์) ์.
- ์ด ์์คํจ์๋ฅผ ์ ์ํด ๋์ผ๋ฉด ๊ฐ์ค์น๊ฐ ์ผ๋ง๋ ์ข๊ณ ๋์์ง๋ฅผ ์๋ ค์ค.
- loss function์ ์ต์๊ฐ์ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋๋ฐ, ์ฌ๊ธฐ์ ์ต์๊ฐ์ ์ฐพ์๊ฐ๋ ๊ฒ์ ์ต์ ํ๋ผ๊ณ ํ๋ฉฐ, ์ด๋ฅผ ์ํํ๋ ์๊ณ ๋ฆฌ์ฆ์ด ๋ฐ๋ก ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์.
- optimizer์ loss๋ฅผ ์ค์ด๊ธฐ ์ํด weight์ learning rate ์ ๊ฐ์ neural network ์์ฑ์ ๋ณ๊ฒฝํ๋๋ฐ ์ฌ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ

1-1-1) Gradient Descent
- ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ด์ง๋ง ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ
- linear regression ๋ฐ classification ์๊ณ ๋ฆฌ์ฆ์์ ๋ง์ด ์ฌ์ฉ๋จ.
- neural network backpropagation์ Gradient Descent ์ฌ์ฉ.
- ์ด ์น๊ตฌ๋ loss function์ 1์ฐจ ๋ํจ์์ ์์กดํ๋ ์๊ณ ๋ฆฌ์ฆ
- ํจ์๊ฐ ์ต์๊ฐ์ ๋๋ฌํ ์ ์๋๋ก backpropagation์ ํตํด weight๋ฅผ ๋ณ๊ฒฝํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํจ.
- loss๊ฐ ํ layer์์ ๋ค๋ฅธ layer๋ก ์ ๋ฌ๋๊ณ parameter(weight)๊ฐ loss์ ๋ฐ๋ผ ์์ ๋์ด loss๋ฅผ ์ต์ํ ํ ์ ์์.
1-2) SGD(Stochastic Gradient Descent)

- ํ๋ผ๋ฏธํฐ๊ฐ ๊ฐ trainig example๋ง๋ค ํ ๋ฒ์ฉ ๊ณ์ฐ๋๋ฉด์ ๋ฐ๋
- ex) ๋ฐ์ดํฐ์ ์ด 1000๊ฐ์ row๋ฅผ ๊ฐ๊ณ ์์ผ๋ฉด SGD๋ ๋ฐ์ดํฐ ์ธํธ์ ํ cycle์์ parameter์ 1000๋ฒ ์ ๋ฐ์ดํธ ์ํด.
- ํ๋ผ๋ฏธํฐ๊ฐ ๊ณ์ ์ ๋ฐ์ดํธ ๋๋ค ๋ณด๋ ์์คํจ์ ๋ณ๋์ด ํฌ๊ฒ ๋จ.
- SGD๋ ๋ฏธ๋ ๋ฐฐ์น ์์์ loss๋ฅผ ๊ณ์ฐํจ
- ๊ทธ๋ ๋์ธํธ ๋ฐ๋ ๋ฐฉํฅ์ ์ด์ฉํด ํ๋ผ๋ฏธํฐ ๋ฒกํฐ๋ฅผ ์ ๋ฐ์ดํธ
๋ฌธ์ ์
- ์๋๊ฐ ๋๋ฆผ
- f(x, y) = $x^2+y^2$ ๊ฐ์ ๊ทธ๋ํ๋ผ๊ณ ํ๋ฉด ๊ฐ๊ฐ ๋ฏธ๋ถ ํจ์๋ dx ์ dy๊ฐ ๋ ๊ฒ์.
- ์ด ๋ ์ํ๋ฐฉํฅ์ผ๋ก๋ ๊ธฐ์ธ๊ธฐ ๋ณํ๊ฐ ์๊ณ , ์์ง ๋ฐฉํฅ์ผ๋ก๋ ๊ธฐ์ธ๊ธฐ๊ฐ ๊ฐํ๋ฅด๊ธฐ ๋๋ฌธ์ ์ง๊ทธ์ฌ๊ทธ๋ก.
- ์๋ฅผ ๋ค์ด ๊ฐ์ค์น๊ฐ 2๊ฐ๋ผ๊ณ ๊ฐ์ ํ์ ๋, ํ๋์ ๊ธฐ์ธ๊ธฐ๋ ๋ณํ๊ฐ ์๊ณ , ํ๋์ ๊ธฐ์ธ๊ธฐ๋ ๋ณํ๊ฐ ํฌ๋ค๋ฉด ์ ๋ ๊ฒ ์ง๊ทธ์ฌ๊ทธ๋ก ๊ฐ๊ฒ ๋ ๊ฒ์. ⇒ ๋ ๋ฒกํฐ์ ํฉ ๋ฐฉํฅ์ผ๋ก ์์ง์ฌ์ผ ํ๊ธฐ ๋๋ฌธ. ๊ทธ๋์ ์๋๊ฐ ์ ๋ง ๋๋ฆผ.
- ํ ๋ฐฉํฅ์ผ๋ก๋ ์์ฒญ๋๊ฒ ๋ฏผ๊ฐํ์ง๋ง ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก๋ ์๋งํจ.
- local minima
- ๊ตด๊ณก์ด ์๋ ๋ชจ์์์๋ gradient๊ฐ 0์ด ๋๋ฉด์ ๋ฉ์ถฐ๋ฒ๋ฆผ.
- gradient๋ฅผ ๊ณ์ฐํ๊ณ ๋ฐ๋๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ ๊ฒ์ธ๋ฐ ์ ์ํฉ์์๋ 0์ด ๋๊ณ , ๋ฐ๋ ๋ฐฉํฅ์ loss๊ฐ ์ปค์ง๋ ๋ฐฉํฅ์ด๋ฏ๋ก ํ์ต์ด ๋ฉ์ถ๊ฒ ๋จ.
- ํ์ชฝ์ผ๋ก๋ ์ฆ๊ฐํ๊ณ , ๋ค๋ฅธ ํ์ชฝ์ ๊ฐ์. ์ ์ค๊ฐ ์น๊ตฌ๋ ๊ธฐ์ธ๊ธฐ๊ฐ ๋ง์ฐฌ๊ฐ์ง๋ก 0์ด ๋์ด๋ฒ๋ฆผ.
- ๊ณ ์ฐจ์ ๊ทธ๋ํ์์ ํํ ์๊ธฐ๋ ๋ฌธ์ ์.
- ์๋ฒฝํ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ์๋์ง๋ง, ๊ทธ ์ฃผ๋ณ์ด ๊ต์ฅํ ์๋งํด์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ๋๋ฆฌ๊ฒ ์งํํ๊ณ ๊ทธ๊ณณ์ ์์ฃผํ๊ฒ ๋จ.
Monkey Saddle
- ์ผ์ชฝ๊ฐ์ด ์๊ธด Monkey Saddle์ด๋ ๊ทธ๋ํ๊ฐ ์๋ค.
- ๊ฐ์ด๋ฐ ๋๊ณ ๊ฑฐ์ ํํํ ๋ถ๋ถ์ผ๋ก ๊ฐ์ค์น๊ฐ ์ ๋ฐ์ดํธ ๋๋ฉด, ๊ทธ ์ฃผ๋ณ์ ๊ธฐ์ธ๊ธฐ๋ ๊ต์ฅํ ์๋งํ๊ธฐ ๋๋ฌธ์ ์ ๋ฐ์ดํธ๊ฐ ๋งค์ฐ ๋๋๊ฒ ์งํ๋๊ณ ๊ฑฐ์ ๋ฉ์ถฐ๋ฒ๋ฆฌ๋ ํ์์ด ์๊ธด๋ค.
⇒ ๋ฐ๋ผ์ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ๋์ด๋ ๋ฉ์ถ์ง ์๊ฒ ํ๋ ํ์ด ํ์ํจ.
1-3) Mini-Batch Gradient Descent
- ๋ฐ์ดํฐ์ ์ ๋ฐฐ์น ๋จ์๋ก ๋๋๊ณ ๋งค ๋ฐฐ์น ํ์ ํ๋ผ๋ฏธํฐ๊ฐ ์ ๋ฐ์ดํธ ๋๋ ๋ฐฉ๋ฒ.
- ๋ค์ํ ๋ฐฐ์น๋ก ๋๋๊ณ ๋งค ๋ฐฐ์น ํ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ๋จ.
1-4) SGD + Momentum
- mementum ⇒ ๊ณ์ ๋ด๋ ค๊ฐ๋ ์ฑ๊ฒฉ์ด์๋ค๋ฉด ๊ณ์ ๋ด๋ ค๊ฐ๊ฒ.
- ์ฆ, ๊ฐ์๋์ ๊ฐ๋ ์ด ์ถ๊ฐ๋ ๊ฒ์ด๋ผ๊ณ ๋ณด๋ฉด ๋จ.
- ๊ธฐ์ธ๊ธฐ๊ฐ 0์ธ ์ง์ ์ด ์๋ค ํ๋ค, ๋ด๋ ค์ค๋ ์๋์ ์ํฅ ๋ฐ์์ ์ญ ๋ด๋ ค๊ฐ.


- 1๋จ๊ณ: ์๋ ์ ๋ฐ์ดํธ⇒ t+1์ง์ ์์์ ์๋๋ฅผ ์ง์ ๋จ๊ณ์ธ t์ง์ ์์์ ์๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ธก.
- ์ง์ ์ง์ ์์์ ์๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ ๋ คํด์ ์ ๋ฐ์ดํธ ํ๋, ๊ธฐ์ธ๊ธฐ๊ฐ ๋๋ฌด ๋น ๋ฅด๊ฒ ๋ณํํ๋ ๊ฒ์ ์ ํํ๊ธฐ ์ํด ๋ง์ฐฐ๊ณ์(rho) ์ฌ์ฉ.
- rho๋ ๋ณดํต 0.99๋ 0.9 ์ฌ์ฉ
- 2๋จ๊ณ: ๊ฐ์ค์น ์ ๋ฐ์ดํธ⇒ loss ํจ์์์ t+1์ง์ ์ ๊ฒฝ์ฐ ์ง์ ์ง์ ์์์ ํ์ต๋ฅ ์ง์ ์์์ ์์ธก ์๋๋ฅผ ๊ณ ๋ คํด ์ ๋ฐ์ดํธ ์งํ.


- ๋ค์ ๋งํด ์๋๊ฐ ์ถ๊ฐ ๋๋ ์๋๋์ ์ฐจ์ด.
- ๋ฐ๋ผ์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ๋ชจ๋ฉํ ์ ๋ ํฐ ์คํ ์ผ๋ก ๊ฐ ⇒ ์๋ํญ ๋๋ฌธ์.

- ์ง๊ทธ์ฌ๊ทธ์ ์ํฉ์ด๋ผ๋ฉด momentum์ด ๋ณ๋์ ์์์์ผ๋ฒ๋ฆผ.
- ์ด๋ฅผ ํตํด ๋ฏผ๊ฐํ ์์ง ๋ฐฉํฅ์ ๋ณ๋์ ์ค์ฌ์ฃผ๊ณ ์ํ๋ฐฉํฅ์ ์์ง์์ ๊ฐ์ํ ์ํด.
๋ฌธ์ ์
- ๊ณ์ ๋ด๋ ค๊ฐ๋ ์ฑ์ง์ ๋ณด์ด๊ฒ ๋๋ฉด ๊ณ์ ๋ด๋ ค๊ฐ.
- ๊ฒฝ์ฌ๊ฐ ๊ฐํ๋ฅด๋ฉด ๋น ๋ฅธ ์๋๋ก ๋ด๋ ค์ค๋ค๊ฐ ์ต์ ์ง์ ์ ๋ง๋๋ฉด gradient๋ ์๊ฐ์ ์ผ๋ก ์์์ง์ง๋ง ์๋๋ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ์ต์ ์ง์ ์ ์ง๋์น๊ฒ ๋จ. ⇒ overshooting ๋ฌธ์
- ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ด์ฑ์ ํ์ฉํด์ ๊ทน์๊ฐ์ผ๋ก๋ถํฐ ๋น ์ ธ๋์ฌ ์๋.
1-5) Nesterov Accelerated Gradient
- ๋ชจ๋ฉํ ์ ๋ ์ ๊ทธ๋ ์ด๋ ํ ๋ฐฉ๋ฒ ⇒ ์ค๋ฒ์ํ ์ ๋ณด์ํ ๋ฐฉ๋ฒ.
- ํ์ฌ ์๋๋ก ํ๊ฑธ์ ๋ฏธ๋ฆฌ ๊ฐ๋ณด๊ณ ์ค๋ฒ์ํ ๋ ๋งํผ ๋ค์ ๋ด๋ฆฌ๋ง๊ธธ๋ก ๊ฐ.
- ์ฆ, ๋ฏธ๋ฆฌ ์์ธกํด๋ณด๊ณ ๊ฐ๋ ๋ฐฉ๋ฒ.

- ๊ธฐ์กด ๋ชจ๋ฉํ ์ ๊ฒฝ์ฐ, ์ง์ ์ง์ ์ gradient์ ์๋ ๋ฒกํฐ์ ํฉ๋ฒกํฐ๋ก ๋ค์ ์คํ ์ ์ง์ ์ ๊ตฌํจ
- but, ์ด ์น๊ตฌ์ ๊ฒฝ์ฐ, ์ง์ ์ง์ ์์ ์๋๋ฒกํฐ๋งํผ ์ด๋ํ ์ง์ (์ด์ ์์ ๋ฏธ๋ฆฌ ํ๋ฒ ๋ ๊ฐ๋ด)์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํด์ ์ ๋ฐ์ดํธํด์ค.

- ์ฆ ์ง์ ์ง์ (xt)์์ ๋ฏธ๋ฆฌ ์๋๋ฒกํฐ ๊ตฌํด์ ๊ฐ๋ณธ๊ฐ์ ๋ฏธ๋ถํ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ๋ฐ์ดํธ(loss)๋ฅผ ์ค์ด๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋นผ์ค. ⇒ ํด์ ๋ค์์ง์ ์ ๋ํด์ค.
- ์ด๋ p๋ rho๊ฐ.
1-6) Adagrad
- ์์คํจ์ ๊ณก๋ฉด์ ๋ณํ์ ๋ฐ๋ผ ์ ์์ ์ผ๋ก ํ์ต๋ฅ ์ ์ ํ๋ ๊ฒ.
- ํ์ต๋ฅ ์ ๋งค๊ฐ๋ณ์์ ๋ง์ถคํ ๊ฐ์ ๋ง๋ค์ด์ค(ํ์ต๋ฅ ์ ์์ํ ๋ฎ์ถฐ์ค)
- learning rate decay(ํ์ต๋ฅ ๊ฐ์)
- ์ด๋ฐ์๋ ํฐ ํญ์ผ๋ก ์ด๋ํ์ฌ ์ต๋ํ ๋น ๋ฅด๊ฒ ๋ด๋ ค๊ฐ๊ณ , ์ ์ฐจ ํ์ต๋ฅ ์ ์ค์ฌ ์กฐ์ฌ์ค๋ฝ๊ฒ ๋ด๋ ค๊ฐ๋ ๋ฐฉ๋ฒ
- adaptive learning rate(์ ์์ ํ์ต๋ฅ )
- ex) ์์คํจ์์ ๊ฒฝ์ฌ๊ฐ ๊ฐํ๋ฅผ ๋ ํฐํญ์ผ๋ก ์ด๋ํ๋ฉด์ ์ต์ ํ ๊ฒฝ๋ก๋ฅผ ๋ฒ์ด๋๊ฑฐ๋ ์ต์ ์ง์ ์ ์ง๋์น ์ ์๊ธฐ ๋๋ฌธ์, ์์ ํญ์ผ๋ก ์ด๋ํจ. ๊ฒฝ์ฌ๊ฐ ์๋งํ๋ฉด ํฐ ํญ์ผ๋ก ์ด๋.

- y์ถ ๋ฐฉํฅ์ ๊ฒฝ์ฐ, ๊ธฐ์ธ๊ธฐ๊ฐ ์ปค์ ์ฒ์์๋ ํฌ๊ฒ ์์ง์
- ์ด ํฐ ์์ง์์ด h๋ฅผ ํฌ๊ฒ ๋ง๋ฌ(๊ธฐ์ธ๊ธฐ์ ์ ๊ณฑ) ⇒ ์ฒ์์๋ ํฌ๊ฒ ์์ง์ด์ง๋ง, h๋ฅผ ๊ฐฑ์ ์ํค๋ฉด์ ํ์ต๋ฅ (๋ณดํญ)์ ์๊ฒ
- → y์ถ ๋ฐฉํฅ์ผ๋ก ๊ฐฑ์ ๊ฐ๋๊ฐ ๋น ๋ฅด๊ฒ ์ฝํด์ง. ์ง๊ทธ์ฌ๊ทธ ์์ง์๋ ์ค์ด๋ฆ(lr ํจ๊ณผ)
- ๊ฒฝ์ฌ๊ฐ ์๋งํ ๋๋ ์ต์ ํด ๊ฒฝ๋ก๊ฐ ์๋ ์ ์๊ธฐ์ ํฐ ํญ์ผ๋ก ์ด๋ํ๋ ๊ฒ์ด ์ข์
- ๊ฒฝ์ฌ๊ฐ ๊ฐํ๋ฅผ ๋ ํฐ ํญ์ผ๋ก ์ด๋ํ ๊ฒฝ์ฐ, ์ต์ ํ ๊ฒฝ๋ก๋ฅผ ๋ฒ์ด๋๊ฒ ๋จ(์ต์ ์ง์ ์ ๋ฒ์ด๋๋)
- ๊ทธ๋ฌ๊ธฐ ์ํด์๋ ๊ณก๋ฉด์ ๋ณํ๋์ ํ์ต๋ฅ ์ด ์ ์์ ์ผ๋ก ์กฐ์ ๋์ด์ผ.
- ์ด์ ๊ฒฝ์ฌ๋๋ฅผ ๋์ ํ๊ฑธ ๊ฐ์ง๊ณ ๊ณฑํด์ ์ ์์ํค๋๊ฑฐ.
- ์ด์ ๊ฐ๋ค์ ๊ณ์ ๊ณฑํด์ ๋์ .


- SGD ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ์์์ ํ์ต๋ฅ ์ ๊ณก๋ฉด์ ๋ณํ๋์ ์ ๊ณฑ๊ทผ์ผ๋ก ๋๋ ์ฃผ๋ฉด ์ ์์ ํ์ต๋ฅ ์ด ๋จ.

- ์ฆ, ์ง์ ์์ ์์์ ๊ฐ์์ ์ ์์ ํ์ต๋ฅ ๊ฐ์ ๋นผ๋ฉด ๋จ.⇒ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ๋ณ๋ก ๊ณก๋ฉด์ ๋ณํ๋์ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ํ๋ผ๋ฏธํฐ ๋ณ๋ก ๊ฐ๋ณ ํ์ต๋ฅ ์ ๊ฐ์ง๋ ํจ๊ณผ ์์ฑ. ⇒ ๋ ์ ํํ๊ณ ๋น ๋ฅด๊ฒ ๊ฐ ์ ์์.
๋ฌธ์ ์
- ํ์ต ์กฐ๊ธฐ ์ค๋จ ํ์⇒ ๊ณก๋ฉด์ ๋ณํ๋์ ์ ์ฒด ๊ฒฝ๋ก์ ๊ธฐ์ธ๊ธฐ ๋ฒกํฐ ํฌ๊ธฐ๋ก ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ํ์ต์ด ์งํ๋ ์๋ก ๊ณก๋ฉด์ ๋ณํ๋์ ์ ์ ์ปค์ง๊ณ , ํ์ต๋ฅ ์ ์ ์ ์์์ง๊ทธ๋์ ๋์จ ๊ฒ์ด RMSProp.
- ์ฆ, ๊ฒฝ์ฌ๊ฐ ๊ฐํ๋ฅธ ๊ณณ์์ ํ์ต ์์ํ์ผ๋ฉด ์ด๋ฐ๋ถํฐ ์ ์์ ํ์ต๋ฅ ์ด ๊ฐ์ํ๊ธฐ ์์ํด์ ์กฐ๊ธฐ ํ์ต ์ค๋จ๋ ์๋.
1-7) RMSProp
- ๊ณก๋ฉด ๋ณํ๋์ ์ธก์ ํ ๋ ์ ์ฒด ๊ฒฝ๋ก๊ฐ ์๋ ์ต๊ทผ ๊ฒฝ๋ก์ ๋ณํ๋์ ์ธก์ ํ๋ฉด ๊ณก๋ฉด ๋ณํ๋์ด ๋์ ๋์ด ๊ณ์ํด์ ์ฆ๊ฐํ๋ ํ์์ ์์จ ์ ์์.
- PMSProp์ ์ต๊ทผ ๊ฒฝ๋ก์ ๊ณก๋ฉด ๋ณํ๋์ ์ธก์ ํ๊ธฐ ์ํด ์ง์๊ฐ์ค์ด๋ํ๊ท ์ฌ์ฉ.
- ์ง์๊ฐ์ค์ด๋ํ๊ท ⇒ ์ค๋๋ ๋ฐ์ดํฐ๊ฐ ๋ฏธ์น๋ ์ํฅ์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ๋๋ก ํ๋ ๋ฐฉ๋ฒ.

- B๊ฐ ์ถ๊ฐ๋ ๊ฒ์ ๋ณผ ์ ์์.


- ๋์ ๋ grad_squaered ํญ์๋ B๋ฅผ ๊ณฑํ๊ณ , ํ์ฌ์ dxํญ์๋ 1-B๋ฅผ ๊ตฌํด์ ๋์ ๋๋ ์๋๋ฅผ ์ค์ฌ์ค.
RMSProp์ ์ฅ์ ์ ๋ฏธ๋ถ๊ฐ์ด ํฐ ๊ณณ์์๋ ์ ๋ฐ์ดํธ ํ ๋ ํฐ ๊ฐ์ผ๋ก ๋๋ ์ฃผ๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด ํ์ต๋ฅ ๋ณด๋ค ์์ ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธ๋จ → ์ง๋ ์ค์ด๋๋ฐ ๋์ ๋จ.
๋ฐ๋ฉด ๋ฏธ๋ถ๊ฐ์ด ์์ ๊ณณ์์๋ ์ ๋ฐ์ดํธ์ ์์ ๊ฐ์ผ๋ก ๋๋ ์ฃผ๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด ํ์ต๋ฅ ๋ณด๋ค ํฐ ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธ๋จ.
๋ฌธ์ ์
- r(t+1) + e ⇒ ์ ์์ ํ์ต๋ฅ ์ ์๋ฏธํ๋๋ฐ, B๊ฐ 0.99๋ผ๊ณ ๊ฐ์ ํ๋ฉด r1์ 0.01๋ก ๊ฐ์ด ์์์ง. ์ด ๊ฐ์ ์ x+1์์ ๋ฃ๊ฒ๋๋ฉด ๋ถ๋ชจ๊ฐ ์์์ง๋ฏ๋ก ๋นผ์ง๋ ๊ฐ์ด ์ปค์ง๊ฒ ๋จ.
- ์ฆ, ์ถ๋ฐ ์ง์ ์์ ๋ฉ๋ฆฌ ๋จ์ด์ง ์ง์ ์ผ๋ก ์ด๋ํ๊ฒ ๋จ.
⇒ ๊ธฐ์กด ํ์ต๋ฅ ๋ณด๋ค ํฐ ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธ๋จ.
⇒ ์ด๊ฑธ ๋ฐ๋ก ํ์ต ์ด๊ธฐ ๊ฒฝ๋ก ํธํฅ ๋ฌธ์ ๋ผ๊ณ ํจ.
⇒ ํด๊ฒฐํ๊ธฐ ์ํด ๋์จ๊ฒ ๋ฐ๋ก adam์.
1-8) Adam
- PMSProp + Momentum ํฉ์นจ.

- ์ฒ์์ ๊ด์ฑ์ ๊ตฌํ๊ณ ๊ด์ฑ์ ์ด์ฉํด์ ์ง์๊ฐ์ค์ด๋ํ๊ท ๊ตฌํจ. ⇒ pmsprop๊ณผ ๋ค๋ฅธ ์ ์ ์๋(๊ด์ฑ)์ ๊ณฑํ๋ค๋๊ฑฐ.
< ์ด๊ธฐ ๊ฒฝ๋ก ํธํฅ ์ ๊ฑฐ >


- pmsprop์์์ ์ฒ์ ๋จ๊ณ๋

- ์ฒ์์ ์ด๋ ๊ฒ ๋์ค๊ณ , ์ด๋ํ๋๊ฒ ์ปค์ง. ๊ทธ๋์ ์ด๋ฐ๋ถํฐ ๋๋ฌด ๊ธ๊ฒฉํ๊ฒ ์ด๋ํ๋ ๋ฌธ์ ๋ฐ์⇒ ํ์ง๋ง Adam์ ์ ๊ฐ์ ๊ฒฝ์ฐ์๋
- r0๋ 0์ด๊ณ , ๊ฒฐ๊ตญ์ (1-b2) ์ธ๋ชจ ๊ธฐ์ธ๊ธฐ ์ ๊ณฑ / (1-b2) ์ด๋ฏ๋ก 1-b2 ์ฌ๋ผ์ ธ์
์ด ๊ฐ์ด ๋์ด. ๊ฒฐ๊ตญ์ ์ ๊ณฑ๊ฐ์ด๋ฏ๋ก ์ฒ์๋ถํฐ ์์ฃผ ์์์ง ์ผ์ด ์์.๊ทธ๋ฆฌ๊ณ ํ๋ จ ์งํ๋ ์๋ก B1, B2๋ ์์์ง๊ธฐ ๋๋ฌธ์ ๋ถ๋ชจ๋ ๋๋ค ๊ฑฐ์ 1๋ก ๋ฐ๋๊ฒ ๋จ ⇒ ๊ฒฐ๊ตญ ์๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ณํ๊ฒ ๋จ. (๊ธฐ์กด PMSProp ์) - ๋ฐ๋ผ์ ํ์ต ์ด๋ฐ์ ํ์ต๋ฅ ์ด ๊ธ๊ฒฉํ ์ปค์ง๋ ํธํฅ์ด ์ ๊ฑฐ๋จ.
2. Ensemble Models
- ๋ชจ๋ธ์ ํ๋๋ง ํ์ต ์ํค๋ ๊ฒ์ด ์๋ 10๊ฐ์ ๋ชจ๋ธ์ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต ์ํค๋ ๊ฒ. ์ด๋ฅผ ๋ชจ๋ธ ์์๋ธ์ด๋ผ ๋ถ๋ฆ.
- 10๊ฐ ๋ชจ๋ธ ๊ฐ ๊ตฌํด์ ํ๊ท ๋ด๊ธฐ
- ํ๋์ ๋ชจ๋ธ์์ ํ์ต ์ค๊ฐ์ค๊ฐ์ ๊ฐ๋ค์ ์ ์ฅํด๋๊ณ ํ๊ท ๊ฐ ๊ตฌํ๋ ๋ฐฉ๋ฒ
- learning rate๋ฅผ ๋ฎ์ท๋ค๊ฐ ๋์๋ค๊ฐ๋ฅผ ๋ฐ๋ณตํด์ ํ์ต ๊ณผ์ ์์ loss ํจ์์ ๋ค์ํ ์ง์ญ์์ ์๋ ดํ๋๋ก ๋ง๋ฌ. ๊ทธ๋ฆฌ๊ณ ์๋ ดํ ๋๋ง๋ค์ ๊ฐ์ ์ ์ฅํด๋๊ณ ํ๊ท ๋ด๊ธฐ.
- ๋ฑ์ด ์๋ค~
3. Regularization
- ๊ท์ ํ๋ฅผ ํ๋ ์ด์ ๋ ๊ฒฐ๊ตญ ์ค๋ฒํผํ ์ ๋ฐฉ์ง ํ๊ธฐ ์ํด์์
- ๊ทธ๋์ ์ ๋ ๊ฒ 4๊ฐ์ง ๋ฐฉ๋ฒ์ ๊ท์ ํ ๋ฐฉ๋ฒ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ฃ์ ๋ฏ.
2. Batch normalize
- ์๋ต.
4. Transfer learning(์ฌํ์ต)
- ์ด๋ฏธ์ง ๋ถ๋ฅ' ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ์ฌ์ฉํ๋ ๋คํธ์ํฌ(DNN;Deep Neural Network)๋ฅผ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ํน์ ๋ค๋ฅธ ๋ฌธ์ (task)์ ์ ์ฉ์์ผ ํธ๋ ๊ฒ์ ์๋ฏธ
- ์ด ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํ ์ค๋ฒํผํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ ํ ์ ์์
- ์ด ์น๊ตฌ๋ ํ์ตํ๊ธฐ ์ํด ๊ฒ๋ ๋ง์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค๋ ๊ฑธ ๊บ ์ค

- ์ฌํ์ต
- ์์ ํ์ต๋ ํผ์ฒ๋ค์ ์ฐ๋ฆฌ๊ฐ ํ์ต์ํฌ ์์ ๋ฐ์ดํฐ์ ์ ์ ์ฉํ๋ ๊ฒ์ ์๋ฏธ.
- ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ
- ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ถ๋ ฅ ํด๋์ค ์ C๋ฅผ ์ถ๋ ฅํ๋๋ก ์ ์ผ ๋ง์ง๋ง layer๋ง ์ด๊ธฐํ ํ ํ, ์ด layer๋ฅผ ์ ์ธํ ๋๋จธ์ง layer๋ freeze์ํจ ํ, ํ์ต์ ์งํํ๋ค.
- ์ฆ, ๋ง์ง๋ง ์ถ๋ ฅ layer๋ง ํ์ต์ํค๋ ๊ฒ์ด๋ค.
- ๋ฐ์ดํฐ๊ฐ ์กฐ๊ธ ๋ ์๋ ๊ฒฝ์ฐ
- ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ์์์ ๊ฐ์ด ๋ง์ง๋ง layer๋ฅผ ์ด๊ธฐํ ํ๋ ๊ฒ์ ๋์ผํ์ง๋ง, ์ฌ๊ธฐ์๋ ๋ฐ์ดํฐ๊ฐ ๋ ๋ง์ผ๋ฏ๋ก, ๋ช๊ฐ์ layer๋ฅผ ๋ ํ์ต์ ์ถ๊ฐํ ์ ์๋ค.
728x90
๋ฐ์ํ