728x90
๋ฐ์ํ
1. Loss Function
- ์ฌ์ง์์ ๋ณด์ด๋ score๊ฐ ๋ฎ์์๋ก W์ ์ํฅ๋ ฅ๋ ์์ข์ ๊ฒ์ด๋ผ๊ณ ๋งํ ์ ์์( ๋ถ๋ฅ๋ฅผ ์ ํ์ง ๋ชปํ์ผ๋ฏ๋ก )
- W๊ฐ ์ข๋ค ์์ข๋ค ์ ๋๋ก ์ ๋ํ ํ ์ ์๋ ๊ฒ์ด ํ์ํจ ⇒ loss function
- W(๊ฐ์ค์น)๊ฐ ์ผ๋งํผ ์ข๊ณ ์์ข๋ค๋ก ๋ํ๋ผ ์ ์๋ ํจ์๊ฐ ๋ฐ๋ก ์์คํจ์์.
- SVM loss( hinge loss )
- softmax loss( cross entropy )
1-1) Multiclass SVM loss

- ์ ๋ตํด๋์ค≥์ ๋ต์๋ํด๋์ค+1 ⇒ loss=0 ( ๋งค์ฐ ์ข์ )

ex)
- cat๊ณผ car์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥์ ๋ต์๋ํด๋์ค(5.1)+1 ์ด ์๋๋ฏ๋ก ํด๋น ๊ฐ์ loss ๊ฐ์ผ๋ก
- cat๊ณผ frog์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥ ์ ๋ต์๋ํด๋์ค(-1.7)+1 ์ด๋ฏ๋ก loss ๊ฐ์ 0
- car frog class๋ ๋ค ํด์ค



- ๋ค ๋ํด์ค ํ ํ๊ท ๊ฐ ⇒ ์ต์ข loss
์ถ๊ฐ SVM loss ํน์ง
1-2) Regularization
- loss๊ฐ์ด ์ค์ด๋ ๋ค๊ณ ํด์ ์ข์ model์ด๋ผ๊ณ ๋ ํ ์ ์์ ⇒ ์ค๋ฒํผํ ๋ฌธ์ ๊ฐ ๋ฐ์.
- ๋ฟ๋ง ์๋๋ผ ์์ svm loss์ ๋ฌธ์ ์ ์ธ W๊ฐ์ด ์ฌ๋ฌ๊ฐ๊ฐ ๋๋ค๋ ์ ์์ ๊ท์ ํ๊ฐ ๋์ด

ex) train์๊ฒ๋ง ๋ง๋ ๊ฒ์ ํ์ต์ํค๋ ค๊ณ ํ ๋ ์ด ์ ๋์ ํจ๋ํฐ๋ ๊ฐ์ํด์ผ๋ผ~ ⇒ ๊ท์ ํ์ ๊ธฐ๋ณธ ๋ป.

- L1 regularization(Lasso)๊ธฐ์กด cost function ๋ค์ L1ํญ ์ถ๊ฐ.
- weight ๊ฐ์ด 0์ผ๋ก ์๋ ดํ๋ ๊ฒ์ด ๋ง์ ํํ. ์ด๋ฅผ Sparse matrix(ํฌ์ ํ๋ ฌ)๋ผ๊ณ ํจ
- ์์์ 0์ ๊ฐ์ด ๋ง๋ค๋ ์ด์ผ๊ธฐ๋ ์ด๋ค ํน์ง๋ค์ ๋ฌด์ํ๊ฒ ๋ค๋ ์ด์ผ๊ธฐ๋ก ๋ณผ ์ ์์.
- L2 regularization(Ridge)
- weight์ ๊ฐ์ด ํฐ ๊ฐ์ ์ ์ ์ค์ด๋ฉฐ ๋๋ถ๋ถ์ ๊ฐ๋ค์ด 0์ ๊ฐ๊น์ด ๊ฐ์ ๊ฐ์ง๋ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๊ฐ์ง.
- weight์ด 0์ด ์๋๋ผ๋ ์ ์์ ๋ชจ๋ ํน์ง๋ค์ ๋ฌด์ํ์ง ์๊ณ ์กฐ๊ธ์ฉ์ ์ฐธ๊ณ ํ๊ฒ ๋ค๋ผ๊ณ ๋ณผ ์ ์์.
- ์ด๋ด ๊ฒฝ์ฐ, L1์ w1์ ์ ํธํจ → 0 ์ด ๋ง๊ธฐ ๋๋ฌธ
- w2๋ L2๊ฐ ์ ํธํจ → ์ ์ฒด์ ์ผ๋ก 0์ ๊ฐ๊น๊ฒ ํผ์ ธ์๊ธฐ์.
⇒ ๋ง์ฝ (1,0) vector๊ฐ ์์ ๋, L1์ผ๋ก ๊ณ์ฐํ๋ฉด |1|+|0|=1์ด ๋๊ณ L2๋ก ๊ณ์ฐํ์ฌ๋ 1+0=1์ด ๋จ.⇒ ๊ฐ์ด ๊ท ๋ฑํ๊ฒ ์์ ๋์๋ L2์ ๊ฐ์ด ๋ ์์์ง๊ฒ ๋จ. ๋ฐ๋ผ์ Error์ ๋ ์์ penalty๋ฅผ ์ฃผ๊ฒ ๋จ์ฆ, L1์ ๊ฒฝ์ฐ, ๊ฐ์ด ์์์ง๋ค ํ๋ค- L1, L2 ์ฐ์ฐํ ๊ฐ์ Error์ ๋ํ๋ฏ๋ก ์ฐ์ฐ ๊ฒฐ๊ณผ๊ฐ ์์์ง๋ ๊ฐ์ ์ ํธํฉ๋๋ค. ์ด ๊ฐ์ด ๋๋ฌด ์ปค์ ธ ๋ฒ๋ฆฌ๋ฉด ์คํ๋ ค ํ์ตํ๋ ๋ฐ ๋ฐฉํด๊ฐ ๋ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ L1 ๋ณด๋ค L2๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ ์ด์ ์ด๊ธฐ๋ ํจ.
- ⇒ ๋ฐ๋ฉด (0.5,0.5) vector๊ฐ ์์ ๋, L1์ผ๋ก ๊ณ์ฐํ๋ฉด |0.5|+|0.5|=1์ด ๋์ง๋ง L2๋ก ๊ณ์ฐํ๋ฉด 0.52+0.52=0.25+0.25=0.5๊ฐ ๋จ.
- ์๋ฌธ์ : ์ L1์ ํผ์ฒ ์ค๋ ์ ๋๋์ด ๋๊ณ , L2๋ ๊ท ๋ฑํ ํผ์ฒ์ ์ ์ฉํ์ง?
1-3) Softmax Classifier(cross entropy)
- ์ํ๋ ํด๋์ค์ ์ ์๋ฅผ exp ์ทจํด์ ๋๋ ์ค
- ์ดํ, -log๋ฅผ ์ทจํ ํ loss๋ฅผ ๊ตฌํจ⇒ exp๋ฅผ ์ทจํ๊ณ , -log๋ฅผ ์ทจํ๋ ์ด์ ๋ ๋ฌด์์ผ๊น?
- softmax๋ multinomial logistic regression(์๊ทธ๋ชจ์ด๋- ๋ก์ง์คํฑ)⇒ ๋ฐ๋ผ์ exp๋ฅผ ์ฌ์ฉ
- -log ์ทจํ๋ ์ด์ ๋ -๋ฅผ ๊ณฑํ๊ฒ ๋๋ฉด ํ๋ฅ (y)๊ฐ์ด 1์ด ๋ ์๋ก log1 ⇒ 0์ ๊ฐ๊น์์ง ⇒ ๋ฐ๋ผ์ -log๋ฅผ ์ทจํด loss๊ฐ์ ๊ตฌํด์ค.


2. Optimization
- w๊ฐ ์ข์์ง ์์ข์์ง์ ๊ดํ loss ํจ์๋ฅผ ๊ตฌํ์ ⇒ ์ด๋ป๊ฒ ํด์ผ ์ข์ weight๋ฅผ ์ฐพ์๊ฐ ์ ์๋๊ฐ์ ๋ํ ๋ต์ด ๋ฐ๋ก ์ต์ ํ ํํธ.
- ์ฐ์์์ ๊ณจ์ง๊ธฐ๋ฅผ ๋ด๋ ค๊ฐ๋ ๊ฒ๊ณผ ๊ฐ์
- loss๊ฐ 0์ธ ์ง์ ์ ์ฐพ์๊ฐ๋ ๊ฒ.
2-1) Random search ์์ ํ์
- ๊ทธ๋ฅ ๋๋คํ๊ฒ ํฌ์ธํธ๋ฅผ ์ฐพ๋ ๊ฒ.
- ์์์ ์ ์ธ w๊ฐ์ ๋๋คํ๊ฒ ์ฐ๊ณ ๊ฑฐ๊ธฐ์ ์ต์ ํ ๋ฐฉ๋ฒ์ ํตํด w๋ฅผ ๊ตฌํจ
- ์ฑ๋ฅ ์ฒ์ฐจ๋ง๋ณ
2-2) local geometry ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
- ์์น์ ๋ฐฉ๋ฒ
- ํด์์ ๋ฐฉ


- h๋ฅผ 0์ ๊ฐ๊น๊ฒ ์ด๋
- loss ๊ฐ์ 1.25347 → 1.25322
- ๊ฒฝ์ฌ๊ฐ(๊ธฐ์ธ๊ธฐ): -2.5

์ด๋ฌํ ๋ฐฉ์์ผ๋ก ๋ชจ๋ W์ ๋ํด์ ์ด๋ฅผ ๋ฐ๋ณตํ๋ฉด ๋ชจ๋ gradient dW ๊ฐ์ ๊ตฌํ ์ ์์.
์ด ๋ฐฉ์์ Numerical gradient
๋ผ๊ณ ํ๋ค.
⇒ ๊ฐ๋๋ฆผ

- ๊ทธ๋์ ๋์จ ๋ฐฉ์์ด ํด์์ ๋ฐฉ๋ฒ
- W๊ฐ ๋ณํ ๋ loss๋ฅผ ์๊ณ ์ถ์ ๊ฒ๋ฟ์. ⇒ ๊ฒฝ์ฌํ๊ฐ๋ฒ
2-3) Stochastic Gradient Descent
3. ํน์ง๋ณํ(ํผ์ฒ ํน์ง ์ถ์ถ๊ณผ ๊ฐ์ ๋ง)
- ์ฌ์ค Linear Classification์ ์ด๋ฏธ์ง์์๋ ๊ทธ๋ฆฌ ์ข์ ๋ฐฉ๋ฒ์ด ์๋
- ๊ทธ๋์ DNN์ด ์ ํํ๊ธฐ ์ ์๋ Linear Classifier๋ฅผ ์ด์ฉํ๊ธฐ ์ํด์๋ ๋๊ฐ์ง ์คํ ์ด์ง๋ฅผ ๊ฑฐ์ณ์ ์ฌ์ฉ
- ์ด๋ฏธ์ง์ ์ฌ๋ฌ๊ฐ์ง ํน์งํํ์ ๊ณ์ฐ
- ๋ชจ์์, ์ปฌ๋ฌ ํ์คํ ๊ทธ๋จ, edge ํํ์ ๊ฐ์ ํน์งํํ์ ์ฐ๊ฒฐํ ํน์ง๋ฒกํฐ
- ์ด ํน์ง๋ฒกํฐ๋ฅผ Linear Classifier์ ์ ๋ ฅ๊ฐ์ผ๋ก ์ฌ์ฉ
3-1) ์ปฌ๋ฌ ํ์คํ ๊ทธ๋จ
3-2) Histogram of Oriented Gradient
- ๋ฐฉํฅ๊ฐ์ ํ์คํ ๊ทธ๋จ์ผ๋ก ํํํ๋ ๊ฒ.

- 8*8 ํฝ์ ๋ก ๊ตฌ์ฑ๋ ๊ตฌ์ญ์ 9๊ฐ์ง์ ์ฃ์ง ๊ตฌ์ญ์ผ๋ก ๋๋ ์ ๊ฐ 9๊ฐ์ง์ bin์ ๋ช๊ฐ๊ฐ ์ํ๋์ง๋ฅผ ํผ์ฒ๋ก ์ถ์ถํด๋ธ ๊ฒ
- ์ด๋ฏธ์ง๋ฅผ 8*8๋ก ์๋ผ์ ํด๋น ๊ฐ์ ์ด๋ค ๊ฐ๋๊ฐ ๋ง์์ง๋ฅผ ํ์คํ ๊ทธ๋จ์ผ๋ก ๋ํ๋ด์ ํน์ง ์ถ์ถ.
- ๋ง์ฐฌ๊ฐ์ง๋ก ํผ์ฒ๋ก ๋ฝ์์ input์ ์ฌ์ฉ
3-3) Bag of words

- ์ด๋ฏธ์ง๋ฅผ ๋ง ์๋ฆ
- ์ด๊ฑฐ๋ฅผ ํด๋ฌ์คํฐ๊ฐ์ ๊ฒ์ผ๋ก ๊ตฐ์งํ ํจ
- ๊ทธ๋ฌ๋ฉด ๊ฐ๋๋ ์๊น ๋ฑ์ ํน์ง์ด ๋์ฌ ๊ฒ์.
- ์ดํ, ์๋ก์ด ์ด๋ฏธ์ง๊ฐ ๋ค์ด์ค๋ฉด ์ด๋ฏธ์ง๋ฅผ ์๋ผ์ ๊ธฐ์กด์ ๋ง๋ ํด๋ฌ์คํฐ๋ ๋น๊ตํด ์ด๋ค ํน์ง์ด ์๋์ง ๋น๊ต
- ์ด ๋ฐฉ๋ฒ์ NLP์์ ์๊ฐ์ ๋ฐ์ ๋ฐฉ์์ผ๋ก, ์ด๋ค ๋ฌธ์ฅ์์ ์ฌ๋ฌ
๋จ์ด๋ค์ ๋ฐ์๋น๋
๋ฅผ ์ธ์ ํน์ง๋ฒกํฐ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์์ ์ด๋ฏธ์ง์ ์ ์ฉํ ๊ฒ์ ๋๋ค.
- ์ฐ๋ฆฌ๋ ์ด๋ฏธ์ง๋ค์
์์๋๋ก ์กฐ๊ฐ๋ด๊ณ
, ๊ฐ ์กฐ๊ฐ์K-means
์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ตฐ์งํ ํฉ๋๋ค.
- ๋ค์ํ๊ฒ ๊ตฌ์ฑ๋ ๊ฐ ๊ตฐ์ง๋ค์ ๋ค์ํ ์๊ณผ ๋ค์ํ ๋ฐฉํฅ์ ๋ํ edge๋ ํฌ์ฐฉํ ์ ์์ต๋๋ค.
- ์ด๋ฌํ ๊ฒ๋ค์ ์๊ฐ ๋จ์ด(visual words) ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
728x90
๋ฐ์ํ
'Deep Learning > 2023 DL ๊ธฐ์ด ์ด๋ก ๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] Part5 (0) | 2023.07.08 |
---|---|
[Standford_cs231n] Lecture 2 ) Image Classification (0) | 2023.07.08 |
[Standford_cs231n] Lecture 4 ) Introduction to Neural Networks (0) | 2023.07.08 |
[Standford_cs231n] Lecture 5 ) Convolutional Neural Networks (0) | 2023.07.07 |
[Standford_cs231n] Lecture 6 ) Training Neural Networks I (0) | 2023.07.07 |