1. Loss Function
- ์ฌ์ง์์ ๋ณด์ด๋ score๊ฐ ๋ฎ์์๋ก W์ ์ํฅ๋ ฅ๋ ์์ข์ ๊ฒ์ด๋ผ๊ณ ๋งํ ์ ์์( ๋ถ๋ฅ๋ฅผ ์ ํ์ง ๋ชปํ์ผ๋ฏ๋ก )
- W๊ฐ ์ข๋ค ์์ข๋ค ์ ๋๋ก ์ ๋ํ ํ ์ ์๋ ๊ฒ์ด ํ์ํจ ⇒ loss function
- W(๊ฐ์ค์น)๊ฐ ์ผ๋งํผ ์ข๊ณ ์์ข๋ค๋ก ๋ํ๋ผ ์ ์๋ ํจ์๊ฐ ๋ฐ๋ก ์์คํจ์์.
- SVM loss( hinge loss )
- softmax loss( cross entropy )
1-1) Multiclass SVM loss
- ์ ๋ตํด๋์ค≥์ ๋ต์๋ํด๋์ค+1 ⇒ loss=0 ( ๋งค์ฐ ์ข์ )
ex)
- cat๊ณผ car์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥์ ๋ต์๋ํด๋์ค(5.1)+1 ์ด ์๋๋ฏ๋ก ํด๋น ๊ฐ์ loss ๊ฐ์ผ๋ก
- cat๊ณผ frog์ ๊ฒฝ์ฐ : ์ ๋ตํด๋์ค(3.2)≥ ์ ๋ต์๋ํด๋์ค(-1.7)+1 ์ด๋ฏ๋ก loss ๊ฐ์ 0
- car frog class๋ ๋ค ํด์ค
- ๋ค ๋ํด์ค ํ ํ๊ท ๊ฐ ⇒ ์ต์ข loss
์ถ๊ฐ SVM loss ํน์ง
1. ๋ฐ์ดํฐ์ ๋ฏผ๊ฐํ์ง ์์
- score ๊ฐ์ ๋ฐ๊พผ๋ค ํด๋ loss๋ ๋๊ฐ์ด 0์
- cat์ +1 ํ๋์ง frog์ +1 ํ๋์ง ์๋์ฐจ ๊ฐ์ด ๋ ๋๊ธฐ ๋๋ฌธ์.⇒ ์ ๋ต ํด๋์ค๊ฐ ๋ค๋ฅธ ํด๋์ค๋ณด๋ค ๋๋ ์๋ง ๊ด์ฌ์ ๊ฐ์ง.
2. ์ต์, ์ต๋๊ฐ (์ต์: 0 ๊ฐ, ์ต๋๊ฐ: ๋ฌดํ๋)
3. W๊ฐ ์์์ ธ์ score๊ฐ 0์ ๊ทผ์ฌํด์ง๋ฉด class-1๊ฐ์ด ๋์ด.
ex)
ํด๋์ค๊ฐ 3์ธ ๊ฒฝ์ฐ: 2+2+2/3 ⇒ 2
ํด๋์ค๊ฐ 10์ธ ๊ฒฝ์ฐ: 9+9+9+,,,,,,/10 ⇒ 9
⇒ sanity check๋ผ๊ณ ๋ ๋ถ๋ฆ.
4. ์ ๋ต ํด๋์ค ๊ฐ ์ ์ธ์ํค๋ฉด loss+1๊ฐ์ด ๋์ด๋ฒ๋ฆผ
⇒ ๊ทธ๋ด๊ฒฝ์ฐ loss๊ฐ 1์ผ ๋๊ฐ ๊ฐ์ฅ ์ข์ ๊ฐ์ด ๋์ด๋ฒ๋ฆฌ๋๋ฐ 0์ด ๊ฐ์ฅ ์ข๋ค ๋ผ๊ณ ํํํ๋๊ฒ ๋ ํธํ๊ธฐ ๋๋ฌธ์ ์ ๋ต ํด๋์ค๋ ์ ์ธ์ํด.
5. sum ๋์ ํ๊ท ์ฌ์ฉํ ๊ฒฝ์ฐ: ๊ฐ์ ๋ณํ๋ ์์(ํ๊ท ํ๊ธฐ์ scale๋ง ์์์ง)
6. ์ ๊ณฑ์น ํ ๊ฒฝ์ฐ: ๊ฐ์ด ๋ฌ๋ผ์ง( ๊ทน๊ณผ ๊ทน์ผ๋ก ํํํ๊ธฐ์ ์ข์)
⇒ ๋งค์ฐ ์ข๊ณ ๋งค์ฐ ์์ข๋ค๋ก ํํ ๊ฐ๋ฅํ์ง๋ง ์ ์์ด๋ค.
⇒ ๋น์ ํ๋จ ⇒ squared hinge loss๋ผ๊ณ ๋ถ๋ฆ
7. ์ด ์น๊ตฌ์ ๋ฌธ์ ์
⇒ W๊ฐ ์ฌ๋ฌ๊ฐ๊ฐ ๋ ์ ์์.
⇒ score์ 2,3๋ฐฐ๋ฅผ ํด๋ ๊ฐ์ด ๊ฐ๊ฒ ๋์๋ฒ๋ฆผ
์ฆ, W๊ฐ ์ฌ๋ฌ๊ฐ๊ฐ ๋์จ๋ค๋ ๊ฒ ⇒ uniqueํ W๊ฐ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๊ธฐ๋ ํจ.
๊ทธ๋์ ๋์จ ๊ฒ์ด ๊ท์ ์.
1-2) Regularization
- loss๊ฐ์ด ์ค์ด๋ ๋ค๊ณ ํด์ ์ข์ model์ด๋ผ๊ณ ๋ ํ ์ ์์ ⇒ ์ค๋ฒํผํ ๋ฌธ์ ๊ฐ ๋ฐ์.
- ๋ฟ๋ง ์๋๋ผ ์์ svm loss์ ๋ฌธ์ ์ ์ธ W๊ฐ์ด ์ฌ๋ฌ๊ฐ๊ฐ ๋๋ค๋ ์ ์์ ๊ท์ ํ๊ฐ ๋์ด
ex) train์๊ฒ๋ง ๋ง๋ ๊ฒ์ ํ์ต์ํค๋ ค๊ณ ํ ๋ ์ด ์ ๋์ ํจ๋ํฐ๋ ๊ฐ์ํด์ผ๋ผ~ ⇒ ๊ท์ ํ์ ๊ธฐ๋ณธ ๋ป.
- L1 regularization(Lasso)๊ธฐ์กด cost function ๋ค์ L1ํญ ์ถ๊ฐ.
- weight ๊ฐ์ด 0์ผ๋ก ์๋ ดํ๋ ๊ฒ์ด ๋ง์ ํํ. ์ด๋ฅผ Sparse matrix(ํฌ์ ํ๋ ฌ)๋ผ๊ณ ํจ
- ์์์ 0์ ๊ฐ์ด ๋ง๋ค๋ ์ด์ผ๊ธฐ๋ ์ด๋ค ํน์ง๋ค์ ๋ฌด์ํ๊ฒ ๋ค๋ ์ด์ผ๊ธฐ๋ก ๋ณผ ์ ์์.
- L2 regularization(Ridge)
- weight์ ๊ฐ์ด ํฐ ๊ฐ์ ์ ์ ์ค์ด๋ฉฐ ๋๋ถ๋ถ์ ๊ฐ๋ค์ด 0์ ๊ฐ๊น์ด ๊ฐ์ ๊ฐ์ง๋ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๊ฐ์ง.
- weight์ด 0์ด ์๋๋ผ๋ ์ ์์ ๋ชจ๋ ํน์ง๋ค์ ๋ฌด์ํ์ง ์๊ณ ์กฐ๊ธ์ฉ์ ์ฐธ๊ณ ํ๊ฒ ๋ค๋ผ๊ณ ๋ณผ ์ ์์.
- ์ด๋ด ๊ฒฝ์ฐ, L1์ w1์ ์ ํธํจ → 0 ์ด ๋ง๊ธฐ ๋๋ฌธ
- w2๋ L2๊ฐ ์ ํธํจ → ์ ์ฒด์ ์ผ๋ก 0์ ๊ฐ๊น๊ฒ ํผ์ ธ์๊ธฐ์.
⇒ ๋ง์ฝ (1,0) vector๊ฐ ์์ ๋, L1์ผ๋ก ๊ณ์ฐํ๋ฉด |1|+|0|=1์ด ๋๊ณ L2๋ก ๊ณ์ฐํ์ฌ๋ 1+0=1์ด ๋จ.⇒ ๊ฐ์ด ๊ท ๋ฑํ๊ฒ ์์ ๋์๋ L2์ ๊ฐ์ด ๋ ์์์ง๊ฒ ๋จ. ๋ฐ๋ผ์ Error์ ๋ ์์ penalty๋ฅผ ์ฃผ๊ฒ ๋จ์ฆ, L1์ ๊ฒฝ์ฐ, ๊ฐ์ด ์์์ง๋ค ํ๋ค- L1, L2 ์ฐ์ฐํ ๊ฐ์ Error์ ๋ํ๋ฏ๋ก ์ฐ์ฐ ๊ฒฐ๊ณผ๊ฐ ์์์ง๋ ๊ฐ์ ์ ํธํฉ๋๋ค. ์ด ๊ฐ์ด ๋๋ฌด ์ปค์ ธ ๋ฒ๋ฆฌ๋ฉด ์คํ๋ ค ํ์ตํ๋ ๋ฐ ๋ฐฉํด๊ฐ ๋ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ L1 ๋ณด๋ค L2๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ ์ด์ ์ด๊ธฐ๋ ํจ.
- ⇒ ๋ฐ๋ฉด (0.5,0.5) vector๊ฐ ์์ ๋, L1์ผ๋ก ๊ณ์ฐํ๋ฉด |0.5|+|0.5|=1์ด ๋์ง๋ง L2๋ก ๊ณ์ฐํ๋ฉด 0.52+0.52=0.25+0.25=0.5๊ฐ ๋จ.
- ์๋ฌธ์ : ์ L1์ ํผ์ฒ ์ค๋ ์ ๋๋์ด ๋๊ณ , L2๋ ๊ท ๋ฑํ ํผ์ฒ์ ์ ์ฉํ์ง?
1-3) Softmax Classifier(cross entropy)
- ์ํ๋ ํด๋์ค์ ์ ์๋ฅผ exp ์ทจํด์ ๋๋ ์ค
- ์ดํ, -log๋ฅผ ์ทจํ ํ loss๋ฅผ ๊ตฌํจ⇒ exp๋ฅผ ์ทจํ๊ณ , -log๋ฅผ ์ทจํ๋ ์ด์ ๋ ๋ฌด์์ผ๊น?
- softmax๋ multinomial logistic regression(์๊ทธ๋ชจ์ด๋- ๋ก์ง์คํฑ)⇒ ๋ฐ๋ผ์ exp๋ฅผ ์ฌ์ฉ
- -log ์ทจํ๋ ์ด์ ๋ -๋ฅผ ๊ณฑํ๊ฒ ๋๋ฉด ํ๋ฅ (y)๊ฐ์ด 1์ด ๋ ์๋ก log1 ⇒ 0์ ๊ฐ๊น์์ง ⇒ ๋ฐ๋ผ์ -log๋ฅผ ์ทจํด loss๊ฐ์ ๊ตฌํด์ค.
1-4) svm loss์ softmax classifier์ ์ฐจ์ด
- ๋๊ฐ vs ๋ฏผ๊ฐ ์ฐจ์ด
- hinge loss์ ๊ฒฝ์ฐ ๊ทธ๋ฅ ์ ๋ต ํด๋์ค๊ฐ ์ ๋ต ์๋ ํด๋์ค +1 ๋ณด๋ค ํฌ๋ฉด ๋์
- softmax์ ๊ฒฝ์ฐ, ํ๋ฅ ๋ก ๊ณ์ฐ๋๊ธฐ ๋๋ฌธ์, ๋ฐ์ดํฐ๊ฐ ์กฐ๊ธ๋ง ๋ฐ๊ปด๋ ํ๋ฅ ์ด ๋ง ๋ฐ๊ปด๋ฒ๋ฆผ ⇒ ๊ฐ๋ฏผ๊ฐ.
2. Optimization
- w๊ฐ ์ข์์ง ์์ข์์ง์ ๊ดํ loss ํจ์๋ฅผ ๊ตฌํ์ ⇒ ์ด๋ป๊ฒ ํด์ผ ์ข์ weight๋ฅผ ์ฐพ์๊ฐ ์ ์๋๊ฐ์ ๋ํ ๋ต์ด ๋ฐ๋ก ์ต์ ํ ํํธ.
- ์ฐ์์์ ๊ณจ์ง๊ธฐ๋ฅผ ๋ด๋ ค๊ฐ๋ ๊ฒ๊ณผ ๊ฐ์
- loss๊ฐ 0์ธ ์ง์ ์ ์ฐพ์๊ฐ๋ ๊ฒ.
2-1) Random search ์์ ํ์
- ๊ทธ๋ฅ ๋๋คํ๊ฒ ํฌ์ธํธ๋ฅผ ์ฐพ๋ ๊ฒ.
- ์์์ ์ ์ธ w๊ฐ์ ๋๋คํ๊ฒ ์ฐ๊ณ ๊ฑฐ๊ธฐ์ ์ต์ ํ ๋ฐฉ๋ฒ์ ํตํด w๋ฅผ ๊ตฌํจ
- ์ฑ๋ฅ ์ฒ์ฐจ๋ง๋ณ
2-2) local geometry ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
- ์์น์ ๋ฐฉ๋ฒ
- ํด์์ ๋ฐฉ
- h๋ฅผ 0์ ๊ฐ๊น๊ฒ ์ด๋
- loss ๊ฐ์ 1.25347 → 1.25322
- ๊ฒฝ์ฌ๊ฐ(๊ธฐ์ธ๊ธฐ): -2.5
์ด๋ฌํ ๋ฐฉ์์ผ๋ก ๋ชจ๋ W์ ๋ํด์ ์ด๋ฅผ ๋ฐ๋ณตํ๋ฉด ๋ชจ๋ gradient dW ๊ฐ์ ๊ตฌํ ์ ์์.
์ด ๋ฐฉ์์ Numerical gradient
๋ผ๊ณ ํ๋ค.
⇒ ๊ฐ๋๋ฆผ
- ๊ทธ๋์ ๋์จ ๋ฐฉ์์ด ํด์์ ๋ฐฉ๋ฒ
- W๊ฐ ๋ณํ ๋ loss๋ฅผ ์๊ณ ์ถ์ ๊ฒ๋ฟ์. ⇒ ๊ฒฝ์ฌํ๊ฐ๋ฒ
2-3) Stochastic Gradient Descent
- ๊ธฐ์กด Gradient Descent๋ฅผ ๊ตฌํ๊ธฐ ์ํด์๋ loss function์ด ํ์ํจ
- ์ด ๋ ์ ์ฒด ํธ๋ ์ด๋ ์ ์ loss ํ๊ท ์ ๊ตฌํ์
- ⇒ ์๊ฐ ๊ฐ์ค๋ ๊ฑธ๋ฆผ
- ๊ทธ๋์ ์ฌ์ฉํ๋ ๊ฒ์ด SGD ⇒ ๋ฏธ๋๋ฐฐ์น๋จ์๋ก ๋๋ ํธ๋ ์ด๋ ์ํ์ ๋๋ ์ ์ฌ์ฉํ๋ ๋ฐฉ์
3. ํน์ง๋ณํ(ํผ์ฒ ํน์ง ์ถ์ถ๊ณผ ๊ฐ์ ๋ง)
- ์ฌ์ค Linear Classification์ ์ด๋ฏธ์ง์์๋ ๊ทธ๋ฆฌ ์ข์ ๋ฐฉ๋ฒ์ด ์๋
- ๊ทธ๋์ DNN์ด ์ ํํ๊ธฐ ์ ์๋ Linear Classifier๋ฅผ ์ด์ฉํ๊ธฐ ์ํด์๋ ๋๊ฐ์ง ์คํ ์ด์ง๋ฅผ ๊ฑฐ์ณ์ ์ฌ์ฉ
- ์ด๋ฏธ์ง์ ์ฌ๋ฌ๊ฐ์ง ํน์งํํ์ ๊ณ์ฐ
- ๋ชจ์์, ์ปฌ๋ฌ ํ์คํ ๊ทธ๋จ, edge ํํ์ ๊ฐ์ ํน์งํํ์ ์ฐ๊ฒฐํ ํน์ง๋ฒกํฐ
- ์ด ํน์ง๋ฒกํฐ๋ฅผ Linear Classifier์ ์ ๋ ฅ๊ฐ์ผ๋ก ์ฌ์ฉ
3-1) ์ปฌ๋ฌ ํ์คํ ๊ทธ๋จ
- ์ด๋ฏธ์ง์ ๊ดํ ๊ฐ ํฝ์ ์ ๋ค ์ถ์ถํด์ ํด๋นํ๋ ์์ ํฝ์ ๊ฐ์ ๋ฃ๋ ๊ฐ๋ ( ์ด ํฝ์ ์ ๋ฌด์จ ์์ธ๊ฐ์ ๋ํ ๊ฐฏ์ ์ธ๊ธฐ)
- ๊ฐ๊ตฌ๋ฆฌ์ ๊ฒฝ์ฐ ์ด๋ก์์ด ๋ง์
- ์ด๊ฑฐ์ ๋ํ ํน์ง์ ํผ์ฒ๋ก ๋ฝ์ input์ผ๋ก ์ฌ์ฉ.
3-2) Histogram of Oriented Gradient
- ๋ฐฉํฅ๊ฐ์ ํ์คํ ๊ทธ๋จ์ผ๋ก ํํํ๋ ๊ฒ.
- 8*8 ํฝ์ ๋ก ๊ตฌ์ฑ๋ ๊ตฌ์ญ์ 9๊ฐ์ง์ ์ฃ์ง ๊ตฌ์ญ์ผ๋ก ๋๋ ์ ๊ฐ 9๊ฐ์ง์ bin์ ๋ช๊ฐ๊ฐ ์ํ๋์ง๋ฅผ ํผ์ฒ๋ก ์ถ์ถํด๋ธ ๊ฒ
- ์ด๋ฏธ์ง๋ฅผ 8*8๋ก ์๋ผ์ ํด๋น ๊ฐ์ ์ด๋ค ๊ฐ๋๊ฐ ๋ง์์ง๋ฅผ ํ์คํ ๊ทธ๋จ์ผ๋ก ๋ํ๋ด์ ํน์ง ์ถ์ถ.
- ๋ง์ฐฌ๊ฐ์ง๋ก ํผ์ฒ๋ก ๋ฝ์์ input์ ์ฌ์ฉ
3-3) Bag of words
- ์ด๋ฏธ์ง๋ฅผ ๋ง ์๋ฆ
- ์ด๊ฑฐ๋ฅผ ํด๋ฌ์คํฐ๊ฐ์ ๊ฒ์ผ๋ก ๊ตฐ์งํ ํจ
- ๊ทธ๋ฌ๋ฉด ๊ฐ๋๋ ์๊น ๋ฑ์ ํน์ง์ด ๋์ฌ ๊ฒ์.
- ์ดํ, ์๋ก์ด ์ด๋ฏธ์ง๊ฐ ๋ค์ด์ค๋ฉด ์ด๋ฏธ์ง๋ฅผ ์๋ผ์ ๊ธฐ์กด์ ๋ง๋ ํด๋ฌ์คํฐ๋ ๋น๊ตํด ์ด๋ค ํน์ง์ด ์๋์ง ๋น๊ต
- ์ด ๋ฐฉ๋ฒ์ NLP์์ ์๊ฐ์ ๋ฐ์ ๋ฐฉ์์ผ๋ก, ์ด๋ค ๋ฌธ์ฅ์์ ์ฌ๋ฌ
๋จ์ด๋ค์ ๋ฐ์๋น๋
๋ฅผ ์ธ์ ํน์ง๋ฒกํฐ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์์ ์ด๋ฏธ์ง์ ์ ์ฉํ ๊ฒ์ ๋๋ค.
- ์ฐ๋ฆฌ๋ ์ด๋ฏธ์ง๋ค์
์์๋๋ก ์กฐ๊ฐ๋ด๊ณ
, ๊ฐ ์กฐ๊ฐ์K-means
์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ตฐ์งํ ํฉ๋๋ค.
- ๋ค์ํ๊ฒ ๊ตฌ์ฑ๋ ๊ฐ ๊ตฐ์ง๋ค์ ๋ค์ํ ์๊ณผ ๋ค์ํ ๋ฐฉํฅ์ ๋ํ edge๋ ํฌ์ฐฉํ ์ ์์ต๋๋ค.
- ์ด๋ฌํ ๊ฒ๋ค์ ์๊ฐ ๋จ์ด(visual words) ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
'Deep Learning > 2023 DL ๊ธฐ์ด ์ด๋ก ๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] Part5 (0) | 2023.07.08 |
---|---|
[Standford_cs231n] Lecture 2 ) Image Classification (0) | 2023.07.08 |
[Standford_cs231n] Lecture 4 ) Introduction to Neural Networks (0) | 2023.07.08 |
[Standford_cs231n] Lecture 5 ) Convolutional Neural Networks (0) | 2023.07.07 |
[Standford_cs231n] Lecture 6 ) Training Neural Networks I (0) | 2023.07.07 |