728x90
๋ฐ์ํ
1. Intro
- CNN์ด ๋ฐ์ ํ๋ฉด์ ๋ชจ๋ธ ํฌ๊ธฐ๋ ๊ณ์ฐ ํจ์จ์ฑ ๋๋ฌธ์ ํ๊ณ ๋ฐ์.
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋์ ๊ฐ์ ๋ฐฉ์์ ์๊ฐํจ
- ์๋ ๋ฐฉ๋ฒ์ผ๋ก ILSVRC 2012 daset์ผ๋ก top1 error๊ฐ 17.2%, top5 error๊ฐ 3.58%๋ฅผ ๋ฌ์ฑ
- VGGNet์ ์ฑ๋ฅ์ ์ข์ง๋ง ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ๋ง์์ ๋น์ฉ ๋ง์ด ๋ฐ์
- Inception์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ค์ด๊ณ ์ฑ๋ฅ ์ข๋ค๋ ๊ฒฐ๋ก ์ด ๋์ด
- inception์ด ๊ตฌ์กฐ๊ฐ ๋ณต์กํด์ ์คํ๋ ค ์ต์ ํ ๋ฐฉํด๊ฐ ๋๋ค๋ ๊ฒฐ๊ณผ ๋ฐ์. ์คํ๋ ค ํจ์จ์ฑ์ด ๋จ์ด์ง⇒ ์ด ์น๊ตฌ๋ ๊ตฌ์กฐ๊ฐ ๋ณต์กํด์ ์์ ํ๊ธฐ ์ด๋ ต + ๋จ์ ํ์ฅ์ ๊ฒฝ์ฐ ์คํ๋ ค ๊ณ์ฐ ์ค๋ ๊ฑธ๋ฆฌ๊ฒ ๋จ
- ⇒ ์ด๋ค ์ด์ ๋ก ์ธํด ํจ์จ์ฑ์ด ์ข์์ง ์ ํํ๊ฒ ์ ์ ์์ด์ ์๋ก์ด ๊ณณ์ ์ ์ฉํ๊ธฐ ์ด๋ ต
- ํด์ ๋จ์ ๋ค์ ๊ฐ์ ํ๊ธฐ ์ํด ๋์จ ๊ฒ์ด ๋ ผ๋ฌธ์.
2. Characters
2-1) Factorization into smaller convolutions (๋ ์์ ํฉ์ฑ๊ณฑ์ผ๋ก ๋ถํด)

- 5x5 , 7x7 conv ⇒ 3x3 conv๋ก ๋ถํดํ๋ฉด ์ฐ์ฐ๋ ๋ฐ ํ๋ผ๋ฏธํฐ ๊ฐ์
- 5x5 conv์ ๊ฒฝ์ฐ, 25๋ฒ์ ์ฐ์ฐ์ ์ํ.
- ๋ฐ๋ฉด 3x3 conv 2๋ฒ์ ๊ฒฝ์ฐ, ์ด 18๋ฒ ์ฐ์ฐ ์ํ
- ๋ฐ๋ผ์ ์ฐ์ฐ๋์ด ํ ์ค์ด๋๋ ๊ฒ์ ๋ณผ ์ ์์โป ์ธ์ ํ unit ๊ฐ์ ๊ฐ์ค์น ๊ณต์ ํด์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ฌ์ค
⇒ VGG์์ ์๊ฐ๋ ๋ฐฉ๋ฒ


2-2) Asymmetric Convolutions (๋น๋์นญ ํฉ์ฑ๊ณฑ ๋ถํด)

- 3x3 conv๋ฅผ ๋ ๋ถํด ํ ์ ์์๊น? ์์ ๋์จ ๋ต.
- 2x2 conv๋ก ๋ถํดํ๊ธฐ
- ํ์ง๋ง ์คํํด๋ณธ ๊ฒฐ๊ณผ, 2x2 conv ๋ณด๋ค nx1 ๋น๋์นญ conv๋ก ๋ถํดํ๋ ๊ฒ์ด ๋ ํจ๊ณผ์
- 3x3 conv → 1x3 conv, 3x1 conv๋ก ๋ถํด

- 7x7์ 1x7๊ณผ 7x1๋ก ๋ถํดํ inception module
- Inception v2์์๋ ์์ ๊ฐ์ inception module ์ฌ์ฉ
2-3) Utility of Auxiliary Classifiers (๋ณด์กฐ ๋ถ๋ฅ๊ธฐ์ ํ์ฉ)

- ๊ธฐ์กด googlenet์์ ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ ํ์ฉํ๋ฉด ์ ๊ฒฝ๋ง ์๋ ด์ ๋ ํจ๊ณผ์ ์ด๋ผ๊ณ ์ฃผ์ฅ(๋ชจ๋ธ์ด ๊ธธ์ด์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฐ์). but ํจ๊ณผ ์๋ค๊ณ ..
- ์ด ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ์ drop out์ด๋ batch norm์ด ์์์ ๋, ์ฑ๋ฅ ํฅ์ ๊ฒฐ๊ณผ๊ฐ ๋ ๋์์ ⇒ ๊ทธ๋์ ์ ๊ทํ ํจ๊ณผ์ ๋ ๊ฐ๊น์์! ๋ผ๊ณ ์ฃผ์ฅํ๊ฒ ๋จ
2-4) Efficient Grid Size Reduction (ํจ์จ์ ์ธ ๊ทธ๋ฆฌ๋ ํฌ๊ธฐ ์ถ์)
pooling์ ๋ฌธ์ ์
- ์ผ๋ฐ CNN ์ ๊ฒฝ๋ง์ ๊ฒฝ์ฐ feature map ์ฌ์ด์ฆ ๊ฐ์๋ฅผ ์ํด pooling ์ฐ์ฐ ์งํ
- representational bottlenet(pooling ํ๊ฒ๋๋ฉด size ์ค๋ฉด์ ์ ๋ณด๋ ์ค์ด๋๋ ๊ฒ์ ๋งํจ) ํผํ๊ธฐ ์ํด ํํฐ ์ ์ฆ๊ฐ์ํด
- pooling์ ํตํด ์ฐ์ฐ๋์ ์ ๋ฐ์ผ๋ก ์ค์ง๋ง, ์ ๋ณด ์์ค๋ ๋ฐ์
- ์ผ์ชฝ ์ฌ์ง์ ๊ฒฝ์ฐ, pooling์ ๊ฑฐ์น ์ฐ์ฐ ( ์ ๋ฐ์ผ๋ก ๋จ)
- ์ค๋ฅธ์ชฝ ์ฌ์ง์ ๊ฒฝ์ฐ pooling ์๊ฑฐ์น ์ฐ์ฐ ⇒ ๋ ๋ง์ ์ฐ์ฐ๋ ํ์

- stride=2, conv layer์ ๋ณ๋ ฌ ์ฌ์ฉ
- ํํ๋ ฅ ๊ฐ์x, ์ฐ์ฐ๋ ๊ฐ์o
- ๋ฌธ์ ํด๊ฒฐ!
- ์ผ์ชฝ๋ณด๋ฉด stride=2
- ์ค๋ฅธ์ชฝ์ ๋ณ๋ ฌ ์์
2-5 ) Model Regularization via Label Smoothing
- hard label์ soft label๋ก ์ค๋ฌด๋ฉ ํ๋ ๊ฒ์ ์๋ฏธ
- hard label: one-hot-encoded vector(์ ๋ต์1, ๋๋จธ์ง๋ 0์ผ๋ก ๋ ๋ฒกํฐ)
- soft label: label์ 0~1 ์ฌ์ด ๊ฐ์ผ๋ก ๊ตฌ์ฑ
- ์ ํจ?: ๋ ์ด๋ธ์ ๋ถ๋๋ฝ๊ฒ ํด์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ณ ์ ์ฌ์ฉ(=์ ๋ต์ ๋ํ ํ์ ์ ๊ฐ์์์ผ์ ์ผ๋ฐํ ์ฑ๋ฅ ๋ด๊ณ ์)
ex) ๊ธฐ์กด label : [0,1,0,0] ⇒ [0.025, 0.925, 0.025, 0.025]๋ก ๋ณ๊ฒฝ

3. Inception -v2/v3
4. Outro
- ๋น์ ์ต๊ณ ์ ์๋ฌ์จ์ ์๋นํ ๊ฐ์ ์์ผฐ์ผ๋ฉฐ, 2014 ILSVRC GoogLeNet ensemble error๋๋น ๊ฑฐ์ ์ ๋ฐ์ผ๋ก ์ค์.
- ๋ํ, 79*79 size ๊ฐ์ด lower resolution์์๋ ๋์ ์ฑ๋ฅ์ ์ป์.
- ๋์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ๋ฎ์ ๋น์ฉ์ ๋ค์ฌ ๋คํธ์ํฌ๋ฅผ ์ค๊ณ
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Fast R-CNN (0) | 2023.07.06 |
---|---|
Transformer (0) | 2023.07.06 |
ELMO (0) | 2023.07.06 |
SegNet (0) | 2023.07.06 |
CycleGAN (0) | 2023.07.05 |