728x90
๋ฐ์ํ
1. Intro

- ์ด์ ๊น์ง๋ depth, width, size ์ค ํ๋๋ง scale ํ๋ ๊ฒ์ ์ฃผ๋ก ๋ค๋ฃธ⇒ ๋ ๋์ ์ ํ๋ ํน์ ํจ์จ์ฑ์ผ๋ก convnet์ scale up ํ๋ ๋ฐฉ๋ฒ์ด ์์๊น?์์ ๋์จ ์น๊ตฌ
- depth, width, size ์ธ ๊ฐ์ง ๊ท ํ์ ์ ๋ง์ถ๋ ๊ฒ์ด ์ค์ํจ
- ์์ ๋น์จ๋ก ์ธ ๊ฐ์ง๋ฅผ ๊ฐ๊ฐ scalingํ๋ฉด ๋๋ค๋ ๊ฒ์ ์๊ฒ ๋จ
2. Model Scaling
- Convnet์ ์ ํ๋๋ฅผ ๋์ผ ๋ ์ ์ง์ฌ์ง ๋ชจ๋ธ์ ์ฐพ๋ ๋ฐฉ๋ฒ๋ ์์ง๋ง, ๊ธฐ์กด ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก ๋ณต์ก๋๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ๋ ๋ง์ด ์ฌ์ฉ

- depth scaling: layer์ ๊ฐ์๋ฅผ ๋์ฌ์ค ex) ResNet
- width scaling: channel(ํํฐ) ๊ฐ์๋ฅผ ๋์ฌ์ค ex) MobileNet, ShuffleNet
- resolution scaling: input image์ ํด์๋๋ฅผ ๋์ฌ์ค

- 3๊ฐ์ง scaling ๊ธฐ๋ฒ์ ๋ํด ๊ฐ scaling ๊ธฐ๋ฒ๋ง๋ค ๋๋จธ์ง๋ ๊ณ ์ ํ๊ณ , 1๊ฐ์ scaling๋ง ํค์๊ฐ๋ฉด์ ์ ํ๋ ๋ณํ ์ธก์ ⇒ width์ depth๋ ๋น๊ต์ ์ด๋ฅธ ์์ ์ ์ ํ๋๊ฐ ์๋งํด์ง? (ํฌํ์ ์๋ฏธ๋ฅผ ์ ๋ชจ๋ฅด๊ฒ ์)
- ⇒ resolution์ ํค์ธ์๋ก ์ ํ๋๊ฐ ์ ์ค๋ฆ

- ๊ฐ์ FLOPS์ธ๋ฐ๋ ๋ถ๊ตฌํ๊ณ 1.5%๊น์ง ์ ํ๋ ์ฐจ์ด๊ฐ ๋จ
- ์ด๋ก์๊ณผ ๋ ธ๋์ ๋น๊ตํ๋ฉด, depth๋ฅผ ํค์ฐ๋ ๊ฒ๋ณด๋ค๋ resolution์ ํค์ฐ๋๊ฒ ๋ ์ข์๊ณ , ๋นจ๊ฐ์ ์ ์ ๋ณด๋ฉด 3๊ฐ์ง scaling์ ๋์์ ํค์ฐ๋ ๊ฒ์ด ๋ ์ข์์
3. Compound Scaling

- 3๊ฐ์ง์ scaling์ ์กฐ์ ํ๋ ๊ฒ๋ ์ค์ํ์ง๋ง ๋ชจ๋ธ ์์ฒด๋ ์ข์์ผ ํจ
- ์ด ๋
ผ๋ฌธ์์๋ MnasNet๊ณผ ๊ฑฐ์ ๋์ผํ AutoML์ ํตํด ๋ชจ๋ธ์ ํ์ ⇒ ์ฌ๊ธฐ์ ์ฐพ์ ๋ชจ๋ธ์ด EfficientNet-B0
- compund scaling ์ ์ฉ(3๊ฐ์ง scaling)

- depth, width, resolution ์ ๊ฐ๊ฐ ์ํ, ๋ฒ ํ, ๊ฐ๋ง๋ก ๋ํ๋ด๋ฉฐ ๊ฐ๊ฐ์ ๋น์จ์ ๋ ธ๋์์ผ๋ก ๊ฐ์กฐํ ์กฐ๊ฑด์ ๋ง์กฑ์์ผ์ผ ํจ
- ์ด๋ ์ ๊ณฑ์ด ๋ค์ด๊ฐ ์ด์ :⇒ depth๋ 2๋ฐฐ ํค์์ฃผ๋ฉด FLOPS๋ ๋น๋กํด์ 2๋ฐฐ ์ฆ๊ฐํ์ง๋ง, width์ resolution์ ๊ฐ๋ก์ ์ธ๋ก๊ฐ ๊ฐ๊ฐ ๊ณฑํด์ง๊ธฐ ๋๋ฌธ์ ์ ๊ณฑ ๋ฐฐ ์ฆ๊ฐํจ
- alpha x beta^2 x gamma^2 =2⇒ 2์ ์ ์ฌํ ๊ฐ์ด์ด์ผ
- EfficientNet์ ์ํ, ๋ฒ ํ, ๊ฐ๋ง ๊ฐ์ ๊ฐ๋จํ grid search๋ฅผ ํตํด ๊ตฌํ๋ ๋ฐฉ์์ ์ ์ํ๊ณ ์๊ณ , ์ฒ์ ๋จ๊ณ์์๋ ํ์ด๋ฅผ 1๋ก ๊ณ ์ ํ ๋ค, ํ๊ฒ ๋ฐ์ดํฐ์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ํ, ๋ฒ ํ, ๊ฐ๋ง ๊ฐ์ ์ฐพ์๋
- ๋ณธ ๋ ผ๋ฌธ์์๋ ์ํ ๊ฐ์ 1.2, ๋ฒ ํ ๊ฐ์ 1.1, ๊ฐ๋ง ๊ฐ์ 1.15๋ฅผ ์ฌ์ฉํ, ๋ฐฉ๊ธ ๊ตฌํ 3๊ฐ์ scaling factor๋ ๊ณ ์ ํ ๋ค ํ์ด๋ฅผ ํค์์ฃผ๋ฉฐ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ํค์์ฃผ๊ณ ์์
4. Experiments
5. Outro
- Depth(d)
- ConvNet์ ๊น์ด๊ฐ ๊น์์๋ก, ๋ ํ๋ถํ๊ณ ๋ณต์กํ feature๋ฅผ ํ์ตํ๊ณ , ๋ค๋ฅธ ๋ฌธ์ ์๋ ์ผ๋ฐํ๊ฐ ์ ๋จ
- ํ์ง๋ง vanishing gradient ๋ฌธ์ ๋ก ํ์ต์ํค๊ธฐ๊ฐ ์ด๋ ค์
- skip connection, batch normalization ๋ฑ์ ํด๊ฒฐ ๋ฐฉ๋ฒ์ด ์์ง๋ง, ์์ฃผ ๊น์ ๊ฒฝ์ฐ์ ํจ๊ณผ๊ฐ ์์
- ex ) ResNet-1000, ResNet-101์ ๊ฒฝ์ฐ ๋น์ทํ accuracy๋ฅผ ๋ณด์
- Width(w)
- ์์ size์ ๋ชจ๋ธ์์ ์ฃผ๋ก ์ฐ์
- wider network๋ fine-grained feature๋ฅผ ๋ฝ์๋ผ ์ ์๊ณ ํ์ต์ํค๊ธฐ ๋ ์ฌ์
- ๊ทธ๋ฌ๋ ์์ฃผ ๋๊ณ ์์ network์ ๊ฒฝ์ฐ higher level feature๋ฅผ ๋ฝ์๋ด๊ธฐ๊ฐ ํ๋ฆ
- Resolution(r)
- ๋์ resolution์ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ fine-grained feature๋ฅผ ๋ฝ์๋ด๊ธฐ ์ฌ์
- ๋ง์ฐฌ๊ฐ์ง๋ก ๋๋ฌด ๋์ resolution ์ ๊ฒฝ์ฐ accuracy gain์ด ๋๋์ง๋ ๊ฑธ ํ์ธํ ์ ์์
โป ๊ฒฐ๋ก
- width, depth, resolution ๊ฐ ๊ท ํ์ด model์ scale up ํ๋ ๋ฐ ์ค์ํ ์์์์์ ๋ณด์
- accuracy๊ฐ ๋ ๋๊ณ ํจ์จ์ ์ด๋ฉด์, ์ฝ๊ฒ ๋ชจ๋ธ์ scale up ํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํจ
- ์ ์ด ํ์ต์์๋ ๋ ์ ์ parameter์ FLOP์ผ๋ก ์ ๋์ํจ์ ๋ณด์
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
XLM: Cross-lingual Language Model Pretraining (0) | 2023.07.09 |
---|---|
YOLOv4: Optimal Speed and Accuracy of Object Detection (0) | 2023.07.09 |
cGAN/Pix2Pix (0) | 2023.07.07 |
R-CNN (0) | 2023.07.06 |
GAN: Generative Adversarial Nets (0) | 2023.07.06 |