๋ฆฌ๋ทฐ๋ ์๋์ชฝ์ ์์ต๋๋น ! !
๋ฒ์ญ ver
0. Abstract
์ฐ๋ฆฌ๋ Noisy Student Training์ ์ ์ํฉ๋๋ค. ์ด๋ ๋ ์ด๋ธ์ด ํ๋ถํ ๊ฒฝ์ฐ์๋ ์ ์๋ํ๋ ์ค์ง๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค. Noisy Student Training์ ImageNet์์ 88.4%์ top-1 ์ ํ๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์ด๋ 35์ต ๊ฐ์ ์ฝํ ๋ ์ด๋ธ์ด ๋ถ์ฐฉ๋ Instagram ์ด๋ฏธ์ง๊ฐ ํ์ํ ์ต์ฒจ๋จ ๋ชจ๋ธ๋ณด๋ค 2.0% ๋ ๋์ ์ฑ๋ฅ์ ๋๋ค. ๊ฐ๊ฑด์ฑ ํ ์คํธ ์ธํธ์์๋ ImageNet-A์ top-1 ์ ํ๋๋ฅผ 61.0%์์ 83.7%๋ก ํฅ์์ํค๋ฉฐ, ImageNet-C์ ํ๊ท ์์ ์ค์ฐจ๋ฅผ 45.7์์ 28.3์ผ๋ก ์ค์ด๊ณ , ImageNet-P์ ํ๊ท ๋ค์ง๊ธฐ ๋น์จ์ 27.8์์ 12.2๋ก ์ค์ ๋๋ค. Noisy Student Training์ self-training๊ณผ distillation์ ๊ฐ๋ ์ ํ์ฅํ์ฌ ํ์ต ์ค์ ๋์ผํ ํฌ๊ธฐ ์ด์์ ํ์ ๋ชจ๋ธ๊ณผ ํ์ต ์ค์ ํ์์๊ฒ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ImageNet์์๋ ๋จผ์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ก EfficientNet ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ์ด๋ฅผ ์ ์๋์ผ๋ก ์ฌ์ฉํ์ฌ 3์ต ๊ฐ์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ํด ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์, ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๊ฐ์ง ๋ ์ด๋ธ ์ด๋ฏธ์ง์ ์กฐํฉ์ผ๋ก ๋ ํฐ EfficientNet์ ํ์ ๋ชจ๋ธ๋ก ํ์ต์ํต๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ํ์์ ์ ์๋์ผ๋ก ๋๋๋ ค ๋๋ ๊ฒ์ผ๋ก ๋ฐ๋ณตํฉ๋๋ค. ํ์์ ํ์ต ์ค์๋ dropout, stochastic depth, RandAugment๋ฅผ ํตํด ๋ฐ์ดํฐ ์ฆ๊ฐ๊ณผ ๊ฐ์ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํ์ฌ ํ์์ด ์ ์๋๋ณด๋ค ๋ ์ผ๋ฐํ๋ ์ ์๋๋ก ํฉ๋๋ค.
โป ์ค์ง๋ ํ์ต: ์ ๋ต ๋ ์ด๋ธ์ด ์๋ ์์ ๋ฐ์ดํฐ์ ์ผ๋ก 1์ฐจ (์ง๋)ํ์ต์ ํ๊ณ , ์ ๋ต ๋ ์ด๋ธ์ด ์๋ ํฐ ๋ฐ์ดํฐ์ ์ผ๋ก 2์ฐจ ํ์ต์ ํ๋ ๊ฒ์ ๋งํจ
โป Knowledge distillation: ์์ ๋คํธ์ํฌ๋ ํฐ ๋คํธ์ํฌ์ ๋น์ทํ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก, ํ์ต๊ณผ์ ์์ ํฐ ๋คํธ์ํฌ์ ์ง์์ ์์ ๋คํธ์ํฌ์๊ฒ ์ ๋ฌํ์ฌ ์์ ๋คํธ์ํฌ์ ์ฑ๋ฅ์ ๋์ด๊ฒ ๋ค๋ ๋ชฉ์ ์ ๊ฐ์ง๊ณ ์์
1. Introduction
์ต๊ทผ ๋ช ๋ ๋์ ๋ฅ๋ฌ๋์ ์ด๋ฏธ์ง ์ธ์ ๋ถ์ผ์์ ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค [45, 80, 75, 30, 83]. ๊ทธ๋ฌ๋ ์ต์ฒจ๋จ ๋น์ ๋ชจ๋ธ๋ค์ ์ฌ์ ํ ๋๋ถ๋ถ ์ง๋ ํ์ต์ผ๋ก ํ๋ จ๋๋ฉฐ, ์ด๋ ์ ์๋ํ๊ธฐ ์ํด ๋๋์ ๋ ์ด๋ธ์ด ๋ถ์ฐฉ๋ ์ด๋ฏธ์ง ์งํฉ์ด ํ์ํฉ๋๋ค. ๋ ์ด๋ธ์ด ๋ถ์ฐฉ๋ ์ด๋ฏธ์ง๋ง ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ฉด, ์ฐ๋ฆฌ๋ ๋๋์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ํ์ฉํ์ฌ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ์ ํ๋์ ๊ฐ๊ฑด์ฑ์ ํฅ์์ํฌ ์ ์๋ ๊ธฐํ๋ฅผ ์ ํํ๊ฒ ๋ฉ๋๋ค.
์ฌ๊ธฐ์์๋ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ฒจ๋จ ImageNet ์ ํ๋๋ฅผ ํฅ์์ํค๊ณ , ์ด ์ ํ๋ ํฅ์์ด ๊ฐ๊ฑด์ฑ(๋ถํฌ ๋ฐ์ ์ผ๋ฐํ)์ ํฐ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฅผ ์ํด ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ํจ์ฌ ๋ ํฐ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ฉฐ, ์ด ๋ฐ์ดํฐ์ ์ ์๋น ๋ถ๋ถ์ ImageNet ํ๋ จ ์งํฉ ๋ถํฌ์ ์ํ์ง ์๋ ์ด๋ฏธ์ง์ ๋๋ค (์ฆ, ImageNet์ ์ด๋ค ์นดํ ๊ณ ๋ฆฌ์๋ ์ํ์ง ์์ต๋๋ค). Noisy Student Training์ด๋ผ๋ ์ค์ง๋ ํ์ต ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค. ์ด ๋ฐฉ์์ ์ธ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค:
(1) ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ก ์ ์๋ ๋ชจ๋ธ์ ํ๋ จ์ํต๋๋ค
(2) ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํฉ๋๋ค
(3) ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๊ฐ์ง ๋ ์ด๋ธ ์ด๋ฏธ์ง์ ์กฐํฉ์ผ๋ก ํ์ ๋ชจ๋ธ์ ํ๋ จ์ํต๋๋ค.
์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ํ์์ ์ ์๋์ผ๋ก ์ทจ๊ธํ์ฌ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ผ๋ฒจ๋งํ๊ณ ์๋ก์ด ํ์์ ํ๋ จ์ํค๋ฉด์ ๋ช ๋ฒ ๋ฐ๋ณตํฉ๋๋ค.
Noisy Student Training์ self-training๊ณผ distillation์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ ํฉ๋๋ค.
- ์ฒซ์งธ๋ก, ํ์์ ์ ์๋๋ณด๋ค ํฌ๊ฑฐ๋ ์ ์ด๋ ๋์ผํ ํฌ๊ธฐ๋ก ๋ง๋ค์ด ํ์์ด ๋ ํฐ ๋ฐ์ดํฐ์ ์์ ๋ ์ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค.
- ๋์งธ๋ก, ํ์์๊ฒ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ ธ์ด์ฆ๊ฐ ์๋ ํ์์ด ๊ฐ์ง ๋ ์ด๋ธ๋ก๋ถํฐ ๋ ์ด๋ ต๊ฒ ํ์ตํ๋๋ก ํฉ๋๋ค. ํ์์๊ฒ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ๊ธฐ ์ํด RandAugment ๋ฐ์ดํฐ ์ฆ๊ฐ [18], dropout [76], stochastic depth [37]์ ๊ฐ์ ์ ๋ ฅ ๋ ธ์ด์ฆ ๋ฐ ๋ชจ๋ธ ๋ ธ์ด์ฆ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ํตํด ํ์์ ๋ ๋ค์ํ ๋ฐ์ดํฐ์์ ๋ ๊ฐ๋ ฅํ๊ฒ ํ์ตํ๋ฉฐ, ๊ฐ์ง ๋ ์ด๋ธ๋ก๋ถํฐ ๋ ๊ฐ๋ ฅํ ํน์ง์ ํ์ตํ ์ ์๊ฒ ๋ฉ๋๋ค.
Noisy Student Training๊ณผ 3์ต ๊ฐ์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ EfficientNet์ ImageNet top-1 ์ ํ๋๋ฅผ 88.4%๋ก ํฅ์์์ผฐ์ต๋๋ค [83]. ์ด ์ ํ๋๋ ์ด์ ์ ์ฝ 35์ต ๊ฐ์ ์ฝํ ๋ ์ด๋ธ์ด ๋ถ์ฐฉ๋ Instagram ์ด๋ฏธ์ง๊ฐ ํ์ํ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ณด๋ค 2.0% ๋ ์ฐ์ํฉ๋๋ค. ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ํ์ค ImageNet ์ ํ๋๋ฟ๋ง ์๋๋ผ ํจ์ฌ ์ด๋ ค์ด ํ ์คํธ ์ธํธ์์์ ๋ถ๋ฅ ๊ฐ๊ฑด์ฑ๋ ํฌ๊ฒ ํฅ์์ํต๋๋ค. ์๋ฅผ ๋ค์ด, ImageNet-A์ top-1 ์ ํ๋๋ 61.0%์์ 83.7%๋ก ํฅ์๋์์ผ๋ฉฐ, ImageNet-C์ ํ๊ท ์์ ์ค์ฐจ๋ 45.7์์ 28.3์ผ๋ก ์ค์์ผ๋ฉฐ, ImageNet-P์ ํ๊ท ๋ค์ง๊ธฐ ๋น์จ์ 27.8์์ 12.2๋ก ์ค์์ต๋๋ค. ์ฃผ์ ๊ฒฐ๊ณผ๋ ํ 1์ ๋์ ์์ต๋๋ค.
2. Noisy Student Training
์๊ณ ๋ฆฌ์ฆ 1์ Noisy Student Training์ ๊ฐ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ์๊ณ ๋ฆฌ์ฆ์ ์ ๋ ฅ์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋๋ค. ์ฐ๋ฆฌ๋ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ ์๋ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๋ฐ ํ์ค ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ํด ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํฉ๋๋ค. ๊ฐ์ง ๋ ์ด๋ธ์ ์ํํธ ํ์ (์ฐ์์ ์ธ ๋ถํฌ) ๋๋ ํ๋ ํ์ (์-ํซ ๋ถํฌ)์ผ ์ ์์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๊ฒฐํฉ๋ ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ์ต์ํํ๋ ํ์ ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ํ์์ ์ ์๋์ผ๋ก ๋๋๋ ค ๋์ ์๋ก์ด ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํ๊ณ ์๋ก์ด ํ์์ ํ๋ จ์ํต๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ Figure 1์์๋ ์๊ฐ์ ์ผ๋ก ์ค๋ช ๋๊ณ ์์ต๋๋ค.
์ด ์๊ณ ๋ฆฌ์ฆ์ ์ค์ง๋ ํ์ต์์์ self-training([71, 96])๊ณผ distillation[33]์ ๊ฐ์ ๋ ๋ฒ์ ์ ๋๋ค. ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ด ์ด์ ์ฐ๊ตฌ์ ์ด๋ป๊ฒ ๊ด๋ จ๋์ด ์๋์ง์ ๋ํ ๋ ๋ง์ ๋ ผ์๋ ์น์ 5์์ ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
์ ํฌ์ ์ฃผ์ ๊ฐ์ ์ ์ ํ์์๊ฒ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ , ์ ์๋๋ณด๋ค ์์ง ์์ ํ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ ์์ต๋๋ค. ์ด๋ ์ ํฌ์ ๋ฐฉ๋ฒ์ด ์ง์ ์ฆ๋ฅ(Knowledge Distillation)[33]์ ๋ค๋ฅธ ์ ์ ๋๋ค. ์ง์ ์ฆ๋ฅ์์๋
1) ๋ ธ์ด์ฆ๊ฐ ์์ฃผ ์ฌ์ฉ๋์ง ์์ผ๋ฉฐ,
2) ์ ์๋๋ณด๋ค ๋ ๋น ๋ฅธ ์๋๋ฅผ ์ํด ์์ ํ์ ๋ชจ๋ธ์ด ์์ฃผ ์ฌ์ฉ๋ฉ๋๋ค.
์ ํฌ ๋ฐฉ๋ฒ์ ์ง์ ํ์ฅ์ผ๋ก ์๊ฐํ ์ ์์ต๋๋ค. ์ฆ, ํ์ ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ฉ๋๊ณผ ๋ ธ์ด์ฆ์ ๊ฐ์ ์ด๋ ค์ด ํ๊ฒฝ์ ํตํด ์ ์๋๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ํ๋ ๊ฒ์ ๋๋ค.
Noising Student
ํ์์ ๊ณ ์๋ก ๋ ธ์ด์ฆ ์ฒ๋ฆฌํ ๋๋ ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํ ๋ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ ์๋๊ณผ ์ผ๊ด์ฑ์ ์ ์งํ๋๋ก ํ์ต๋ฉ๋๋ค. ์ฐ๋ฆฌ์ ์คํ์์๋ ๋ ๊ฐ์ง ์ ํ์ ๋ ธ์ด์ฆ๋ฅผ ์ฌ์ฉํฉ๋๋ค:
์ ๋ ฅ ๋ ธ์ด์ฆ์ ๋ชจ๋ธ ๋ ธ์ด์ฆ์ ๋๋ค. ์ ๋ ฅ ๋ ธ์ด์ฆ๋ก๋ RandAugment [18]์ ๊ฐ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ธ ๋ ธ์ด์ฆ๋ก๋ dropout [76]๊ณผ stochastic depth [37]๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ฅผ ์ ์ฉํ ๋, ๋ ธ์ด์ฆ๋ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ๊ฒฐ์ ํจ์์์ ๋ถ๋ณ์ฑ์ ๊ฐ์ ํ๋ ์ค์ํ ์ด์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
์ฒซ์งธ, ๋ฐ์ดํฐ ์ฆ๊ฐ์ Noisy Student Training์์ ์ค์ํ ๋ ธ์ด์ง ๋ฐฉ๋ฒ์ ๋๋ค. ์๋ํ๋ฉด ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํ์์ด ์ด๋ฏธ์ง์ ์ฆ๊ฐ๋ ๋ฒ์ ๊ฐ์ ์์ธก ์ผ๊ด์ฑ์ ๋ณด์ฅํ๋๋ก ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค (UDA [91]์ ์ ์ฌ). ํนํ, ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์์ ์ ์๋์ ๊นจ๋ํ ์ด๋ฏธ์ง๋ฅผ ์ฝ์ด๋ค์ฌ ๊ณ ํ์ง์ ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํ๋ ๋ฐ๋ฉด, ํ์์ ์ฆ๊ฐ๋ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๊ทธ๋ฌํ ๋ ์ด๋ธ์ ์ฌํํด์ผ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํ์์ ์ด๋ฏธ์ง์ ๋ฒ์ญ๋ ๋ฒ์ ์ด ์๋ณธ ์ด๋ฏธ์ง์ ๋์ผํ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ ธ์ผ ํจ์ ๋ณด์ฅํด์ผ ํฉ๋๋ค.
๋์งธ, dropout๊ณผ stochastic depth ํจ์๋ฅผ ๋ ธ์ด์ฆ๋ก ์ฌ์ฉํ ๋, ์ ์๋์ ์ถ๋ก ์ (๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํ ๋) ์์๋ธ์ฒ๋ผ ๋์ํ๊ณ , ํ์์ ๋จ์ผ ๋ชจ๋ธ์ฒ๋ผ ๋์ํฉ๋๋ค. ์ฆ, ํ์์ ๋ ๊ฐ๋ ฅํ ์์๋ธ ๋ชจ๋ธ์ ๋ชจ๋ฐฉํ๋๋ก ๊ฐ์ ๋ฉ๋๋ค. ๋ ธ์ด์ฆ์ ํจ๊ณผ์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ 4.1์ ์์ ์ ์๋ฉ๋๋ค.
Other Techniques
Noisy Student Training์ ๋ฐ์ดํฐ ํํฐ๋ง๊ณผ ๊ท ํ ๋ง์ถค๊ณผ ๊ฐ์ ์ถ๊ฐ์ ์ธ ๊ธฐ๊ต๋ก ๋์ฑ ํจ๊ณผ์ ์ผ๋ก ์๋ํฉ๋๋ค. ์ด๋ [91, 93]์ ์ ์ฌํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์๋ ๋ชจ๋ธ์ด ์ ๋ขฐ๋๊ฐ ๋ฎ์ ์ด๋ฏธ์ง๋ฅผ ๊ฑธ๋ฌ๋ด๊ธฐ ๋๋ฌธ์ ๋ณดํต ๋๋ฉ์ธ ๋ฐ์ ์ด๋ฏธ์ง๋ค์ ๋๋ค. ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ถํฌ๊ฐ ํ๋ จ ์ธํธ์ ์ผ์นํ๋๋ก ๋ณด์ฅํ๊ธฐ ์ํด, ๊ฐ ํด๋์ค์ ๋ํ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ์๋ฅผ ๊ท ํ์๊ฒ ๋ง์ถ์ด์ผ ํฉ๋๋ค. ImageNet์ ๋ชจ๋ ํด๋์ค๋ ์ ์ฌํ ์์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก, ์ด๋ฏธ์ง๊ฐ ๋ถ์กฑํ ํด๋์ค์์๋ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ ํฉ๋๋ค. ์ด๋ฏธ์ง๊ฐ ๋๋ฌด ๋ง์ ํด๋์ค์ ๊ฒฝ์ฐ ๊ฐ์ฅ ๋์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ์ ํํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์คํ์์ ๋ชจ๋ ์ ๋์ํ๋ ์ํํธ ๋๋ ํ๋ ๊ฐ์ง ๋ ์ด๋ธ๊ณผ ํจ๊ป ์ฌ์ฉ๋ ์ ์๋ค๋ ์ ์ ๊ฐ์กฐํ๊ณ ์ ํฉ๋๋ค. ํนํ, ์ํํธ ๊ฐ์ง ๋ ์ด๋ธ์ ์ธ๋ถ ๋๋ฉ์ธ์ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ์ฝ๊ฐ ๋ ์ ์๋ํฉ๋๋ค. ๋ฐ๋ผ์ ์๋์์๋ ์ผ๊ด์ฑ์ ์ํด, ๋ช ์๋์ง ์๋ ํ ์ํํธ ๊ฐ์ง ๋ ์ด๋ธ๊ณผ ํจ๊ป ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํฉ๋๋ค.
Comparisons with Existing SSL Methods
self-training ์ธ์๋ ์ค์ง๋ ํ์ต์ ๋ ๋ค๋ฅธ ์ค์ํ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ผ๊ด์ฑ ํ๋ จ [5, 64, 47, 84, 56, 91, 8] ๋ฐ ๊ฐ์ง ๋ ์ด๋ธ๋ง [48, 39, 73, 1]์ด ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด๋์ผ๋, ์ฐ๋ฆฌ์ ์ด๊ธฐ ์คํ์์๋ ์ผ๊ด์ฑ ์ ๊ทํ ๋ฐ ๊ฐ์ง ๋ ์ด๋ธ๋ง์ ๊ธฐ๋ฐํ ๋ฐฉ๋ฒ๋ค์ด ImageNet์์๋ ๋ ์ ์๋ํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํ๋ ๋์ , ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๋ณ๋์ ์ ์๋ ๋ชจ๋ธ ์์ด ํ๋ จ ์ค์ธ ๋ชจ๋ธ ์์ฒด๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํฉ๋๋ค. ํ๋ จ ์ด๊ธฐ ๋จ๊ณ์์๋ ํ๋ จ ์ค์ธ ๋ชจ๋ธ์ ์ ํ๋๊ฐ ๋ฎ๊ณ ์ํธ๋กํผ๊ฐ ๋๊ธฐ ๋๋ฌธ์, ์ผ๊ด์ฑ ํ๋ จ์ ๋ชจ๋ธ์ ๊ณ ์ํธ๋กํผ ์์ธก์ผ๋ก ์ ๊ทํํ๊ณ ์ข์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง ๋ชปํ๋๋ก ๋ฐฉ์งํฉ๋๋ค. ์ผ๋ฐ์ ์ธ ํด๊ฒฐ์ฑ ์ผ๋ก๋ ์ํธ๋กํผ ์ต์ํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฎ์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง ์์ ๋ฅผ ๊ฑธ๋ฌ๋ด๊ฑฐ๋ ์ผ๊ด์ฑ ์์ค์ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ์ง์ ์ธ ์ค์ผ์ค๋ง, ์ ๋ขฐ๋ ๊ธฐ๋ฐ ํํฐ๋ง ๋ฐ ์ํธ๋กํผ ์ต์ํ์ ๋ฐ๋ฅธ ์ถ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋๊ท๋ชจ๋ก ์ฌ์ฉํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ญ๋๋ค. ์ด์ ๋นํด self-training/์ ์๋-ํ์ ํ๋ ์์ํฌ๋ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ก ImageNet์ ๋ํ ์ข์ ์ ์๋์ ํ๋ จ์ํฌ ์ ์์ด ImageNet์ ๋ ์ ํฉํฉ๋๋ค.
3. Experiments
์ด ์น์ ์์๋ ๋จผ์ ์คํ ์ธ๋ถ ์ฌํญ์ ์ค๋ช ํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ต์ฒจ๋จ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ImageNet ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ImageNet-A, C, P์ ๊ฐ์ ๊ฐ๊ฑด์ฑ ๋ฐ์ดํฐ์ ๋ฐ ์ ๋์ ๊ณต๊ฒฉ ์ํฉ์์ ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ ๋๋ผ์ด ๊ฐ์ ์ฌํญ์ ๋ณด์ฌ์ค๋๋ค.
3.1. Experiment Details
Labeled dataset. ์ฐ๋ฆฌ๋ ImageNet 2012 ILSVRC ์ฑ๋ฆฐ์ง ์์ธก ๊ณผ์ ์์ ์คํ์ ์งํํฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ๊ฐ์ฅ ๋ง์ด ๋ฒค์น๋งํฌ๋ ๋ฐ์ดํฐ์ ์ค ํ๋๋ก ๊ฐ์ฃผ๋๋ฉฐ, ImageNet์์์ ๊ฐ์ ์ฌํญ์ด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ผ๋ก ์ ์ด๋๋ค๊ณ ์๋ ค์ ธ ์์ต๋๋ค [44, 66].
Unlabeled dataset. ์ฐ๋ฆฌ๋ ์ฝ 3์ต ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ JFT(Jigsaw For Transformation) ๋ฐ์ดํฐ์ [33, 15]์์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ป์ต๋๋ค. ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง์๋ ๋ ์ด๋ธ์ด ์์ง๋ง, ์ฐ๋ฆฌ๋ ๋ ์ด๋ธ์ ๋ฌด์ํ๊ณ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ก ์ทจ๊ธํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์์ ImageNet ๊ฒ์ฆ ์ธํธ ์ด๋ฏธ์ง๋ฅผ ํํฐ๋งํฉ๋๋ค ([58] ์ฐธ์กฐ).
์ฐ๋ฆฌ๋ ์ด ๋ฐ์ดํฐ ์ ์ ๋ํด ๋ฐ์ดํฐ ํํฐ๋ง๊ณผ ๊ท ํ ์กฐ์ ์ ์ํํฉ๋๋ค.
- ๋จผ์ , ImageNet [83]์์ ํ๋ จ๋ EfficientNet-B0๋ฅผ JFT ๋ฐ์ดํฐ ์ [33, 15]์ ์ ์ฉํ์ฌ ๊ฐ ์ด๋ฏธ์ง์ ๋ํ ๋ ์ด๋ธ์ ์์ธกํฉ๋๋ค.
- ๊ทธ๋ฐ ๋ค์ ๋ ์ด๋ธ์ ์ ๋ขฐ๋๊ฐ 0.3๋ณด๋ค ๋์ ์ด๋ฏธ์ง๋ฅผ ์ ํํฉ๋๋ค. ๊ฐ ํด๋์ค๋ง๋ค ์ต๋ 13๋ง๊ฐ์ ๊ฐ์ฅ ๋์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ์ ํํฉ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, 13๋ง๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๊ฐ๋๋ก ๊ฐ ํด๋์ค์์ ์ด๋ฏธ์ง๋ฅผ ์์๋ก ๋ณต์ ํฉ๋๋ค. ๋ฐ๋ผ์ ํ์ ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ์ด ์ด๋ฏธ์ง ์๋ 130๋ง์ฅ์ด๋ฉฐ (์ผ๋ถ ์ด๋ฏธ์ง๊ฐ ๋ณต์ ๋จ), ์ด ์ค์์๋ 81๋ง์ฅ์ ๊ณ ์ ํ ์ด๋ฏธ์ง๊ฐ ์์ต๋๋ค. ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ด๋ฌํ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํด์๋ ๋์ ๊ฐ๊ฑด์ฑ์ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก ์ด๋ค์ ๊ด๋ฒ์ํ๊ฒ ์กฐ์ ํ์ง๋ ์์ต๋๋ค.
์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ์์ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ์ฐ๋ฆฌ๋ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ธ YFCC100M [85]์ ์ฌ์ฉํ์ฌ ์คํ์ ์ํํ๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ถ๋ก A.4์์ ๋ณด์ฌ์ค๋๋ค.
Architecture. ์ ํฌ๋ ๋ ๋ง์ ๋ฐ์ดํฐ์ ๋ํด ๋ ๋์ ์ฉ๋์ ์ ๊ณตํ๋ EfficientNets [83]์ ๊ธฐ์ค ๋ชจ๋ธ๋ก ์ฌ์ฉํฉ๋๋ค. ์ฐ๋ฆฌ์ ์คํ์์๋ EfficientNet-B7๋ฅผ ๋์ฑ ํ์ฅํ์ฌ EfficientNet-L2๋ฅผ ์ป์์ต๋๋ค. EfficientNet-L2๋ EfficientNet-B7๋ณด๋ค ๋๊ณ ๊น์ผ๋ฉฐ ํด์๋๊ฐ ๋ฎ์ง๋ง, ์ด๋ ๋ ๋ง์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ง์ถ ๋งค๊ฐ๋ณ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ํฌ๊ธฐ ๋๋ฌธ์, EfficientNet-L2์ ํ๋ จ ์๊ฐ์ EfficientNet-B7์ ํ๋ จ ์๊ฐ์ ์ฝ 5๋ฐฐ์ ๋๋ค. EfficientNet-L2์ ๋ํ ์์ธํ ์ ๋ณด๋ ๋ถ๋ก A.1์ ํ ์ด๋ธ 8์ ์ฐธ์กฐํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
Training details. ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ํด์๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ฐฐ์น ํฌ๊ธฐ 2048์ ์ฌ์ฉํ๊ณ , ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ๋ง์ถ์ง ๋ชปํ ๊ฒฝ์ฐ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ค์ ๋๋ค. ๋ฐฐ์น ํฌ๊ธฐ 512, 1024, 2048์ ์ฌ์ฉํด๋ ๋์ผํ ์ฑ๋ฅ์ ์ป์ ์ ์๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ฐ๋ผ ํ๋ จ ๋จ๊ณ ์์ ํ์ต๋ฅ ์ค์ผ์ค์ ๊ฒฐ์ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, EfficientNet-B4๋ณด๋ค ํฐ ๋ชจ๋ธ์ธ EfficientNet-L2๋ฅผ ํฌํจํ ๋ชจ๋ธ์ ๋ํด์๋ 350 epoch ๋์ ํ์ ๋ชจ๋ธ์ ํ๋ จํ๊ณ , ๋ ์์ ํ์ ๋ชจ๋ธ์ ๋ํด์๋ 700 epoch ๋์ ํ๋ จํฉ๋๋ค. ํ์ต๋ฅ ์ ๋ ์ด๋ธ ๋ฐฐ์น ํฌ๊ธฐ 2048์ ๋ํด 0.128๋ก ์์ํ๊ณ , 350 epoch ํ๋ จ ์ 2.4 epoch๋ง๋ค 0.97๋ก ๊ฐ์ํ๊ฑฐ๋ 700 epoch ํ๋ จ ์ 4.8 epoch๋ง๋ค ๊ฐ์ํฉ๋๋ค.
์ฐ๋ฆฌ๋ ํนํ ํฐ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ํด ํฐ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋๋์ ์์ ์ต๋ํ ํ์ฉํฉ๋๋ค. ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ฐ๊ฒฐํ์ฌ ํ๊ท ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ๊ณ์ฐํฉ๋๋ค. EfficientNet-L2์ ๋ํด์๋ ์ต๊ทผ ์ ์๋ train-test ํด์๋ ๋ถ์ผ์น๋ฅผ ์์ ํ๋ ๊ธฐ์ ์ ์ ์ฉํฉ๋๋ค [86]. ์ฐ๋ฆฌ๋ ๋จผ์ ์์ ํด์๋๋ก 350 epoch ๋์ ์ผ๋ฐ์ ์ธ ํ๋ จ์ ์ํํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ํฐ ํด์๋๋ก unaugmented ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ํด 1.5 epoch ๋์ ๋ชจ๋ธ์ ์ธ๋ฐํ๊ฒ ์กฐ์ ํฉ๋๋ค. [86]๊ณผ ์ ์ฌํ๊ฒ, ์ธ๋ฐ ์กฐ์ ์ค์๋ ์์ ๋ ์ด์ด๋ฅผ ๊ณ ์ ํฉ๋๋ค.
์ฐ๋ฆฌ์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ธ EfficientNet-L2๋ ๋ ์ด๋ธ ๋ฐฐ์น ํฌ๊ธฐ์ 14๋ฐฐ์ธ ๋ ์ด๋ธ์ด ์๋ ๋ฐฐ์น ํฌ๊ธฐ๋ก ํ๋ จํ ๊ฒฝ์ฐ, 2048 ๊ฐ์ ์ฝ์ด๋ฅผ ๊ฐ๋ Cloud TPU v3 Pod์์ 6์ผ ๋์ ํ๋ จํด์ผ ํฉ๋๋ค.
Noise. ์ฐ๋ฆฌ๋ ํ์ ๋ชจ๋ธ์ ๋ํด stochastic depth [37], dropout [76] ๋ฐ RandAugment [18]๋ฅผ ์ฌ์ฉํ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ด๋ฌํ ๋ ธ์ด์ฆ ํจ์์ ๋ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ EfficientNet-B7๊ณผ L2์ ๋ํด ๋์ผํ๊ฒ ์ค์ ๋ฉ๋๋ค. ํนํ, stochastic depth์์๋ ๋ง์ง๋ง ๋ ์ด์ด์ ์์กด ํ๋ฅ ์ 0.8๋ก ์ค์ ํ๊ณ , ๋ค๋ฅธ ๋ ์ด์ด์ ๋ํด์๋ ์ ํ ๊ฐ์ ๊ท์น์ ๋ฐ๋ฆ ๋๋ค. dropout์ dropout ๋น์จ์ด 0.5์ธ ๋ง์ง๋ง ๋ ์ด์ด์ ์ ์ฉํฉ๋๋ค. RandAugment์์๋ ๋๋ค ์์ ์ ๋ ๊ฐ์ง ์ ์ฉํ๋ฉฐ, ํฌ๊ธฐ๋ 27๋ก ์ค์ ํฉ๋๋ค.
Interative training. ์ฐ๋ฆฌ ์คํ์์ ์ต๊ณ ์ ๋ชจ๋ธ์ ํ์์ ์๋ก์ด ์ ์๋์ผ๋ก ๋๋๋ ค ๋๋ ์ธ ๋ฒ์ ๋ฐ๋ณต์ ํตํด ์ป์ ๊ฒฐ๊ณผ์ ๋๋ค. ์ฐ๋ฆฌ๋ ๋จผ์ ImageNet์์ EfficientNet-B7๋ฅผ ์ ์๋ ๋ชจ๋ธ๋ก ํ๋ จ์์ผฐ์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ B7 ๋ชจ๋ธ์ ์ ์๋์ผ๋ก ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ์ด ์๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋ ์ด๋ธ ๋ฐฐ์น ํฌ๊ธฐ์ 14๋ฐฐ๋ก ์ค์ ํ์ฌ EfficientNet-L2 ๋ชจ๋ธ์ ํ๋ จ์์ผฐ์ต๋๋ค. ๊ทธ ๋ค์ EfficientNet-L2 ๋ชจ๋ธ์ ์ ์๋์ผ๋ก ์ฌ์ฉํ์ฌ ์๋ก์ด EfficientNet-L2 ๋ชจ๋ธ์ ํ๋ จ์์ผฐ์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก ๋ค์ ๋ฐ๋ณตํ๊ณ ๋ ์ด๋ธ ๋ฐฐ์น ํฌ๊ธฐ์ 28๋ฐฐ๋ก ๋ ์ด๋ธ์ด ์๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ค์ ํ์ฌ ํ๋ จํ์ต๋๋ค. ์ธ ๋ฒ์ ๋ฐ๋ณต์ ์์ธํ ๊ฒฐ๊ณผ๋ 4.2์ ์์ ํ์ธํ ์ ์์ต๋๋ค.
3.2. ImagetNet Results
์ฐ๋ฆฌ๋ ๋จผ์ ๋ฌธํ์์ ๋ณดํต ์ํ๋๋ ๋๋ก ImageNet 2012 ILSVRC ์ฑ๋ฆฐ์ง ์์ธก ๊ณผ์ ์ ๊ฒ์ฆ ์ธํธ ์ ํ๋๋ฅผ ๋ณด๊ณ ํฉ๋๋ค [45, 80, 30, 83] (๋ํ [66]๋ ์ฐธ์กฐ). ํ 2์์ ๋ณผ ์ ์๋ฏ์ด, Noisy Student Training์ ์ ์ฉํ EfficientNet-L2๋ 88.4%์ top-1 ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ฌ EfficientNet์ ์ต๊ณ ๋ณด๊ณ ์ ํ๋์ธ 85.0%๋ณด๋ค ํฌ๊ฒ ๊ฐ์ ๋์์ต๋๋ค. ์ด 3.4%์ ์ด ๊ฐ์ ์ ๋ ๊ฐ์ง ์์์์ ์จ ๊ฒ์ ๋๋ค: ๋ชจ๋ธ์ ๋ ํฌ๊ฒ ๋ง๋ค์ด์(+0.5%)์ Noisy Student Training์ ์ ์ฉํ์ฌ(+2.9%). ์ฆ, Noisy Student Training์ ์ํคํ ์ฒ๋ฅผ ๋ณ๊ฒฝํ๋ ๊ฒ๋ณด๋ค ์ ํ๋์ ํจ์ฌ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
๋ํ, Noisy Student Training์ FixRes ResNeXt-101 WSL [55, 86]์ ์ต๊ณ ์ ํ๋์ธ 86.4%๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. FixRes ResNeXt-101 WSL์ ํ๊ทธ๋ก ๋ ์ด๋ธ์ด ์ง์ ๋ 35์ต ๊ฐ์ Instagram ์ด๋ฏธ์ง๊ฐ ํ์ํฉ๋๋ค. ๋น๊ต์ ์์งํ๊ธฐ ์ฌ์ด 3์ต ๊ฐ์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ง ํ์ํ ๋ฐ๋ฉด, ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ด๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. ๋ํ, ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ FixRes ResNeXt-101 WSL๊ณผ ๋น๊ตํ์ฌ ๋งค๊ฐ๋ณ์์ ์์์ ์ฝ ๋ ๋ฐฐ ์ ๋ ์์ต๋๋ค.
Model size study: Noisy Student Training for EfficientNet B0-B7 without Interative Training. Noisy Student Training๊ฐ ๋ค๋ฅธ EfficientNet ๋ชจ๋ธ์๋ ์ด์ ์ ์ ๊ณตํ ์ ์๋์ง ํ์ธํ๊ธฐ ์ํด ์ถ๊ฐ ์คํ์ ์งํํฉ๋๋ค. ์ด์ ์คํ์์๋ EfficientNet-L2์ ์ ํ๋๋ฅผ ์ต์ ํํ๊ธฐ ์ํด ๋ฐ๋ณต์ ์ธ ํ๋ จ์ด ์ฌ์ฉ๋์์ง๋ง, ๋ง์ ์คํ์ ๋ํด์๋ ๋ฐ๋ณต์ ์ธ ํ๋ จ์ ์ฌ์ฉํ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก ์ด๋ฅผ ๊ฑด๋๋๋๋ค. ์ฐ๋ฆฌ๋ EfficientNet-B0๋ถํฐ EfficientNet-B7 [83]๊น์ง ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋ณ๊ฒฝํ๊ณ , ์ ์๋๊ณผ ํ์์ผ๋ก ๋์ผํ ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ EfficientNet ๊ธฐ์ค ๋ชจ๋ธ์ RandAugment๋ฅผ ์ ์ฉํ์ฌ ๋ ๊ฒฝ์๋ ฅ ์๋ ๊ธฐ์ค ๋ชจ๋ธ์ ๋ง๋ญ๋๋ค. ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ฐฐ์น ํฌ๊ธฐ์ 3๋ฐฐ๋ฅผ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ฐฐ์น ํฌ๊ธฐ๋ก ์ค์ ํ๋ฉฐ, EfficientNet-B0์ ๊ฒฝ์ฐ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง์ ๋ฐฐ์น ํฌ๊ธฐ์ ๋์ผํ๊ฒ ์ค์ ํฉ๋๋ค. ๊ทธ๋ฆผ 2์์ ๋ณผ ์ ์๋ฏ์ด, Noisy Student Training์ ๋ชจ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ํด ์ผ๊ด๋ ์ฝ 0.8%์ ๊ฐ์ ์ ์ด๋์ด๋ ๋๋ค. ์ ๋ฐ์ ์ผ๋ก, Noisy Student Training์ด ์ ์ฉ๋ EfficientNet์ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ ํ๋ ์ฌ์ด์์ ์ด์ ์์ ์ ๋นํด ํจ์ฌ ๋ ์ข์ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ๋ํ ๋ฐ๋ณต์ ์ธ ํ๋ จ ์์ด๋ ๋น์ ๋ชจ๋ธ์ด Noisy Student Training์์ ์ด์ ์ ์ป์ ์ ์๋ค๋ ๊ฒ์ ํ์ธํฉ๋๋ค.
3.3. Robustness Results on ImageNet-A, ImageNet-C and ImageNet-P
์ฐ๋ฆฌ๋ ์ต๊ณ ์ ๋ชจ๋ธ์ธ top1 ์ ํ๋๊ฐ 88.4%๋ฅผ ๋ฌ์ฑํ๋ ๋ชจ๋ธ์ ์ธ ๊ฐ์ง ๊ฐ์ธ์ฑ ํ ์คํธ ์ธํธ์ธ ImageNet-A, ImageNet-C ๋ฐ ImageNet-P์์ ํ๊ฐํฉ๋๋ค. ImageNet-C์ P ํ ์คํธ ์ธํธ [31]๋ ํ๋ฆผ, ์๊ฐ, ํ์ ๋ฐ ํฌ๊ธฐ ์กฐ์ ๊ณผ ๊ฐ์ ์ผ๋ฐ์ ์ธ ์์๊ณผ ๋ณํ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ํฌํจํฉ๋๋ค. ImageNet-A ํ ์คํธ ์ธํธ [32]๋ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ์ ํ๋์ ํฐ ํ๋ฝ์ ์ผ๊ธฐํ๋ ์ด๋ ค์ด ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ด๋ฌํ ํ ์คํธ ์ธํธ๋ "๊ฐ์ธ์ฑ" ๋ฒค์น๋งํฌ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ์๋ํ๋ฉด ImageNet-A์ ๊ฒฝ์ฐ ํ ์คํธ ์ด๋ฏธ์ง๊ฐ ํจ์ฌ ๋ ์ด๋ ต๊ฑฐ๋, ImageNet-C์ P์ ๊ฒฝ์ฐ ํ ์คํธ ์ด๋ฏธ์ง๊ฐ ํ๋ จ ์ด๋ฏธ์ง์ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋๋ค.
ImageNet-C์ ImageNet-P์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ํด์๋ 224x224์ 299x299๋ก ๋ ๊ฐ์ง ๋ฒ์ ์ ๋ชจ๋ธ์ ํ๊ฐํ๊ณ , EfficientNet์ด ํ๋ จ๋ ํด์๋๋ก ์ด๋ฏธ์ง๋ฅผ ์กฐ์ ํฉ๋๋ค. ํ 3, 4 ๋ฐ 5์์ ๋ณผ ์ ์๋ฏ์ด, Noisy Student Training์ ์ด์ ์ต์ฒจ๋จ ๋ชจ๋ธ์ธ 35์ต ๊ฐ์ ์ฝํ ๋ ์ด๋ธ ์ด๋ฏธ์ง๋ก ํ๋ จ๋ ResNeXt-101 WSL [55, 59]๊ณผ ๋น๊ตํ์ฌ ๊ฐ์ธ์ฑ ๋ฐ์ดํฐ์ ์์ ์๋นํ ํฅ์์ ๋ณด์ฌ์ค๋๋ค. ImageNet-A์ ๊ฒฝ์ฐ, top-1 ์ ํ๋๋ฅผ 61.0%์์ 83.7%๋ก ํฅ์์ํต๋๋ค. ImageNet-C์ ๊ฒฝ์ฐ, ํ๊ท ์์ ์ค๋ฅ (mCE)๋ฅผ 45.7์์ 28.3์ผ๋ก ์ค์ ๋๋ค. ImageNet-P์ ๊ฒฝ์ฐ, ํด์๋ 224x224 (์ง์ ๋น๊ต)๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ํ๊ท flip rate (mFR)๋ 14.2์ด๊ณ , ํด์๋ 299x299๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ 12.2์ ๋๋ค. ImageNet-C์ ImageNet-P์์์ ์ด๋ฌํ ๊ฐ์ธ์ฑ์ ํฐ ํฅ์์ ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ด ๊ฐ์ธ์ฑ์ ๋ช ์์ ์ผ๋ก ์ต์ ํํ์ง ์์์์๋ ๋ถ๊ตฌํ๊ณ ๋๋ผ์ด ๊ฒฐ๊ณผ์ ๋๋ค.
Qualitative Analysis. ๊ฐ์ธ์ฑ ๋ฒค์น๋งํฌ์ ์๋นํ ํฅ์์ ์ง๊ด์ ์ผ๋ก ์ดํดํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ Figure 3์์ ๋ช ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ด ์ด๋ฏธ์ง๋ค์ ํ์ค ๋ชจ๋ธ์ ์์ธก์ด ์๋ชป๋์์ง๋ง Noisy Student Training์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ์์ธก์ ์ฌ๋ฐ๋ฅธ ๊ฒ์ ๋๋ค.
Figure 3a์์๋ ImageNet-A์ ์์ ์ด๋ฏธ์ง์ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ์์ธก์ ๋ณด์ฌ์ค๋๋ค. Noisy Student Training์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ์ด๋ฌํ ๋งค์ฐ ์ด๋ ค์ด ์ด๋ฏธ์ง์ ์ฌ๋ฐ๋ฅธ ๋ ์ด๋ธ์ ์ฑ๊ณต์ ์ผ๋ก ์์ธกํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, Noisy Student Training์ด ์์ผ๋ฉด, ๋ ๋ฒ์งธ ํ ์ผ์ชฝ์ ํ์๋ ์ด๋ฏธ์ง์ ๋ํด ๋ชจ๋ธ์ ๋ฌผ ์์ ๊ฒ์ ์ฐ๊ฝ ์ ๋๋ฌธ์ ์ด๋ฏธ์ง๋ฅผ ์๊ธ์์ด๋ก ์๋ชป ์์ธกํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ Noisy Student Training์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ์ฌ๋ฐ๋ฅด๊ฒ ์ ์๋ฆฌ๋ฅผ ์์ธกํฉ๋๋ค. ๋งจ ์ ์ผ์ชฝ ์ด๋ฏธ์ง์์, Noisy Student Training์ด ์๋ ๋ชจ๋ธ์ ๋ฐ๋ค ์ฌ์๋ฅผ ๋ฌด์ํ๊ณ ๋ถํ๋ฅผ ๋ฑ๋๋ก ์๋ชป ์ธ์ํ์ง๋ง, Noisy Student Training์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ๋ฐ๋ค ์ฌ์๋ฅผ ์ธ์ํ ์ ์์ต๋๋ค.
Figure 3b๋ ImageNet-C์ ์ด๋ฏธ์ง์ ํด๋น ์์ธก์ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, Noisy Student Training์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ๋, ๋ชจ์ ๋ธ๋ฌ, ์๊ฐ์ ๊ฐ์ ์ฌ๊ฐํ ์์๊ณผ ๋ณํ์ด ์๋ ์ด๋ฏธ์ง์ ๋ํด ์ฌ๋ฐ๋ฅธ ์์ธก์ ์ํํ๋ ๋ฐ๋ฉด, Noisy Student Training์ด ์๋ ๋ชจ๋ธ์ ์ด๋ฌํ ์กฐ๊ฑด์์ ํฌ๊ฒ ํผํด๋ฅผ ์ ์ต๋๋ค. ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ด๋ฏธ์ง๋ ์ฒซ ๋ฒ์งธ ํ์ ์ค๋ฅธ์ชฝ์ ํ์๋์ด ์์ต๋๋ค. ๊ทธ๋ฆผ์ ๊ทธ๋ค๋ ๊ฑฐ์ ์ธ์ํ ์ ์๋๋ฐ๋ Noisy Student Training์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ์ฌ์ ํ ์ฌ๋ฐ๋ฅธ ์์ธก์ ์ํํฉ๋๋ค.
Figure 3c๋ ImageNet-P์ ์ด๋ฏธ์ง์ ํด๋น ์์ธก์ ๋ณด์ฌ์ค๋๋ค. ๋ณผ ์ ์๋ฏ์ด, Noisy Student Training์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ์ด๋ฏธ์ง๊ฐ ๋ค๋ฅธ ๋ณํ์ ๊ฒช์ ๋๋ ์ฌ๋ฐ๋ฅธ ์ผ๊ด๋ ์์ธก์ ์ํํ๋ ๋ฐ๋ฉด, Noisy Student Training์ด ์๋ ๋ชจ๋ธ์ ์์ธก์ ์์ฃผ ๋ค์ง์ต๋๋ค.
3.4 Adversarial Robustness Results
์ผ๋ฐ์ ์ธ ์์๊ณผ ๋ณํ์ ๋ํ ๋ชจ๋ธ์ ๊ฐ์ธ์ฑ์ ํ ์คํธํ ํ์๋ ์ ๋์ ์ธ ๋ณํ์ ๋ํ ์ฑ๋ฅ๋ ์ฐ๊ตฌํฉ๋๋ค. ์ฐ๋ฆฌ๋ Noisy Student Training์ด ์ ์ฉ๋ EfficientNet-L2 ๋ชจ๋ธ๊ณผ ๊ทธ๋ ์ง ์์ ๋ชจ๋ธ์ FGSM ๊ณต๊ฒฉ์ ๋ํด ํ๊ฐํฉ๋๋ค. ์ด ๊ณต๊ฒฉ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํด ํ ๋ฒ์ ๊ทธ๋๋์ธํธ ํ๊ฐ ๋จ๊ณ๋ฅผ ์ํํ๋ฉฐ ๊ฐ ํฝ์ ์ ๋ํ ์ ๋ฐ์ดํธ๋ ์ ์ค๋ก ์ผ๋ก ์ค์ ๋ฉ๋๋ค. Figure 4์์ ๋ณผ ์ ์๋ฏ์ด, Noisy Student Training์ ์ ๋์ ์ธ ๊ฐ์ธ์ฑ์ ๋ช ์์ ์ผ๋ก ์ต์ ํํ์ง ์์์์๋ ๋ถ๊ตฌํ๊ณ ์ ํ๋์์ ๋งค์ฐ ํฐ ํฅ์์ ์ด๋๋๋ค. ๋ ๊ฐ๋ ฅํ PGD ๊ณต๊ฒฉ์ธ 10๋ฒ์ ๋ฐ๋ณต์ ์ํํ๋ ๊ฒฝ์ฐ (= 16), Noisy Student Training์ EfficientNet-L2์ ์ ํ๋๋ฅผ 1.1%์์ 4.4%๋ก ํฅ์์ํต๋๋ค.
์์ ์ธ๊ธํ ์ ๋์ ์ธ ๊ฐ์ธ์ฑ ๊ฒฐ๊ณผ๋ ์ง์ ์ ์ผ๋ก ์ด์ ์ฐ๊ตฌ์ ๋น๊ตํ ์ ์์ต๋๋ค. ์๋ํ๋ฉด ์ฐ๋ฆฌ๋ 800x800 ํฌ๊ธฐ์ ํฐ ์ ๋ ฅ ํด์๋๋ฅผ ์ฌ์ฉํ๊ณ ์ ๋์ ์ธ ์ทจ์ฝ์ ์ ์ ๋ ฅ ์ฐจ์๊ณผ ํจ๊ป ๋ณ๋ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค [22, 25, 24, 74].
4. Ablation Study
์ด ์น์ ์์๋ ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ค์์ฑ์ ์ดํดํ๊ธฐ ์ํด ๋ ธ์ด์ฆ์ ๋ฐ๋ณต์ ์ธ ํ๋ จ์ ์ค์์ฑ์ ์ฐ๊ตฌํ๊ณ , ๋ค๋ฅธ ๊ตฌ์ฑ ์์์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํฉ๋๋ค. ์คํ์ ์ํํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํจ์ผ๋ก์จ, ์ด ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒฐ์ ํ๋ ์ฃผ์ ์์์ ๋ํ ํต์ฐฐ๋ ฅ์ ์ป์ ์ ์์ต๋๋ค.
4.1. The Importance of Noise in Self-training
์ฐ๋ฆฌ๋ ์ ์๋ ๋ชจ๋ธ์์ ์์ฑ๋ ์ํํธ ์์ฌ ๋ ์ด๋ธ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ํ์์ด ์ ์๋ ๋ชจ๋ธ๊ณผ ์์ ํ ๋์ผํ๊ฒ ํ๋ จ๋๋ ๊ฒฝ์ฐ ๋ฏธ๋ถ ์ํธ๋กํผ ์์ค์ 0์ด ๋๊ณ ํ๋ จ ์ ํธ๋ ์ฌ๋ผ์ง ๊ฒ์ ๋๋ค. ๋ฐ๋ผ์, ํ์์ด ์ํํธ ์์ฌ ๋ ์ด๋ธ๋ก ์ ์๋์ ๋ฅ๊ฐํ๋ ์ด์ ์ ๋ํ ์ง๋ฌธ์ด ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ํฉ๋๋ค. ์์ ์ธ๊ธํ๋ฏ์ด, ํ์์ด ์ ์๋์ ์ง์๋ง ๋ฐฐ์ฐ์ง ์๋๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด์ผ ํ๋ค๋ ๊ฐ์ค์ ์ธ์๋๋ค. ์ฐ๋ฆฌ๋ ๋ค๋ฅธ ์์ ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ ๋ค๋ฅธ ์ ์๋ ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๊ฐ์ง ๋ ๊ฐ์ง ์๋๋ฆฌ์ค์์ ๋ ธ์ด์ฆ์ ์ค์์ฑ์ ์กฐ์ฌํฉ๋๋ค. ์ด ๋ ๊ฒฝ์ฐ ๋ชจ๋, ํ์ ๋ชจ๋ธ์ ํ๋ จํ ๋ ๋ฏธ๋ถ๋ฅ๋ ์ด๋ฏธ์ง์ ๋ํด ์ ์ ์ฆ๊ฐ, ์คํ ์บ์คํฑ ๋์ค ๋ฐ ๋๋กญ์์์ ์ ๊ฑฐํ๋ฉด์ ๋ ์ด๋ธ๋ ์ด๋ฏธ์ง์ ๋ํด์๋ ์ ์งํฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ, ๋ฏธ๋ถ๋ฅ๋ ์ด๋ฏธ์ง์ ๋ํ ๋ ธ์ด์ฆ์ ์ํฅ์ ๋ ์ด๋ธ๋ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ฒํผํ ๋ฐฉ์ง์ ์ํฅ๊ณผ ๋ถ๋ฆฌํ ์ ์์ต๋๋ค. ๋ํ, ๋ ธ์ด์ฆ๊ฐ ์์ฑ๋ ์์ฌ ๋ ์ด๋ธ์ ์์ฑํ ๋ ๋ ธ์ด์ฆ๋ฅผ ๋นํ์ฑํํด์ผ ํ๋์ง ์ฌ๋ถ๋ฅผ ์ฐ๊ตฌํ๊ธฐ ์ํด ๋ ธ์ด์ฆ๊ฐ ์๋ ์ ์๋๊ณผ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ ์๋์ ๋น๊ตํฉ๋๋ค.
ํ 6์์ ๋ณด์ฌ์ฃผ๋ ๋ฐ์ ๊ฐ์ด, stochastic depth, dropout, ๊ทธ๋ฆฌ๊ณ data augmentation๊ณผ ๊ฐ์ ๋ ธ์ด์ฆ ๊ธฐ๋ฅ์ ํ์ ๋ชจ๋ธ์ด ์ ์๋๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ๋ ธ์ด์ฆ ๊ธฐ๋ฅ์ ์ ๊ฑฐํ๋ฉด ์ฑ๋ฅ์ด ์ผ๊ด๋๊ฒ ํ๋ฝํฉ๋๋ค. ๊ทธ๋ฌ๋ 130M์ ๋ฏธ๋ถ๋ฅ๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ, ๋ ธ์ด์ฆ ๊ธฐ๋ฅ์ ์ ๊ฑฐํ ๊ฒฝ์ฐ์๋ ์ฑ๋ฅ์ 84.0%์์ 84.3%๋ก ํฅ์๋์์ต๋๋ค. ์ด๋ฌํ ํฅ์์ SGD (Stochastic Gradient Descent)๋ก ์ค๋ช ๋ ์ ์๋๋ฐ, ์ด๋ ํ๋ จ ๊ณผ์ ์ ํ๋ฅ ์ ์ธ ์์๋ฅผ ๋์ ํฉ๋๋ค.
์ด๋ค ์ฌ๋๋ค์ ๋ ธ์ด์ฆ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ ๋ ๊ฒฐ๊ณผ๋ ๋ฏธ๋ถ๋ฅ๋ ์ด๋ฏธ์ง์ ์์ฌ ๋ ์ด๋ธ์ ๋ํ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ๊ฒฐ๊ณผ๋ผ๊ณ ์ฃผ์ฅํ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ 130M์ ๋ฏธ๋ถ๋ฅ๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ์๋ ๋ชจ๋ธ์ด ํ๋ จ ์์ค์ ํตํด ๋ฏธ๋ถ๋ฅ๋ ์งํฉ์ ๋ํด ๊ณผ์ ํฉ๋์ง ์๋๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ฉด ๋ ์ด๋ธ๋ ์ด๋ฏธ์ง์ ํ๋ จ ์์ค์ด ํจ์ฌ ๋ฎ์์ง์ง๋ง, ๋ฏธ๋ถ๋ฅ๋ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ์๋ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํด๋ ํ๋ จ ์์ค์ ๊ฐ์๊ฐ ๋ ์๊ฒ ๋ํ๋ฉ๋๋ค. ์ด๋ ํฐ ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ ์ ๋ํด ๊ณผ์ ํฉํ๊ธฐ๊ฐ ๋ ์ด๋ ต๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์์ฌ ๋ ์ด๋ธ์ ์์ฑํ๋ ์ ์๋ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ฉด ์ ํ๋๊ฐ ๋ฎ์์ง๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ ๊ฐ๋ ฅํ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ ์๋ ๋ชจ๋ธ์ ๊ฐ์ง๋ ๊ฒ์ ์ค์์ฑ์ ๋ณด์ฌ์ค๋๋ค.
4.2. A Study of Interative Training
์ด๋ฒ ์น์ ์์๋ ๋ฐ๋ณต ํ๋ จ์ ์ธ๋ถ์ ์ธ ํจ๊ณผ๋ฅผ ์ค๋ช ํฉ๋๋ค. 3.1์ ์์ ์ธ๊ธํ๋๋ก, ์ฐ๋ฆฌ๋ ๋จผ์ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๋ก EfficientNet-B7 ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ , ๊ทธ๋ฐ ๋ค์ ์ด๋ฅผ ์ ์๋์ผ๋ก ์ฌ์ฉํ์ฌ EfficientNet-L2 ํ์ ๋ชจ๋ธ์ ํ๋ จ์ํต๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ์๋ก์ด ํ์ ๋ชจ๋ธ์ ์ ์๋ ๋ชจ๋ธ๋ก ์ฌ์ฉํฉ๋๋ค.
ํ 7์์ ๋ณด์ฌ์ง๋ฏ์ด, ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ฒซ ๋ฒ์งธ ๋ฐ๋ณต์์ 87.6%๋ก ๊ฐ์ ๋๊ณ , ๋ ๋ฒ์งธ ๋ฐ๋ณต์์๋ 88.1%๋ก ๊ฐ์ ๋ฉ๋๋ค (๋์ผํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ์ฑ๋ฅ์ด ๋ ์ข์ ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒฝ์ฐ). ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ฐ๋ณต ํ๋ จ์ด ์ ์ ๋ ๋์ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐ ํจ๊ณผ์ ์์ ๋ํ๋ ๋๋ค. ๋ง์ง๋ง ๋ฐ๋ณต์์๋ ๋ฏธ๋ถ๋ฅ๋ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ ์ด๋ธ๋ ๋ฐฐ์น ํฌ๊ธฐ ์ฌ์ด์ ๋น์จ์ ๋ ํฌ๊ฒ ์ค์ ํ์ฌ ์ต์ข ์ฑ๋ฅ์ 88.4%๋ก ํฅ์์ํต๋๋ค.
4.3 Additional Ablation Study Summarization
์ ํฌ๋ Noisy Student Training์ ๋ค์ํ ์ค๊ณ ์ ํ์ ์ค์์ฑ๋ ์ฐ๊ตฌํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ ์๋ค์๊ฒ ์ค์ฉ์ ์ธ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. ์ด๋ฅผ ์ํด Appendix A.2์์ 8๊ฐ์ง ๊ธฐ๋ฅ ์ ๊ฑฐ ์ฐ๊ตฌ๋ฅผ ์ํํ์ต๋๋ค. ๋ค์๊ณผ ๊ฐ์ด ์์ฝ๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ์ต๋๋ค:
- ๊ฒฐ๊ณผ #1: ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง ํฐ ์ ์๋ ๋ชจ๋ธ ์ฌ์ฉ์ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ด๋์ด๋ ๋๋ค.
- ๊ฒฐ๊ณผ #2: ๋๋์ ๋ฏธ๋ถ๋ฅ ๋ฐ์ดํฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ์ํด ํ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ #3: ์ผ๋ถ ๊ฒฝ์ฐ์๋ ์ํํธ ๋ฏธ๋ถ๋ฅ๊ฐ ํ๋ ๋ฏธ๋ถ๋ฅ๋ณด๋ค ์ธ๋ถ ๋๋ฉ์ธ ๋ฐ์ดํฐ์ ๋ํด ๋ ์ ์๋ํฉ๋๋ค.
- ๊ฒฐ๊ณผ #4: ํฐ ํ์ ๋ชจ๋ธ์ ํ์์ด ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ฐฐ์ธ ์ ์๋๋ก ํ๋ ๋ฐ ์ค์ํฉ๋๋ค.
- ๊ฒฐ๊ณผ #5: ๋ฐ์ดํฐ ๊ท ํ์ ์์ ๋ชจ๋ธ์ ์ ์ฉํฉ๋๋ค.
- ๊ฒฐ๊ณผ #6: ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ์ ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ ๊ณต๋ ํ๋ จ์ ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จํ ๋ค์ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๋ก ์ธ๋ถ ์กฐ์ ํ๋ ํ์ดํ๋ผ์ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์์ต๋๋ค.
- ๊ฒฐ๊ณผ #7: ๋ฏธ๋ถ๋ฅ๋ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ ์ด๋ธ๋ ๋ฐฐ์น ํฌ๊ธฐ ์ฌ์ด์ ํฐ ๋น์จ ์ฌ์ฉ์ ๋ชจ๋ธ์ด ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์์ ๋ ๊ธด ์๊ฐ ๋์ ํ๋ จํ์ฌ ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
- ๊ฒฐ๊ณผ #8: ํ์์ ์ฒ์๋ถํฐ ํ๋ จ์ํค๋ ๊ฒ์ด ๋๋ก๋ ์ ์๋์ผ๋ก ์ด๊ธฐํํ ํ์๋ณด๋ค ๋ ๋์ ์ ์์ผ๋ฉฐ, ์ ์๋์ผ๋ก ์ด๊ธฐํํ ํ์๋ ์ข์ ์ฑ๋ฅ์ ๋ด๊ธฐ ์ํด์๋ ๋ง์ ์์ ํ๋ จ epoch๊ฐ ํ์ํฉ๋๋ค.
5. Related Works
Self-training
์ ํฌ ์์ ์ self-training์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, [71, 96, 68, 67]์ ๊ฐ์ ์ด์ ์ ์์ ๋ค์์ ์ฌ์ฉ๋์์ต๋๋ค. Self-training์ ๋จผ์ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๋ก ์ข์ ์ ์๋ ๋ชจ๋ธ์ ํ๋ จ์ํจ ๋ค์, ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ๋ ์ด๋ธ์ ์ง์ ํ๊ณ , ๋ง์ง๋ง์ผ๋ก ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ์ ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ ํ์ ๋ชจ๋ธ์ ํ๋ จ์ํต๋๋ค. ํ์ง๋ง ๊ธฐ์กด์ self-training ๋ฐฉ์์์๋ ์ผ๋ฐ์ ์ผ๋ก ํ์ ๋ชจ๋ธ์ ๋ํ ๋ ธ์ด์ฆ ์ฃผ์ ์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ฌ์ฉ๋์ง ์๊ฑฐ๋, ๋ ธ์ด์ฆ์ ์ญํ ์ด ์์ ํ ์ดํด๋๊ฑฐ๋ ์ ๋นํ๋์ง ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์ฐ๋ฆฌ์ ์์ ๊ณผ ๊ธฐ์กด ์์ ๊ฐ์ ์ฃผ์ํ ์ฐจ์ด์ ์ ๋ ธ์ด์ฆ์ ์ค์์ฑ์ ์ธ์ํ๊ณ , ํ์ ๋ชจ๋ธ์ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํด ์ ๊ทน์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํ๋ค๋ ์ ์ ๋๋ค.
์ด์ ์ self-training์ ResNet-50์ top-1 ์ ํ๋๋ฅผ 76.4%์์ 81.2%๋ก ํฅ์์ํค๊ธฐ ์ํด ์ฌ์ฉ๋์์ต๋๋ค [93]. ๊ทธ๋ฌ๋ ์ด๋ ์ฌ์ ํ ์ต์ ๊ธฐ์ ์ ์ ํ๋์๋ ๊ฑฐ๋ฆฌ๊ฐ ์์ต๋๋ค. Yalniz ๋ฑ [93]์ ๋ํ ์ฐ๋ฆฌ์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ImageNet-A, C ๋ฐ P์ ๊ฐ๊ฑด์ฑ ๋ฉด์์ ํฐ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์ง ์์์ต๋๋ค. ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก๋, ๊ทธ๋ค์ ๋จผ์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ง์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ๋ จ์ํจ ๋ค์, ์ต์ข ๋จ๊ณ๋ก ๋ ์ด๋ธ์ด ์ง์ ๋ ์ด๋ฏธ์ง์์ ๋ชจ๋ธ์ ์ธ๋ฐ ์กฐ์ ํ๋๋ก ์ ์ํ์์ต๋๋ค. ๊ทธ๋ฌ๋ Noisy Student Training์์๋ ์ด๋ฌํ ๋ ๋จ๊ณ๋ฅผ ํ๋๋ก ๊ฒฐํฉํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ํํ๊ณ ์คํ์์ ๋ ์ข์ ์ฑ๋ฅ์ ์ป์ ์ ์์์ต๋๋ค.
Data Distillation [63]๊ณผ ๊ฐ์ ๊ธฐ์ ์ ์ด๋ฏธ์ง์ ๋ํด ๋ค์ํ ๋ณํ์ ์ฌ์ฉํ์ฌ ๊ฐ๋ ฅํ ์ ์๋์ ๋ง๋ค๊ธฐ ์ํด ์์ธก์ ์์๋ธํ๋ ๋ฐ๋ฉด, ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ ํ์์ ์ฝํ์ํค๋ ๊ฒ๊ณผ ๋ฐ๋์ ๋๋ค. Parthasarathi et al. [61]์ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ๋ํ ์ง์ ์ฆ๋ฅ๋ฅผ ํตํด ๋ฐฐํฌ์ฉ์ผ๋ก ์๊ณ ๋น ๋ฅธ ์์ฑ ์ธ์ ๋ชจ๋ธ์ ์ฐพ์์ต๋๋ค. ํ์์๊ฒ ๋ ธ์ด์ฆ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ํ์๋ ์๊ธฐ ๋๋ฌธ์ ์ ์๋๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ด๊ธฐ๋ ์ด๋ ต์ต๋๋ค. [69]์ ๋๋ฉ์ธ ์ ์ ํ๋ ์์ํฌ๋ ๊ด๋ จ์ด ์์ง๋ง ๋น๋์ค์ ๋ํด ๋งค์ฐ ์ต์ ํ๋์ด ์์ผ๋ฉฐ, ์๋ฅผ ๋ค์ด ๋น๋์ค์์ ์ฌ์ฉํ ํ๋ ์์ ์์ธกํฉ๋๋ค. [101]์ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ์ ์๋ ๋ชจ๋ธ์ ์์ธก์ ์์๋ธํ๋๋ฐ, ์ด๋ ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ๋ณด๋ค ๋น์ฉ์ด ๋ ๋ง์ด ๋ญ๋๋ค.
Co-training [9]์ ํผ์ณ๋ฅผ ๋ ๊ฐ์ ์ํธ ๋ฐฐํ์ ์ธ ํํฐ์ ์ผ๋ก ๋ถํ ํ๊ณ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๊ฐ์ ๋ชจ๋ธ์ ํด๋น ํผ์ณ ์งํฉ๊ณผ ํจ๊ป ํ๋ จ์ํต๋๋ค. ๊ทธ๋ค์ "๋ ธ์ด์ฆ"์ ์์ค๋ ๋ ์ด๋ธ๋์ง ์์ ๋ฐ์ดํฐ์์ ํญ์ ๋์ํ์ง ์๋๋ก ํผ์ณ๋ฅผ ๋ถํ ํ๋ ๊ฒ์ ๋๋ค. ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ํ์ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ด ์ ์๋๊ณผ ํ์์ด ์๋ก ๋ค๋ฅธ ์์ธก์ ํ ์ ์๋๋ก ํ๋ฉฐ, ImageNet์๋ ํผ์ณ๋ฅผ ๋ถํ ํ๋ ๊ฒ๋ณด๋ค ๋ ์ ํฉํฉ๋๋ค.
์ ํ ํธ๋ ์ด๋ ๋ฐ ๊ณต๋ ํธ๋ ์ด๋์ ๋ ธ์ด์ฆ๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ์์ ์ ํจ๊ณผ์ ์ผ๋ก ์๋ํจ์ด ์ ์ฆ๋์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ํฐ ๋์์ด ๋์์ผ๋ฉฐ, ์๋งจํฑ ์ธ๊ทธ๋ฉํ ์ด์ , ํ ์คํธ ๋ถ๋ฅ ๋ฑ ๋ค์ํ ์์ ์์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉ๋์์ต๋๋ค. ๋ํ, ๊ธฐ๊ณ ๋ฒ์ญ์์๋ ์ญ ๋ฒ์ญ๊ณผ ์ ํ ํธ๋ ์ด๋์ด ์๋ฏธ ์๋ ๊ฐ์ ์ ์ด๋์ด๋์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ํฐ ์ญํ ์ ํ๊ณ ์์ผ๋ฉฐ, ๋ค์ํ ๋ถ์ผ์์ ๋๋ฆฌ ์ฑํ๋๊ณ ์์ต๋๋ค.
Semi-supervised Learning
์๊ธฐ ํ์ต(self-training) ์ธ์๋ ์ค์ง๋ํ์ต(semi-supervised learning)์ ๋ ๋ค๋ฅธ ์ค์ํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ผ๊ด์ฑ ํ๋ จ(consistency training)์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค [12, 103]. ์ด ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ธ์ ์์ธก์ด ์ ๋ ฅ, ์จ๊ฒจ์ง ์ํ ๋๋ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ ์ฃผ์ ๋ ๋ ธ์ด์ฆ์ ๋ถ๋ณํ๋๋ก ์ ์ฝ์ ๊ฐํฉ๋๋ค. ์ผ๊ด์ฑ ์ ๊ทํ๋ ํ๋ จ ์ค์ธ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ฌ ๋ ์ด๋ธ์ ์์ฑํ๋๋ฐ, ์ด๋ก ์ธํด ImageNet์์๋ ์ผ๊ด์ฑ ์ ๊ทํ๊ฐ ์ ์๋ํ์ง ์๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ํ๋ จ ์ด๊ธฐ ๋จ๊ณ์์ ๋ชจ๋ธ์ ๊ณ ์ํธ๋กํผ ์์ธก์ผ๋ก ์ ๊ทํํ๋ฉด์ ์ ํ๋ ํฅ์์ ์ต์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
์์ฌ ๋ ์ด๋ธ(pseudo label)์ ๊ธฐ๋ฐํ ์ฐ๊ตฌ๋ค [48, 39, 73, 1]์ ์๊ธฐ ํ์ต๊ณผ ์ ์ฌํ์ง๋ง, ์ผ๊ด์ฑ ํ๋ จ๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฒช์ต๋๋ค. ์๋ํ๋ฉด ์ด๋ค์ ๋์ ์ ํ๋๋ฅผ ๊ฐ๋ ์๋ ด๋ ๋ชจ๋ธ ๋์ ํ๋ จ ์ค์ธ ๋ชจ๋ธ์ ์์ฌ ๋ ์ด๋ธ์ ์์ฑํ๋ ๋ฐ ์์กดํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ค์ง๋ํ์ต์ ๋ค๋ฅธ ํ๋ ์์ํฌ์๋ ๊ทธ๋ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ [102, 89, 94, 42], ์ ์ฌ ๋ณ์๋ฅผ ๋์ ๋ณ์๋ก ํ์ฉํ๋ ๋ฐฉ๋ฒ [41, 53, 95] ๋ฐ ์ ๋ฐ๋ ๋ถ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฐฉ๋ฒ [26, 70, 19] ๋ฑ์ด ํฌํจ๋ฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ๊ณผ ๋ณด์์ ์ธ ์ด์ ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
Knowledge Distillation
์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ์ง์ ์์ถ์ ์ํ ์ง์ ์ฆ๋ฅ(Knowledge Distillation) ๋ฐฉ๋ฒ [10, 3, 33, 21, 6]๊ณผ๋ ๊ด๋ จ์ด ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ํํธ ํ๊น์ ์ฌ์ฉํจ์ผ๋ก์จ ์ง์ ์ฆ๋ฅ ๋ฐฉ๋ฒ๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค. ์ง์ ์ฆ๋ฅ์ ์ฃผ์ ๋ชฉ์ ์ ํ์ ๋ชจ๋ธ์ ์๊ฒ ๋ง๋ค์ด ๋ชจ๋ธ ์์ถ์ ํ๋ ๊ฒ์ ๋๋ค. ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ๊ณผ ์ง์ ์ฆ๋ฅ์ ์ฃผ์ ์ฐจ์ด์ ์ ์ง์ ์ฆ๋ฅ๊ฐ ๋ฏธ์ง์ ๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ํ์ ๋ชจ๋ธ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ง ์๋๋ค๋ ์ ์ ๋๋ค.
Robustness
๊ธฐ์กด ์ฐ๊ตฌ๋ค (์: [82, 31, 66, 27])์ ์๊ฐ ๋ชจ๋ธ์ ๋ถ์กฑํ ๊ฒฌ๊ณ ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ฒฌ๊ณ ์ฑ์ ๋ถ์กฑ์ ์ต๊ทผ ๋จธ์ ๋ฌ๋๊ณผ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์ค์ํ ์ฐ๊ตฌ ๋ฐฉํฅ์ด ๋์ด์์ต๋๋ค. ์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ๋ฏธ์ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ํ์ฑ๊ณผ ์ผ๋ฐ์ ์ธ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ฏธ์ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋์ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํฌ ์ ์๋ค๋ ์ฃผ์ฅ๊ณผ ์ผ์นํฉ๋๋ค [11, 77, 57, 97]. ์ฐ๋ฆฌ์ ์ฐ๊ตฌ์ ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ์ฃผ์ ์ฐจ์ด์ ์ ๊ทธ๋ค์ด ๋ฏธ์ง์ ๋ฐ์ดํฐ์์ ์ง์ ์ ๋์ ๊ฒฌ๊ณ ์ฑ์ ์ต์ ํํ๋ ๋ฐ๋ฉด, ์ฐ๋ฆฌ๋ Noisy Student Training์ด ์ง์ ์ ์ผ๋ก ๊ฒฌ๊ณ ์ฑ์ ์ต์ ํํ์ง ์์๋ ๊ฒฌ๊ณ ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค๋ ์ ์ ๋๋ค.
6. Conclusion
์ฝํ ์ง๋ ํ์ต์ ๋ํ ์ด์ ์ฐ๊ตฌ๋ค์ ์ต์ฒจ๋จ ImageNet ๋ชจ๋ธ์ ๊ฐ์ ํ๊ธฐ ์ํด ์์ญ์ต ๊ฐ์ ์ฝํ๊ฒ ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ต๋๋ค. ์ด ์ฐ๊ตฌ์์๋ ๋ฏธ์ง์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ฒจ๋จ ImageNet ๋ชจ๋ธ์ ์ ํ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ํ์ ํ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋ฏธ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋๊ท๋ชจ๋ก ํ์ฉํ๊ธฐ ์ํด ์๊ธฐ ํ์ต(self-training)์ด๋ผ๋ ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ต๋๋ค. ๋ํ, ํ์ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ํ์์ด ์ ์๋์ ์ง์์ ๋์ด์๋๋ก ๊ฐ์ ํ์ต๋๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ Noisy Student Training์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
์ฐ๋ฆฌ์ ์คํ ๊ฒฐ๊ณผ์์๋ Noisy Student Training๊ณผ EfficientNet์ ์ฌ์ฉํ์ฌ 88.4%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ ์ ์์์ต๋๋ค. ์ด๋ Noisy Student Training์ ์ฌ์ฉํ์ง ์์ ๋๋ณด๋ค 2.9% ๋ ๋์ ์์น์ ๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ๋ํ ์๋ก์ด ์ต๊ณ ์ฑ๋ฅ์ ๋ํ๋ด๋ฉฐ, ์ด์ ์ ์ฝ 10๋ฐฐ ๋ ๋ง์ ์ฝํ๊ฒ ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ์ต์ ์ ๋ฐฉ๋ฒ๋ณด๋ค 2.0% ๋ ์ฐ์ํฉ๋๋ค. [55, 86]
์ฐ๋ฆฌ์ ์ฐ๊ตฌ์์ ์ค์ํ ๊ธฐ์ฌ๋ Noisy Student Training์ด ์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ๊ฒ์ ๋๋ค. ์ฐ๋ฆฌ์ ์คํ์์๋ ์ฐ๋ฆฌ ๋ชจ๋ธ์ด ImageNet-A, C ๋ฐ P์์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํด์ ๋ณด์์ต๋๋ค
1. Introduction
- ๋ฅ๋ฌ๋์ Image classification ๋ถ์ผ์์ ์์ฒญ๋ ์ข์ ์ฑ๊ณผ๋ค์ ๋ณด์ฌ์คฌ์
- ํ์ง๋ง, ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฌ์ ํ ๋๋ถ๋ถ ์ง๋ํ์ต์ผ๋ก ํ๋ จ๋๊ณ , labeld image๋ฅผ ํ์๋ก ํ์
- ๊ทธ๋ ๊ฒ ๋๋ฉด, unlabeled data๋ฅผ ํ์ฉํด์ ์์ด๋์ด๋ฅผ ๋ผ ์ ์๋ ๊ธฐํ๋ฅผ ์ ํ์ํด
- โก๏ธ ๊ฒฐ๋ก : ์ด ๋ ผ๋ฌธ์ Unlabeled data๋ฅผ ํ์ฉํด์ ImageNet ์ ํ๋ ๋ฐ ์ผ๋ฐํ ํฅ์์ ํ๊ณ ์ ํ์
- ๊ธฐ์กด Self-training framework๋ฅผ ์ฌ์ฉํ๊ณ , ์ด ๋ ผ๋ฌธ์์๋ Noisy Student Training ๊ธฐ๋ฒ์ด๋ผ๊ณ ์นญํจ
โป Self-training framework (์ค์ง๋ ํ์ต)
- ์ง๋ ํ์ต๊ณผ ๋น์ง๋ ํ์ต์ ์ฌ์ด์ ์๋ ํ์ต ๋ฐฉ์
- ๋ ์ด๋ธ์ด ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ์กด์ฌํ์ง ์๋ ๋ฐ์ดํฐ ๋ชจ๋๋ฅผ ํ๋ จ์ ์ฌ์ฉํจ
- ๋ ์ด๋ธ์ด ์๋ ๋ค๋์ ๋ฐ์ดํฐ์ ์ ์ ์์ ๋ ์ด๋ธ์ด ์กด์ฌํ๋ ๋ฐ์ดํฐ๋ฅผ ํฌํจ์ํค๋ ๊ฒฝ์ฐ, ์ ํ๋ ๊ฐ์ ์ ๊ฒฝํฅ์ฑ์ ๋ณด์ธ๋ค๊ณ ํจ
์ฐธ๊ณ : https://gooopy.tistory.com/122
- labeled images๋ก teacher model ํ์ต
- teacher model์ ์ด์ฉํ์ฌ unlabeled images์ ๋ํ pseudo labels ์์ฑ
- labeled images์ pseudo labeled images๋ฅผ ์ด์ฉํ์ฌ student model ํ์ต
2. Noisy Student Training
2-1) Method
- Labeled image์ unlabeled image ํ์
- labeled image๋ก teacher model์ ํ์ต์ํด.
- ์ด๋ ์์ค ํจ์๋ labeled image์ cross entropy loss๋ฅผ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ์งํ.
- ๋ ผ๋ฌธ์์๋ EfficientNet์ ์ฌ์ฉ
- teacher model์ ์ฌ์ฉํ์ฌ unlabeled image์ ๋ํ pseudo label์ ์์ฑํจ. (noise ์ถ๊ฐ x)
- pseudo labels์ softํ๊ฑฐ๋ hardํจ.
- softํ label:: continuous distribution ํ label.: “์ด ์ฌ์ง์ ์ฌ์์ผ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์๋ฐ ๊ณ ์์ด๋๋ ๋ฎ์๋ค”์ ๊ฐ์ knowledge๋ก ์ฌ์ฉ ๊ฐ๋ฅ.
- : softmax๋ฅผ ๊ฑฐ์ณ ๋์จ output
- hardํ label:: ex) one-hot vector
- pseudo labeled image์ labeled image๋ก ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ student model์ ํ์ต.
- ์ด๋, student model์ teacher model๋ณด๋ค ๊ฐ๊ฑฐ๋ ํฐ ๋ชจ๋ธ์ ์ฌ์ฉํจ.
โป ์ฃผ์ ๊ฐ์ ์ , knowledge Distillation๊ณผ ๋ค๋ฅธ ์
- ๋ ธ์ด์ฆ๊ฐ ์์ฃผ ์ฌ์ฉ๋์ง ์์์
- teacher model๋ณด๋ค ๋ ๋น ๋ฅธ ์๋๋ฅผ ์ํด ์์ student model์ด ์์ฃผ ์ฌ์ฉ๋์
โก๏ธ๊ฒฐ๋ก : Knowledge Expansion์ผ๋ก student์ ๋ ํฐ ์ฉ๋์ ์ ๊ณตํ๊ณ ์ด๋ ค์ด ํ๊ฒฝ(noise) ์์์ ํ์ต์ ์์ผ, ํ์์ด ์ ์๋๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ ๋ชจ๋ธ์ด๋ผ๊ณ ์ด ๋ ผ๋ฌธ์์ ๋งํจ
2-2) Noising Student
- input noise
- RandAugment (data augmentation): ์๋ data augmentation
- ์ ์๋์ ๊นจ๋ํ ์ด๋ฏธ์ง๋ฅผ ์ฝ์ด ๋ค์ฌ ๊ณ ํ์ง์ ๊ฐ์ง ๋ ์ด๋ธ์ ์์ฑํ๋ ๋ฐ๋ฉด, ํ์์ ์ฆ๊ฐ๋ ์ด๋ฏธ์ง(noise๊ฐ ์๋) ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๊ทธ๋ฌํ ๋ ์ด๋ธ์ ์ฌํํด์ผ ๋ ํ์ต์ด ์ ๋๊ธฐ ๋๋ฌธ์, ํด์ฃผ์๋ค๊ณ ํจ (pseudo labeled data๋ฅผ ์ข ๋ ํ๋ค๊ฒ ํ์ตํ๋๋ก ๊ฐ์ ํ๊ธฐ ์ํจ)
- RandAugment์ ํตํด ๋ฐ๋ ์ด๋ฏธ์ง๊ฐ ๊ธฐ์กด ์ด๋ฏธ์ง์ ๊ฐ์ label์ธ ์ฌ์ค์ student๊ฐ ์๊ฒ ๋จ.
- ์ด๋ฅผ ํตํด ๋ ์ด๋ ค์ด ์ด๋ฏธ์ง๋ ์์ธก์ ์ ํ ์ ์๊ฒ ๋จ.
์ฐธ๊ณ ) RandAugment
- ํ๋ฅ ๊ณผ ๋ฌด์์์ฑ์ ๊ธฐ๋ฐํ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐฉ๋ฒ
- model noise
- dropout: ํ๋ฅ ์ ์ผ๋ก ํน์ ๋ด๋ฐ์ ํ์ต์ ์ฐธ์ฌ x
- stochastic depth: ํ์ต์ ๋ฌด์์๋ก layer ์๋ต (skip connection ์ฌ์ฉ) -> ์งง์ network๋ก ํ์ต
2-3) Other Techniques
- Data filtering
- teacher model์ด ๋ฎ์ confidence๋ก ์์ธกํ๋ ์ด๋ฏธ์ง๋ ๋๋ถ๋ถ์ด out-of-domain images ์ด๊ธฐ ๋๋ฌธ์ ํํฐ๋ง ์งํ
- Balancing
- ImageNet ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ฉด ๊ฐ class ๋ง๋ค ๋น์ทํ ๊ฐ์์ labeled images๊ฐ ์์ง๋ง, unlabeled images์ ๋ํด์๋ ๊ฐ class ๋ง๋ค ์ด๋ฏธ์ง ๊ฐ์์ balance๋ฅผ ๋ง์ถฐ์ผ ํจ.
- ์ ์ ๋ฐ์ดํฐ ๊ฐ์์ class ์ด๋ฏธ์ง๋ฅผ duplicateํ์ฌ ๋๋ ธ๊ณ , ๋งค์ฐ ๋ง์ ๋ฐ์ดํฐ ๊ฐ์์ class ์ด๋ฏธ์ง ์ค ๋์ confidence๋ฅผ ๋ณด์ด๋ ์ด๋ฏธ์ง๋ง ์ฌ์ฉํจ.
- pseudo labels
- soft/hard labels ์ค soft pseudo labels๋ฅผ ์ฌ์ฉํ์ ๋ out of domain unlabeled data์ ๋ํด ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ ํจ. ๋ฐ๋ผ์ soft pseudo labels๋ฅผ ์ฌ์ฉํด์ ์คํ ์งํ
3. Experiments
3.1. Experiment Details
โป Unlabeled data: ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง์๋ ๋ ์ด๋ธ์ด ์์ง๋ง, ๋ ์ด๋ธ์ ๋ฌด์ํ๊ณ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ก ์ทจ๊ธ
- dataset
- labeled dataset: ImageNet 2012 ILSVRC challenge
- unlabeled dataset: JFT 300M (data filtering๊ณผ balancing ์ ์ฉ) * ImageNet์ผ๋ก ํ์ต๋ EfficientNet-B0๋ฅผ ์ด์ฉ
- confidence score > 0.3
- class ๋ง๋ค 130K images filter
- 130K images ๋ณด๋ค ์ ์ ์ duplicate randomly
- Architecture
- EfficientNets * EfficientNet-B7
- EfficientNet-L2
- EfficientNets * EfficientNet-B7
- Training
- ํฐ batch size ์ฌ์ฉ
- fixing the train-test resolution discrepancy * 350 epoch ๋์ ์์ resolution ์ฌ์ฉ
- ๊ทธ ํ 1.5 epoch ๋์ unaugmented labeled images์ ๋ํด ํฐ resolution์ผ๋ก fine-tuning
- fine-tuning์์ shallow layer freeze
- Noise
- stochastic depth: final layer์ 0.8์ ๋๊ณ ๋ค๋ฅธ layer์ linear decay rule์ ๋ฐ๋ฅด๋๋ก ํ๋ค.
- dropout: final classification layer์ 0.5
- RandAugment: magnitude=27
- Iterative training
- 3 iterations
- 1st teacher model: EfficientNet-B7
- 1st student model: EfficientNet-L2
- 2nd student model: EfficientNet-L2
- 3rd student model: EfficientNet-L2
- batch size์ ratio (unlabeled batch size : labeled batch size)๋ฅผ ํฌ๊ฒ ๋์๋ค. * 1st student model -> 14:1
- 2nd student model -> 14:1
- 3rd student model -> 28:1
3.2. ImagetNet Results
- Noisy Student(EfficientNet-L2)๊ฐ 88.4% top-1 accuracy๋ก SOTA๋ฅผ ๊ฐฑ์ .
- ๊ธฐ์กด EfficientNet-B7์ ๋นํด 3.4% ์ฑ๋ฅ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง
- EfficientNet-L2์์ Noisy Student ๋ฐฉ๋ฒ์ ์ถ๊ฐ๋ก 2.9% ์ฑ๋ฅ ๊ฐ์
- Noisy Student๊ฐ ๊ธฐ์กด EfficientNet์ ๋นํด ํจ๊ณผ๊ฐ ์๋์ง๋ฅผ ์์๋ณด๊ธฐ ์ํด์, iterative training์ ์งํํ์ง ์๊ณ ๋ฑ ํ ๋ฒ์ student ํ์ต์ ์งํํ์ ๋ ์ฑ๋ฅ์ ๋ํ๋ธ ๊ทธ๋ํ
- teacher์ student๋ ๊ฐ์ ๋ชจ๋ธ๋ก ํ์ต์ํด
- EfficientNet-B0 ๋ถํฐ EfficientNet-B7 ๊น์ง ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋ค์ํ๊ฒ ๋ณํ ์ํด
- ๊ณต์ ์ฑ์ ์ํด ๊ธฐ์กด baseline์ EfficientNet์ RandAugment๋ฅผ ์ ์ฉ ์ํด
- ๋ชจ๋ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ์์ด ์ฝ 0.8%์ ์ฑ๋ฅ์ด ํฅ์๋จ
- iterative training ์์ด๋ ์ด๋์ ๋ ์ฑ๊ณผ๊ฐ ์๋ ๊ฒ์ผ๋ก ํ์ธ๋จ
3.3. Robustness Results on ImageNet-A, ImageNet-C and ImageNet-P
โป Robustnessํ๋ค์ ์๋ฏธ
: ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ์์ ๋ณํ์๋ ๋ฏผ๊ฐํ์ง ์๋๋ก ํ๋ ๊ฒ์ ์๋ฏธ
- Robustness ์ธก์ ์ ์ํด ImageNet-A, ImageNet-C, ImageNet-P์ ์ด์ฉ
- ImageNet-A ๋ฐ์ดํฐ์ ์ SOTA model๋ค์ด ๊ณตํต์ ์ผ๋ก ์ด๋ ค์ํ๋ ์ด๋ฏธ์ง๋ค์ ๋ชจ์ ๋ฐ์ดํฐ์
- ImageNet-C์ ImageNet-P ๋ฐ์ดํฐ์ ์ blurring, fogging, rotation, ๊ทธ๋ฆฌ๊ณ scaling ๋ฑ๊ณผ ๊ฐ์ ์ด๋ฏธ์ง์ ํํ ๋ฐ์ํ ์ ์๋ Corruption๊ณผ perturbation์ด ์ ์ฉ๋ ๋ฐ์ดํฐ์
โก๏ธ ์ด๋ฌํ ์ด๋ฏธ์ง๋ค์ ์ด๋ ค์ด task(ImageNet-A)์ด๋ฉฐ, ํธ๋ ์ด๋ ๋ฐ์ดํฐ์ ๋ค๋ฅด๊ธฐ(ImageNet-C, ImageNet-P) ๋๋ฌธ์ robustness๋ฅผ ์ธก์ ํ๋๋ฐ์ ์ฌ์ฉ๋๋ค๊ณ ํจ
- ImageNet-P์ ๊ฒฝ์ฐ mFR(mean flip rate)๋ฅผ resolution์ ๋ฐ๋ผ 14.2์ 12.2๊น์ง ๋ฎ์ถค. ์ ์๋ ์ด ๋ ผ๋ฌธ์ด robustness ํฅ์์ ์๋ํ๊ฒ ์๋์์ด์ ๊ฒฐ๊ณผ๊ฐ ๋๋๋ค๊ณ ํ์
3.4. Adversarial Robustness Results
โป Adversarial Robustness๋ : ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ณต๊ฒฉํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์ผ๋ก, ๋ชจ๋ธ์ ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ฏธ์ธํ ์กฐ์ ์ ๊ฐํด ๋ชจ๋ธ์ ์ค์๋์ํค๋ ๊ฒ
- Adversarial attack์ ์ผ์ข ์ธ FGSM(Fast Gradient Sign Method)์ ์ ์ฉ.
- ์ด ์คํ์์๋ ์ ์๋ ์ด ๋ชจ๋ธ์ด Adversarial Robustness๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ๋ง๋ค์์ง๋ง ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๊ฒ์ ๋๋ผ์ํจ.
- ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด epsilon์ด ์ฆ๊ฐํ ์๋ก ๋์ฑ ํฐ ์ฐจ์ด์ ์ฑ๋ฅ ๊ฐ์ ์ ํ๋ ๊ฒ์ ์ ์ ์์.
4. Ablation Study
4.1. The Importance of Noise in Self-training
- Unlabeled Data๊ฐ ํด์๋ก ์ข๋ค
- Noise๊ฐ ์์์๋ก ์ข๋ค
- teacher Model์ด Unlabeled Data๋ฅผ ์ถ๋ก ํ ๋๋ Noise๋ฅผ ์ถ๊ฐํ์ง ์๋๊ฒ ๋ ์ข๋ค
4.2. A Study of Interative Training
โป 14:1์ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ๋ฐ์ดํฐ ์ธํธ์ ํฌ๊ธฐ์ 14%๋ผ๋ ๊ฒ์ ์๋ฏธ. ex) ๋ฐ์ดํฐ ์ธํธ์ ํฌ๊ธฐ๊ฐ 10000๊ฐ๋ผ๋ฉด ๋ฐฐ์น ํฌ๊ธฐ๋ 140๊ฐ๋ฅผ ์๋ฏธํจ
- ๋ฐ๋ณตํ ์๋ก ์ฑ๋ฅ์ด ๋ ์ข๋ค
4.3. Additional Ablation Study Summarization
- ๊ฒฐ๊ณผ #1: ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง ํฐ ์ ์๋ ๋ชจ๋ธ ์ฌ์ฉ์ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ด๋์ด๋ ๋๋ค.
- ๊ฒฐ๊ณผ #2: ๋๋์ ๋ฏธ๋ถ๋ฅ ๋ฐ์ดํฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ์ํด ํ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ #3: ์ผ๋ถ ๊ฒฝ์ฐ์๋ ์ํํธ ๋ฏธ๋ถ๋ฅ๊ฐ ํ๋ ๋ฏธ๋ถ๋ฅ๋ณด๋ค ์ธ๋ถ ๋๋ฉ์ธ ๋ฐ์ดํฐ์ ๋ํด ๋ ์ ์๋ํฉ๋๋ค.
- ๊ฒฐ๊ณผ #4: ํฐ ํ์ ๋ชจ๋ธ์ ํ์์ด ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ฐฐ์ธ ์ ์๋๋ก ํ๋ ๋ฐ ์ค์ํฉ๋๋ค.
- ๊ฒฐ๊ณผ #5: ๋ฐ์ดํฐ ๊ท ํ์ ์์ ๋ชจ๋ธ์ ์ ์ฉํฉ๋๋ค.
- ๊ฒฐ๊ณผ #6: ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ์ ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ ๊ณต๋ ํ๋ จ์ ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จํ ๋ค์ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๋ก ์ธ๋ถ ์กฐ์ ํ๋ ํ์ดํ๋ผ์ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์์ต๋๋ค.
- ๊ฒฐ๊ณผ #7: ๋ฏธ๋ถ๋ฅ๋ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ ์ด๋ธ๋ ๋ฐฐ์น ํฌ๊ธฐ ์ฌ์ด์ ํฐ ๋น์จ ์ฌ์ฉ์ ๋ชจ๋ธ์ด ๋ฏธ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์์ ๋ ๊ธด ์๊ฐ ๋์ ํ๋ จํ์ฌ ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
- ๊ฒฐ๊ณผ #8: ํ์์ ์ฒ์๋ถํฐ ํ๋ จ์ํค๋ ๊ฒ์ด ๋๋ก๋ ์ ์๋์ผ๋ก ์ด๊ธฐํํ ํ์๋ณด๋ค ๋ ๋์ ์ ์์ผ๋ฉฐ, ์ ์๋์ผ๋ก ์ด๊ธฐํํ ํ์๋ ์ข์ ์ฑ๋ฅ์ ๋ด๊ธฐ ์ํด์๋ ๋ง์ ์์ ํ๋ จ epoch๊ฐ ํ์ํฉ๋๋ค.
5. Related Works
โป Self-training๋ (์ค์ง๋ํ์ต ๋ฐฉ๋ฒ ์ค ํ๋)
: labeled data๋ฅผ ํ์ฉํ์ฌ ํ์ตํ ๋ชจ๋ธ์ด ์์ธกํ ๊ฒฐ๊ณผ(confidentํ ๊ฒฐ๊ณผ)๋ฅผ unlabeled data์ Pseudo-Label๋ก ๊ฐ์ ํด์ unlabeled data๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ
โป Knowledge Distillation๋(์ง์ ์ฆ๋ฅ)
: ํฐ ๋คํธ์ํฌ(Teacher network) ์ ์ง์์ ์ค์ ๋ก ์ฌ์ฉํ๊ณ ์ ํ๋ ์์ ๋คํธ์ํฌ(Student network) ์๊ฒ ์ ๋ฌํ๋ ๊ฒ
: ์์ ๋คํธ์ํฌ๋ ํฐ ๋คํธ์ํฌ์ ๋น์ทํ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก, ํ์ต ๊ณผ์ ์์ ํฐ ๋คํธ์ํฌ์ ์ง์์ ์์ ๋คํธ์ํฌ์๊ฒ ์ ๋ฌํ์ฌ ์์ ๋คํธ์ํฌ์ ์ฑ๋ฅ์ ๋์ด๊ฒ ๋ค๋ ๋ชฉ์ ์ ์ง๋
6. Conclusion
- ์ฐ๋ฆฌ์ ์ฐ๊ตฌ์์ ์ค์ํ ๊ธฐ์ฌ๋ Noisy Student Training์ด ์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ๊ฒ์ด๋ผ๊ณ …
- ๋!
7. Reference
https://light-tree.tistory.com/196
https://www.youtube.com/watch?v=l0jdNn5AGmo&t=900s
https://www.youtube.com/watch?v=q7PjrmGNx5A&t=593s
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
SRNet: Editing Text in the Wild Review (0) | 2023.07.17 |
---|---|
Taskonomy: Disentangling Task Transfer Learning (0) | 2023.07.16 |
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (1) | 2023.07.13 |
XLM: Cross-lingual Language Model Pretraining (0) | 2023.07.09 |
YOLOv4: Optimal Speed and Accuracy of Object Detection (0) | 2023.07.09 |