728x90
๋ฐ์ํ
- Deeplearning์ CNN ๋คํธ์ํฌ๋ ์์์ฒ๋ฆฌ์ ๋๋ถ๋ถ์ ๋ฌธ์ ์์ ๊ทธ ํจ๊ณผ๋ฅผ ๋ฐํํ๊ณ ์์. classification์ objectDetection ๋ฌธ์ ์์ ๊ฝค๋ ์ข์ ํจ๊ณผ๋ฅผ ๋ฐํ๋ฅผ ํ์๋๋ฐ, ์ด๋ฅผ segmentation์ ์ ์ฉ์ ํ๋๋ ์ฌ๊ธฐ์๋ ์ฑ๋ฅ์ด ์ข์๋ค~
- ํ์ง๋ง ๊ธฐ์กด์ ๋คํธ์ํธ๊ฐ classification ๋ฌธ์ ์ ์ ํฉํ๊ฒ ๊ตฌ์กฐ๊ฐ ์ง์ ธ์์ด์ ์ด๋ฅผ segmentation ๋ฌธ์ ์ ์ ์ฉํ๊ธฐ ์ํ ์ฌ๋ฌ๋ ผ๋ฌธ์ด ๋์ค๊ธฐ ์์ํ๋๋ฐ ์ฌ๊ธฐ์๋ deeplab์ด ํด๋น๋จ
- ์ฆ CNN์ด ๊ฐ์ง๊ณ ์๋ ํ๊ณ์ ์ ์ด๋ป๊ฒ ๊ทน๋ณตํด๋ผ ๊ฒ์ธ๊ฐ
1. Intro
- Deep Conv Neural Networks(DCNNs)๋ image classification, object detection ๋ฑ์ ์ ๋ฐ์ ์ธ CV ๋ถ์ผ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋๋ฐ ๋ง์ ์ํฅ์ ๋ผ์นจ
- DCNN์ end-to-end ๋ฐ built-in invariance ์ฑ์ง์ ์ง๋๊ณ ์๊ธฐ ๋๋ฌธ.โป end to end: End-to-end๋ ์
๋ ฅ์์ ์ถ๋ ฅ๊น์ง์ ์ ์ฒด์ ์ธ ์์คํ
์ ํ๋์ ๋ชจ๋๋ก ๊ตฌ์ฑํ์ฌ ์ต์ ํํ๋ ๋ฐฉ์
- ์ผ๋ถ ๋ณํ์ ๋ํด ์๋์ผ๋ก ๋ถ๋ณ์ฑ์ ๊ฐ์ง๋ ๊ฒ์ ์๋ฏธํจ
- CNN์ ์ด๋ฏธ์ง ๋ด์ ํน์ง(feature)์ ์ธ์ํ๊ณ , ์์น์ ์๊ด์์ด ํน์ง์ ์ธ์ํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ง. ์ด๋ฌํ ๋ด์ฅ ๋ถ๋ณ์ฑ ๋๋ถ์, CNN์ ์ด๋ฏธ์ง์ ์์น, ํ์ , ํฌ๊ธฐ ๋ฑ์ ๋ณํ์ ์๊ด์์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ ์ ์์
- โป built-in invariance: ๋ด์ฅ ๋ถ๋ณ์ฑ, ex) CNN, ์ธ์ด๋ชจ๋ธ
- ํ์ง๋ง invariance๋ semantic segmentation ๊ฐ์ dense prediction task๋ฅผ ์ ํ์ํจ๋ค๊ณ ํจ.โป ๋ถ๋ฅ์ ๊ฐ์ task์์๋ ์ข์ ( ๋ถ๋ณ์ฑ์ ๊ธฐ๋ฅ )but, Semantic Segmentation๊ณผ ๊ฐ์ dense prediction task์์๋ ์ด๋ฌํ ๋ณํ๋ ๊ฐ์ฒด๋ฅผ ์ ํํ๊ฒ ์ธ์ํด์ผ ํ๊ธฐ ๋๋ฌธ์ Invariance๋ฅผ ๋๋ฌด ๊ฐ์กฐํ๋ฉด, ์ ํํ Segmentation ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฐ์
- ex) ์ผ๊ตด ์ธ์ ์์คํ ์ ๋ง๋ค ๋, ์ผ๊ตด์ด ๊ธฐ์ธ๊ฑฐ๋, ์กฐ๋ช ์ด ์ด๋ก๊ฑฐ๋, ๋ฐฉํฅ์ด ๋ค๋ฅด๊ฑฐ๋, ์ฐฉ์ฉํ๋ ๋ชจ์๋ ์๊ฒฝ ๋ฑ์ผ๋ก ์ธํด ์ผ๊ตด์ด ๋ณํ๋์ด๋ ์ธ์์ด ๊ฐ๋ฅํ๋๋ก ๋ง๋๋ ๊ฒ์ด Invariance์ ์ฅ์ .
- ๋ฐ๋ผ์ DCNNs๋ฅผ semantic image segmentation์ ์ ์ฉ์ํฌ ๋, ์ธ ๊ฐ์ง challenge๊ฐ ์กด์ฌ
- Reduced feature resolution
- Existence of objects at multiple scales
- Reduced localization accuracy due to DCNN invariance
- Reduced feature resolution
- ๊ณ์๋๋ max-pooling ๋ฐ downsampling ๋๋ฌธ์ ๋ฐ์
- ๊ณ์ conv๋ฅผ ํต๊ณผ์ํฌ ๊ฒฝ์ฐ, feature map์ ๋งค์ฐ ์์์ง ๊ฒ์
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด DCNN์ ๋ง์ง๋ง max pooling layer๋ค์ filter upsampling์ผ๋ก non-zero filter taps์ ‘๊ตฌ๋ฉ’์ ๋ฃ๋ ๋ฐฉ์์ผ๋ก ์งํํจ
- upsampled filter์ atrous convolution์ด๋ผ๊ณ ๋ถ๋ฆ
- atrous convolution์ ํตํด ํ๋ผ๋ฏธํฐ ๊ฐ์๋ ์ฐ์ฐ๋ ์ฆ๊ฐ์ํค์ง ์์๋ filter์ view(receptive field)๋ฅผ ์ฆ๊ฐ์ํฌ ์ ์์
- Existence of objects at multiple scales
- spatial pyramid pooling์์ ์๊ฐ์ ์ป์ (๋ณ๋ ฌ์ฒ๋ฆฌ)
- ๊ธฐ์กด์๋ ์๋ณธ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ฌ๋ฌ๊ฐ๋ก rescalingํด์ ํผ์ฒ๋งต์ ํฌ๊ธฐ๋ฅผ ํฉ์น๋ ๋ฐฉ์์ผ๋ก ์งํํ์์ → ์ฐ์ฐ ๋น์ฉ์ ์ฆ๊ฐ ๋ฌธ์ ๋ฐ์
- ๋ฐ๋ผ์ ๋ณ๋ ฌ์ ์ธ atrous convolutional layer๋ค์ ๋ค๋ฅธ sampling rate๋ฅผ ๋์ ํจ
- ์ด๋ฅผ ํตํด ๋ฌผ์ฒด ํ์ ํ๊ณ ์ฌ๋ฌ scale์์ ์ด๋ฏธ์ง๋ฅผ ํ์ ํ ์ ์์ ⇒ ASPP๋ผ๊ณ ์นญํจ
- Reduced localization accuracy due to DCNN invariance
- ๋ถ๋ฅ์ ๊ฐ์ ๊ฒฝ์ฐ ๊ณต๊ฐ์ ๋ถ๋ณ์ฑ์ ์ป๊ธฐ ์ํด ์ฌ๋ฌ ๋จ๊ณ conv+ pooling์ ํตํด ๊ฐ์ธํ ํน์ง์ ์ถ์ถํด์ผ ํจ (๋ณํ์ ์ํฅ์ ๋ฐ์ง ์๋ → ๋ถ๋ฅ ๋ฌธ์ ์ด๋ฏ๋ก) ๊ทธ๋์ detailํ ๊ฒ๋ณด๋ค๋ ์ข ๋ globalํ ๊ฒ์ ์ง์คํจ
- ๋ฐ๋ฉด, sementic segmentation์ ๊ฒฝ์ฐ, ํฝ์ ๋จ์์ ์กฐ๋ฐํ ์์ธก์ด ํ์ํ๋ฐ, classification ๋ง์ ๊ธฐ๋ฐ์ผ๋ก segmentation ๋ง์ ๊ตฌ์ฑํ๊ฒ ๋๋ฉด ํผ์ฒ๋งต์ ํฌ๊ธฐ๊ฐ ์ค์ด๋ค๊ธฐ ๋๋ฌธ์ detailํ ์ ๋ณด๋ฅผ ์ป์ ์ ์์. ๋ฐ๋ผ์, CRF๋ฅผ ๋์ ํ์ฌ ๋ฏธ์ธํ ๋ํ ์ผ ํ์ ํ๊ณ ์ ํจ (๊ฒฝ๊ณ ๋ถ๋ถ ๋ชจํธ)โป CRF: ๋ง์ง๋ง์ ์ค๋ pooling layer 2๊ฐ๋ฅผ ์์ ๊ณ atrous conv ์ฌ์ฉ → ์ถ๊ฐ์ ์ผ๋ก CRF๋ฅผ ํ์ฒ๋ฆฌ ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ํฝ์ ๋จ์ ์์ธก์ ์ ํ๋๋ฅผ ๋์ด๋๋ฐ ์ฌ์ฉํจ.
→ ์๋, ์ ํ๋, ๊ฐ๊ฒฐ์ฑ 3๊ฐ์ง๋ฅผ ์ง๋ ๋ชจ๋ธ
2. Related Work
- ๊ณผ๊ฑฐ์ sementic segmentation์ ์ง์ ์ ์ํ feature์๋ค๊ฐ boosting์ด๋ ๋ํฌ SVM๊ณผ ๊ฐ์ flat classifier์ ์ฌ์ฉํ๋ค๊ณ ํจ (์์์ )
- ๋ฅ๋ฌ๋ ๋ฐ์ ์ด ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ฑ๊ณต์ ์ผ๋ก ์ด๋ฃจ์ด์ก๊ณ , ์ด๋ฅผ ์ด์ด sementic segmentation ์์ ์ผ๋ก ์ด์ ๋๊ธฐ ์์ํจ
- → segmentation๊ณผ classification ๋ ๊ฐ์ง ์์ ์ ๋ชจ๋ ์ํํด์ผ ํ๋ฏ๋ก ๋ ๊ฐ์ task๋ฅผ ํฉ์น๋ ๊ฒ์ด ๊ด๊ฑด์ด ๋จ
→ Sementic segmentation์์ ์ฌ์ฉ๋ DCNN์ 3๊ฐ์ง ๋ฐฉ๋ฒ๋ฒ์ผ๋ก ๋๋ ์ ์์
- bottom-up segmentation ๋ฐ DCNN ๊ธฐ๋ฐ์ region classification์ ์งํํจ
- ํ๋์ ๊ฐ์ฒด ์์ ์ฌ๋ฌ segmentation์ ๋ง๋ค์ด์ ํฉ์น๋ ๊ณผ์ ์ ์๋ฏธ
- ํ์ง๋ง ์ค๊ฐ์ error๊ฐ ๋ฐ์ํ๋ฉด ๊ทน๋ณตํ ์ ์๋ค๋ ๋จ์ ์ด ์กด์ฌ
- image labeling์ ์ฌ์ฉ๋ DCNN feature ๋ค๊ณผ ๋ ๋ฆฝ์ ์ผ๋ก ์ป์ segmentation์ ๊ฒฐํฉํ๋ ๋ฐฉ์
- image labeling์ ์ํํ๊ณ , ๋ ๋ฆฝ์ ์ผ๋ก ์ป์ segmentation๊ณผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- skip layer, region proposal ๋ฑ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค์ ์ฌ์ฉ
- but, DCNN classification ๊ฒฐ๊ณผ์ ๋ถ๋ฆฌ๋ segmentation ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์ ์์ ์ ์ํํ๊ธฐ ๋๋ฌธ์, classification์ ๊ฒฐ๊ณผ๋ฅผ ๋ฌด์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ ์ ์์ ( premature decisions๋ผ๊ณ ํํํจ )
- DCNN์ ์ฌ์ฉํด ๋ฐ๋ก category-level pixel label๋ค์ ์ถ์ถํจ์ผ๋ก์จ segmentation์ ์์ ๋ฐฐ์
- DCNN์ ํตํด segmentation ๋ฌธ์ ๋ฅผ ํธ๋ ๋์ , ์ด๋ฏธ์ง์ ๊ฐ ํฝ์ ์ ๋ํด ํด๋น ํฝ์ ์ด ์ํ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ฐ๋ก ์ถ์ถํ๋ ๊ฒ์ ์๋ฏธ
- ํน์ง ์ถ์ถ ๋ฐ ๋ถ๋ฅ ๊ณผ์ ์ด ๋์์ ์ด๋ฃจ์ด์ง๋ค๊ณ ํด์ํ๋ฉด ๋ ๋ฏ. (feature ์ถ์ถ๊ณผ boundary ๊ฒ์ถ์ด ๋์์ ์ด๋ฃจ์ด์ง)??
- ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด ๋ฐฉ๋ฒ์ ํ์ฉโป category-level-pixel label: ์ด๋ฏธ์ง ๋ด์ ๊ฐ ํฝ์ ์ด ์ด๋ค ํด๋์ค์ ์ํ๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฒ์ ์๋ฏธ. ex) ์ด๋ฏธ์ง ๋ด์ ๊ฐ ํฝ์ ์ด ์ฌ๋, ์๋์ฐจ, ๋๋ฌด ๋ฑ์ ํด๋์ค ์ค ์ด๋์ ํด๋นํ๋์ง๋ฅผ ๋ถ๋ฅํ๋ ์์ ์ ๋งํจ
3. Methods
3.1 Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement
- ๋ ๋์ feature map์ coverํ๊ธฐ ์ํด ๊ธฐ์กด pooling, striding์ ํตํด ๊ณต๊ฐ resolution์ด ๊ฐ์ํ๊ณ , ์์์ง feature map์ ๋ณต์ํ๋ฉด์ ์ฑ๋ฅ์ด ๋ฎ๋ค๋ ๋ฌธ์ ๊ฐ ์์์.
- ๋ณธ ๋ ผ๋ฌธ์์๋ atrous convolution์ ํ์ฉํ์ฌ down sampling์ ํ์ง ์๊ณ ํฐ ๋ฒ์์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ์ ์
โป (a)๋ sparse feature extraction์ผ๋ก์จ r=1์ผ ๋, (b)๋ dense feature extraction์ผ๋ก์จ r=2์ผ ๋๋ฅผ ๋ํ๋.
โป (b)๋ฅผ ์ดํด๋ณด๋ฉด r=2๋ก ์ค์ ํ์๊ธฐ ๋๋ฌธ์ ์ฌ์ด์ 0์ด๋ผ๋ ๊ณต๋ฐฑ์ด ํ๋ ์๊ธฐ๊ณ , stride = 1์ผ๋ก ์ ์ง๋์๊ธฐ ๋๋ฌธ์ receptive field์ ๊ฐ์ด ์ปค์ง
- astrous conv๋ dilated๋ ํํฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ pooling๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ดํฐ ์์ค์ ๋ฐ์์ํค์ง ์๋๋ผ๋ ๋์ receptive field๋ฅผ ๊ด์ฐฐ์ ํ ์๊ฐ ์๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด์ CNN์ด ๊ฐ์ง๊ณ ์๋ detail ๋ถ์กฑ ํด๊ฒฐ์ ํ ์๊ฐ ์๋ ๊ฒ์.
- ๋นจ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ค๋ช : ์๋ฅผ ๋ค์ด VGG-16์ด๋ ResNet-101 ๋คํธ์ํฌ์ feature response์์ spatial density๋ฅผ 2๋ฐฐ ์ฆ๊ฐ์ํค๊ณ ์ถ๋ค๊ณ ํ ๋, ๋จผ์ ํด์๋๋ฅผ ์ค์ด๋ ๋ง์ง๋ง pooling/convolutional layer์ ์ฐพ์.
- ๊ทธ ๋ค์ feature map ํฌ๊ธฐ ์ค์ด๋๋ ๊ฒ์ ๋ง๊ธฐ ์ํด stride = 1๋ก ์ค์ ํ๊ณ , ๊ทธ ์ดํ์ convolution layer์ atrous convolutional layer with r = 2๋ก ๋ฐ๊ฟ์ค. ๋น์ฉ์ด ๋ง์ด ๋ ๋ค๋ ํ๊ณ๊ฐ ์กด์ฌํ๊ฒ ๋จ
- ๊ทธ๋์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ์ด์ค ์ ํ ๋ณด๊ฐ๋ฒ์ ์ฌ์ฉํ๋ค๊ณ ํจ(atrous convolution์ ์ฌ์ฉํ์ฌ ํด์๋๋ฅผ 4๋ฐฐ ์ฆ๊ฐ์ํค๊ณ , fast bilinear interpolation์ ์ฌ์ฉํ์ฌ ํด์๋๋ฅผ 8๋ฐฐ ์ฆ๊ฐ์์ผ ์๋ณธ ์ด๋ฏธ์ง ํด์๋๋ก ๋ณต๊ตฌํ๋…๋ชฐ๋ผ์)
→ atrous conv + ์ด์ค ์ ํ ๋ณด๊ฐ๋ฒ์ ํตํด ๊ณ ํด์๋ ์ ์งํ๋ ๊ฒ์ hybrid approach ๋ฐฉ๋ฒ์ด๋ผ๊ณ ๋งํจ
- Atrous convolution์ ์ด๋ DCNN layer์์๋ ์์๋ก filter์ field-of-view๋ฅผ ์ฆ๊ฐ์ํฌ ์ ์๊ฒ ํ๋ค. SoTA DCNN๋ค์ ์ฃผ๋ก 3*3๊ณผ ๊ฐ์ ์์ convolutional kernel๋ค์ ์ฌ์ฉํ์ฌ ์ฐ์ฐ๊ณผ parameter์ ๊ฐ์๋ฅผ ์ต์ํ์ผ๋ก ํจ.
- ๋ง์ฝ rate๊ฐ r์ธ atrous convolution์ด ์๋ค๋ฉด, ๊ทธ filter๊ฐ๋ค ์ฌ์ด์๋ r-1๊ฐ์ 0๋ค์ด ์๋ค.
- ์ฆ, filter์ kernel size๋ฅผ ์ฐ์ฐ์ด๋ parameter ๊ฐ์์ ์ฆ๊ฐ ์์ด ke=k+(k-1)(r-1) ๊ฐ๋ก ์ฆ๊ฐ์์ผ์ฃผ๋ ์ญํ ๋ ํจex) 3x3 ํํฐ์ด๊ณ , r=2์ธ ๊ฒฝ์ฐ, 3+2*1=5 ์ฆ, 5x5 receptive field๋ฅผ ๊ฐ์ง๋ค๊ณ ์๊ฐํ๋ฉด ๋จ
- ์ด๋ ๊ฒ ํด์ฃผ๋ฉด ๊ณ์ฐ๋์ด๋ ๋งค๊ฐ๋ณ์ ์๋ฅผ ์ฆ๊ฐ์ํค์ง ์์๋ ์ข์ ํจ๊ณผ๋ฅผ ์ป์ ์ ์์
- kernel์ rate ์ค์ ํด์ feature map samplingํ๋ ๋ฐฉ๋ฒ (์์ ๋์จ ๋ฐฉ๋ฒ)
- ์
๋ ฅ feature map์ rate ๋งํผ sub samplingํด์ deinterlace ๊ณผ์ ์ ํตํด r^2๋งํผ ๊ฐ์๋ ํด์๋ ๋งต์ ์์ฑํจ→ ์ด๋ ๊ฒ ๋ง๋ค์ด์ง ์ค๊ฐ feature map์ ํ์ค conv๋ฅผ ์ ์ฉํด์ ์๋ ์ด๋ฏธ์ง ํด์๋๋ก reinterlacingโป interlaced image๋ ํ
๋ ๋น์ ๊ณผ ๊ฐ์ ์์ ์ฅ์น์ ์๋ ๋ก๊ทธ BW๋ฅผ ๋์ด์ง ์๊ณ ํ์ํ ์์ ํ์ง์ ๊ฐ์ ํ๊ธฐ ์ํ ๋ฐฉ์์ผ๋ก์ ํ์์ค ์ง์์ค์ ๋ฒ๊ฐ์์ ์ถ๋ ฅํ๋ค๋ ๊ฐ๋
- ์ฝ๊ฐ ๋ฒ๊ฐ์๊ฐ๋ฉด์ sub sampling์ ํด์คฌ๋ค ์ด๋ฐ ๋๋..์ธ ๊ฒ ๊ฐ์์
- → Atrous convolution์ ์ผ๋ฐ์ ์ธ convolution์ผ๋ก ์ถ์ํ์ฌ ์ต์ ํ๋ convolution ๋ฃจํด์ ์ฌ์ฉํ ์ ์๋ค..
3.2 Multiscale Image Representations using Atrous Spatial Pyramid Pooling
- DeepLabV2๋ ํจ๊ณผ์ ์ผ๋ก ๋ค์ํ ๋ฒ์ ๊ณต๊ฐ์ ํน์ง์ ์ป๊ธฐ ์ํด feature map์ ํ ํฝ์ ๊ฐ์ ์ป๊ธฐ ์ํด 4๊ฐ์ atrous filter๋ฅผ ์ฌ์ฉํจ
- ๊ฐ convolution์ ์ ์ฉํ ๋ค์ ์ป์ ๊ฐ์ ๋ํด ๋ง์ง๋ง ๊ฒฐ๊ณผ๋ฅผ ์์ฑํจ
- 1๊ฐ์ atrous filter๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ณด๋ค ์ฑ๋ฅ์ด ์ฆ๊ฐํ์ง๋ง ๊ณ์ฐ๋๋ ์ฆ๊ฐํ๋ค๋ ๋จ์ ์ด ์กด์ฌ.
3.3 Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery (CRF)
- ์ค์๋ค๊ฐ bi-linear interpolation๋ฐฉ๋ฒ์ ํตํด์ ๋๋ฆฌ๊ณ fully connected CRF๋ก ๋์ฑ ์ ํ๋๋ฅผ ๋์ด๋ ๋ฐฉ์์ ๋ฐ๋ฆ.
- max-pooling layer๋ค์ด ์ฆ๊ฐํ๋ฉด classification์์ ์ข์ ์ฑ๊ณผ๋ฅผ ๋ด์ง๋ง, ๊ทธ์ ๋ฐ๋ผ invariance๋ ๋์์ง๊ธฐ ๋๋ฌธ์ localization์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ๋ชปํจ. ๊ฒฝ๊ณ๋ฅผ ์ ๋๋ก ๋ฌ์ฌํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ (์์์ ์ค๋ช )
- DeepLab์ Fully-Connected CRF๋ฅผ ์ฌ์ฉํ์ฌ localization accuracy๋ฅผ ์ฆ๊ฐ์ํด
- Fully connected CRF์ ๋ชจ๋ธ ⇒ energy function์ ์ฌ์ฉ (unary term + pairwise term)์ผ๋ก ๊ตฌ์ฑ๋จ
- x → pixel์ ๋ํ ๋ผ๋ฒจ๋ง ๋ถ๋ฅ
- ์ฒซ๋ฒ์งธ ํญ: ํน์ pixel i์์์ label assignment ํ๋ฅ
- ๋ ๋ฒ์งธ ํญ: ๊ฐ ์ด๋ฏธ์ง ํฝ์ ์ด ํ๋๋ก ํฉ์ณ์ก์ ๋, ๋ฌผ์ฒด ๋ฐ ๊ทธ ์์น์ ๋ํ ์ถ๋ก ์ ํจ์จ์ ์ผ๋ก ํด์ค
- ์ฌ๊ธฐ์ xi≠xj์ผ ๋ μ(xi, xj) = 1๋ก, ๊ฐ์ ๊ฒฝ์ฐ 0์ ๊ฐ์ ์ทจํ๋๋ก ํ๋ฉด์ ๊ฐ์ ํฝ์ ๋ผ๋ฆฌ๋ ์๋ก ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋๋ก ์ค์ .
- pi, pj: ํฝ์ ์ ์์น(position)
- li, lj: ํฝ์ ์ ์ปฌ๋ฌ๊ฐ(intensity)
- ์ฒซ ๋ฒ์งธ ๊ฐ์ฐ์์ ์ปค๋: ๋น์ทํ ์์น์ ๋น์ทํ ์ปฌ๋ฌ๋ฅผ ๊ฐ๋ ํฝ์ ๋ค์ ๋ํด ๋น์ทํ label์ด ๋ถ์ ์ ์๋๋ก ํด์ค
- ๋ ๋ฒ์งธ ๊ฐ์ฐ์์ ์ปค๋: ํฝ์ ์ ์์น๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์กฐ์ . smoothness(๋ ธ์ด์ฆ ์ ๊ฑฐ)๋ฅผ ์๊ตฌํ ๋ ์์น์ ๊ฐ๊น์์ด ์ผ๋ง๋ ์ถฉ์กฑ๋์๋์ง๋ฅผ ๊ณ ๋ ค
- σα, σβ, σγ: Gaussian kernel์ scale์ ์กฐ์ → Fully Connected CRF์ energy function์ Gaussian๊ผด์ kernel ๋๋ฌธ์ ํ๋ฅ ์ ์ถ๋ก ์ด ํจ์จ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ก ํจ
โป ๊ฐ์ฐ์์ ์ปค๋(Gaussian kernel)์ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ์์ฑ๋ ํํฐ(kernel)๋ฅผ ๋งํจ. ๊ฐ์ฐ์์ ๋ถํฌ๋ ์์ฐ ํ์์์ ๋น๋ฒํ๊ฒ ๋ํ๋๋ ์ ๊ท ๋ถํฌ(normal distribution) ์ค ํ๋๋ก, ์ค์ฌ์ ๊ธฐ์ค์ผ๋ก ์ข์ฐ ๋์นญ์ ์ข ๋ชจ์ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์์. ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ์์ฑ๋ ํํฐ๋ ์ด๋ฏธ์ง๋ ์ ํธ ์ฒ๋ฆฌ์์ smoothing, blurring, denoising ๋ฑ์ ์ฉ๋๋ก ๋๋ฆฌ ์ฌ์ฉ๋จ. ๊ฐ์ฐ์์ ํํฐ์ ํฌ๊ธฐ์ ํ์ค ํธ์ฐจ(standard deviation)๋ ํํฐ์ ์ฑ๋ฅ๊ณผ ์ฐ์ฐ ๋น์ฉ์ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ํฌ๊ธฐ๊ฐ ํด์๋ก smoothing ํจ๊ณผ๊ฐ ๋ ๊ฐํด์ง์ง๋ง, ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํจ
4. Experimental Results
- DeepLab์ imagenet-pretrained VGG-16 / ResNet-101 ๋คํธ์ํฌ๋ฅผ fine-tuningํ์ฌ semantic segmentation์ ์ ์ฉํจ
- Loss Function: Cross-Entropy Loss
- ๋ชจ๋ ๋ผ๋ฒจ๋ค์ ๋๋ฑํ weight์ ์ง๋๊ณ ์์(unlabeled pixel ์ ์ธ)
- Optimization : standard gradient descent
- ๋ชจ๋ธ ์ฑ๋ฅ ํ์ธ: PASCAL VOC 2012, PASCAL-Context, PASCAL-Person-Part, Cityscapes
4.1 PASCAL VOC 2012
- PASCAL VOC 2012 ๋ฐ์ดํฐ์ ์ 20๊ฐ์ object class์ ํ๋์ background class๋ก ์ด๋ฃจ์ด์ ธ ์์
- 1,464๊ฐ์ training set, 1,449์ validation set, 1,456๊ฐ์ test set์ด pixel-level ์ด๋ฏธ์ง์ ํํ.
- ์ถ๊ฐ์ ์ผ๋ก data augmentation์ ํตํ์ฌ 10,582 training์ด๋ฏธ์ง๋ฅผ ์ป์
- ์ฑ๋ฅ์ 21๊ฐ์ class์ ๋ํ IOU๋ก ํ์ธ
- VGG16์ fc6 layer๋ฅผ atrous conv๋ก ๋ณ๊ฒฝํ๋ฉฐ ์๋์ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉ
- pretrained VGG-16 for ImageNet๋ฅผ ์ฌ์ฉ
- batch size : 20
- lr : 0.001 (multiplying the learning rate by 0.1 every 2000 iterations)
- momentum : 0.9
- weight decay : 0.0005
- w2์ σγ ๊ฐ์ 3์ผ๋ก ์ค์ , ์ต์ ์ w2, σα, σβ ๊ฐ์ ์ฐพ๊ธฐ ์ํด validation์ ํตํ์ฌ ์กฐ์
- Test Set์์ DeepLab-LargeFOV๋ 70.4 mean IOU performance๋ฅผ ์ป์
4.2 PASCAL Context
- Pascal-Context๋ ๋ฌผ์ฒด ๋ฐ ๋ฐฐ๊ฒฝ์ ๋ํ semantic label๋ค์ด ๋ชจ๋ ์์. ํ๋์ background category์ 59๊ฐ์ class๋ค์ด ์๋๋ฐ, ์ฌ๊ธฐ์๋ ์์ ์ธ๊ธํ ์ต๊ณ ์ ๋ชจ๋ธ์ ์ ์ฉํด SoTA result๋ฅผ ์ป์
4.3 PASCAL-Person-Part
- PASCAL-Person-Part๋ ์ฌ๋์ ์ ์ฒด๋ฅผ ๋จธ๋ฆฌ, ๋ชธํต, ์ํ/์๋ซํ, ์๋ค๋ฆฌ/์๋ซ๋ค๋ฆฌ๋ก ๊ตฌ๋ถํ๊ณ ํ๋์ ๋ฐฐ๊ฒฝ class๋ฅผ ์ถ๋ ฅ. ์ฌ๊ธฐ์๋ DeepLab๊ฐ ์ต์ฐ์ ์ฑ์ ์ ๋
4.4 Cityscapes
- ๋์์ ๋ํ 19 semantic label(๋ฐ 7๊ฐ์ super category: ๋ , ๊ณต์ฌ, ๋ฌผ์ฒด, ์์ฐ, ํ๋, ์ฌ๋, ์ฐจ๋)์ผ๋ก ์ด๋ฃจ์ด์ง dataset. ๋ง์ฐฌ๊ฐ์ง๋ก ์ต๊ณ ์ฑ๋ฅ์ ๋
4.5 Failure Modes
- ๊ทธ๋ฌ๋ DeepLab๋ ํ๊ณ๊ฐ ์กด์ฌ. ์๋์ฒ๋ผ ์์ ๊ฑฐ๋ ์์๊ฐ์ ์๊ณ segmenation์ด ์ด๋ ค์ด ๋ฌผ์ฒด ๊ฐ์ ๊ฒฝ์ฐ, CRF๋ฅผ ์ ์ฉํด๋ ๊ทธ ์์ญ์ ์ ๋๋ก ํ์ ํ ์ ์์๋ค๋ผ๋ ๋จ์ ์ด ์์
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
U-Net (0) | 2023.07.05 |
---|---|
Bert (0) | 2023.07.05 |
VIT [AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE] (0) | 2023.07.05 |
RetinaNet (0) | 2023.07.05 |
GPT-1 (0) | 2023.07.05 |