728x90
๋ฐ์ํ
0. Fast R-CNN
- ๊ทธ๋์ ๋์จ ์น๊ตฌ๊ฐ fast R-CNN
- Selective Search
- input image๋ฅผ ๊ฐ์ง๊ณ selective search ์งํ
- image ์์ ๊ฐ์ฒด๊ฐ ์์๋ฒํ ํ๋ณด๊ตฐ๋ค์ ์ต๋ ex) 2000๊ฐ ์ ์ ํจ
- ROI ์์ญ ์ถ์ถ⇒ ์ด ๋ 2000๊ฐ์ ์์ญ์ ๋ค ์ฌ์ฉํ์ง ์์(Hierarohical sampling)์ด๋ผ๊ณ ํจex) input image๊ฐ 2๊ฐ๊ณ , region์ด 128๋ก ์ก์๋ค๋ฉด 64๊ฐ์ ์์ญ๋ง ํ๋ณด ์์ญ์ผ๋ก ๊ฐ์ ธ๊ฐ
- ⇒ ํ ๋ฏธ๋ ๋ฐฐ์น ๋น์ ์ด๋ฏธ์ง๋งํผ ๋๋ ์ค ์ ๋ค๋ง ์ฌ์ฉํ๋ค
- CNN
- input image ํ ์ฅ์ ๊ทธ๋ฅ CNN ๊ตฌ์กฐ์ ๋ฃ์ด๋ฒ๋ฆผ (conv+pooling์ ๋ฐ๋ณต ๊ตฌ๊ฐ)
- CNN ๊ณ์ธต ๋ฐ๋ณตํ๋ค๊ฐ ๋ง์ง๋ง ๋ถ๋ถ์์์ ํ๋ง์ ROI pooling์ผ๋ก ์งํํจ
- ROI pooling⇒ SPP pooling์ ๋จ์ํ ์ํจ ๋ฐฉ๋ฒ⇒ max pooling์ ์ฌ์ฉํด 7x7 feature map ์ถ์ถํด์ ๊ณ ์ ํฌ๊ธฐ ๋ฒกํฐ๋ก ๋ง๋ฌ ๊ทธ๊ฑธ ๊ฐ์ํด์๋ผ๋ ์งํ (์๊ฐ ๋จ์ถ)
- ** add) ROI์ ํ๋ณด ์์ญ ํฌ๊ธฐ๋ค์ด ๋ค ๋ค์ํ๊ธฐ ๋๋ฌธ์, ์๋ฅผ ๋ค์ด nxm ์ ๊ฐ์ด ์ ์ฌ๊ฐํ์ด ์๋์ ๋ค์ ๊ฒฝ์ฐ 7x7์ ์์ญ์ผ๋ก ์ชผ๊ฐ๋ ๊ณผ์ ์์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅผ ์๋ ์์
- ⇒ SPP์ ๊ฒฝ์ฐ, 4x4 2x2 1x1๊ณผ ๊ฐ์ด 3๊ฐ์ pooling ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๋ฉด, ์ด ์น๊ตฌ๋ ํ ๋ฒ๋ง ์งํํ์
- FC Layers
- ์ดํ, FC layer์ ํ ๋ฒ ๊ฑฐ์น๊ณ , ๋ ๊ฐ์ ๊ฐ๋๋ก ๋๋
- ๊ฐ๊ฐ FC layer์ ๋ ๋ฒ ๋ ๊ฑฐ์น๊ณ 1) classification 2) Boundary boxes regression ์งํ
- Loss Function
- ์ด ์น๊ตฌ์ ๊ฒฝ์ฐ, classification loss์ bbox regressor loss๋ฅผ ์์ด์ ์ข ํฉ์ ์ธ loss๋ฅผ ๊ตฌํจ
- ์ด loss๊ฐ์ ์ด์ฉํด ์ญ์ ํ๋ฅผ ์งํํจ** classification: softmax๋ก ์ป์ด๋ธ ํ๋ฅ ๊ฐ๊ณผ ์ ๋ต๊ฐ์ ๋ํ loss
⇒ smooth L1์ ๋น ๋ฅธ ์๋๋ก loss๋ฅผ 0์ผ๋ก ์๋ ดํ๋ค๋ ํน์ง์ ์ง๋ (์๋ ๋น ๋ฅด๊ฒ)
- ** localization loss๋ x,y,w,h์ ๋ํ ์์ธก๊ฐ๊ณผ groundtruth(์ค์ ์ ๋ต๊ฐ)์ ์กฐ์ ์ ํตํด ๊ณ์ฐํด์ smooth L1 ํจ์๋ฅผ ํต๊ณผํ ๊ฐ์ด๋ผ๊ณ .
→ ์ด ์น๊ตฌ์ ๋ฌธ์ ์ :
R-CNN๊ณผ SPPNet๋ณด๋ค๋ ์ฑ๋ฅ์ด ์ข์ผ๋, test ๊ฒฐ๊ณผ๋ฅผ ๋ดค์ ๋, region proposal ๊ณผ selective search๋ฅผ ์งํํ ๋ ์๊ฐ ๋น์ค์ด ํผ (์๊ฐ ์ค๋ ๊ฑธ๋ฆผ)
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Faster R-CNN (0) | 2023.07.06 |
---|---|
YOLO: You Only Look Once: Unified, Real-Time Object Detection (1) | 2023.07.06 |
Transformer (0) | 2023.07.06 |
Inception V2/3 (0) | 2023.07.06 |
ELMO (0) | 2023.07.06 |