728x90
๋ฐ์ํ

1. Intro
- ๊ธฐ์กด์์๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ๋ฐ์์
- ์? : FC layer์์ ๊ณ ์ ๊ธธ์ด ๋ฒกํฐ๋ง ๋ฐ์ ์ ์๊ธฐ ๋๋ฌธ
- ๋ฌธ์ ์ ? : ํฌ๊ธฐ๊ฐ ๋ค ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ ํ ์ฌ์ด์ฆ๋ก ํต์ผํด๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์ ์๊ณก์ด๋, ์๋ ์ฌ์ง๊ณผ ๊ฐ์ด ์๋ฆฌ๊ฑฐ๋ ์ด๋ฏธ์ง๊ฐ ๊ณ ์ฅ๋จ.
- ํ์ง๋ง? : ์ฌ์ค FC layer์ ๋ค์ด๊ฐ๊ธฐ ์ ๊น์ง๋ ์ฌ์ด์ฆ๊ฐ ์ ๊ฐ๊ฐ ์ด์ด๋ ๊ด์ฐฎ์
- ๊ทธ๋์? : ์ด๋ฒ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ์ ์ ๋ณด์ํ “Saptial Pyramid Pooling layer”๋ฅผ ์ค๋ช .
โป CNN์ด ๊ณ ์ ๋ ์ ๋ ฅ ํฌ๊ธฐ๋ฅผ ํ์๋ก ํ๋ ์ด์- CNN์ Convolutional layer + fc layer๋ก ์ด๋ฃจ์ด์ ธ ์์
- ์ด๋ conv์ ๊ฒฝ์ฐ, sliding window ๋ฐฉ์์ผ๋ก ์ด๋ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ ๊ฒฝ์ฐ์ง ์์๋ ๋ชจ๋ ํฌ๊ธฐ์ feature map์ ์์ฑํจ (์์ผ๋ก ์ด๋ํ๋ฉด์). ๋ฐ๋ผ์ ๊ณ ์ ์ด ํ์์์
- ๋ฐ๋ฉด fc์ ๊ฒฝ์ฐ, ์ ์๋ ๋ฒ์น์ ๋ฐ๋ผ ๊ณ ์ ํฌ๊ธฐ/๊ธธ์ด๊ฐ input์ผ๋ก ๋ค์ด์์ผ ํจ.
- ๋ฐ๋ผ์, CNN ์ ์ฝ์ FC์์๋ง ๋ฐ์ํจ.
- (๊ทธ๋์ ๋ ผ๋ฌธ์์๋ conv + spatial pyramid pooling + fc layer)์ ์์๋ก ์งํํจ.
2. Overall architecture


- Selective Search
- input image๋ฅผ ๊ฐ์ง๊ณ selective search ์งํ
- image ์์ ๊ฐ์ฒด๊ฐ ์์๋ฒํ ํ๋ณด๊ตฐ๋ค์ 2000๊ฐ ์ ์ ํจ
- CNN
- input image ํ ์ฅ์ ๊ทธ๋ฅ CNN ๊ตฌ์กฐ์ ๋ฃ์ด๋ฒ๋ฆผ (conv+pooling์ ๋ฐ๋ณต ๊ตฌ๊ฐ)
- CNN ๊ณ์ธต ๋ฐ๋ณตํ๋ค๊ฐ ๋ง์ง๋ง ๋ถ๋ถ์์์ ํ๋ง์ SPP pooling์ผ๋ก ๋ฐ๊ฟ๋ฒ๋ฆผ
- SPP Pooling
- ์์์ ์ถ์ถํ 2000๊ฐ์ ์์ญ์ ๊ฐ์ ธ์ด.
- ์ดํ, 4*4 , 2*2, 1*1 ํฌ๊ธฐ์ max pooling์ ์งํํจ.
- ์งํํด์ 1์ฐจ์ ๋ฒกํฐ ํฌ๊ธฐ๋ก ์ด์ด ๋ถ์ฌ์ค
- ๊ทธ๋ ๊ฒ ๋๋ฉด ์ด 21๊ฐ์ bin์ด ๋์ด. (๊ณ ์ ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ ๋ ๊ฒ์
- ์ดํ ์๋ค๋ฅผ FC layer์ ์ง์ด๋ฃ์. (๊ฐ์ค์น o)
- FC layer์ ํ ๋ฒ์ฉ ๋ ๋ฃ๊ณ SVM์ ํตํด ํด๋น ๋ฒกํฐ์ ๊ฐ์ฒด์ ์ ๋ฌด(classification) ์งํ
- ์ถ๊ฐ์ ์ผ๋ก, Boundary Boxes Regressor ์งํํด์ bounding box์ ํฌ๊ธฐ๋ฅผ ์๋ง๊ฒ ์กฐ์ (๊ฐ์ฒด ์์น์ ์๋ ๊ณณ์ผ๋ก)ํ ํ, non maximum suppression์ ํตํด ์ต์ข bounding box๋ฅผ ์ ๋ณ!
3. Spatial Pyramid Pooling Layer

- ์์์ selective search๋ฅผ ํตํด์ ์ถ์ถํ ์์ญ์ธ ROI (window) (max 2000๊ฐ)๋ฅผ ํ์ฉํจ

- ์ดํ, ํ ์์ญ์ ๋ํด์ ์ฌ์ง์ 4*4, 2*2, 1*1๋ก ๋ถํ ํจ.
- ๊ทธ๋ค์ 1์ฐจ์ ๋ฒกํฐ (1์ค๋ก ๋ถ์ฌ๋ฒ๋ฆผ)๋ก ๋ง๋ค์ด์ ๊ณ ์ ํฌ๊ธฐ์ ๋ฒกํฐ๋ก ๋ง๋ฌ.
- ์ด ์ต๋ 2000๊ฐ์ 1์ฐจ์ ๋ฒกํฐ๊ฐ ๋์ค๋ ๊ฒ์ ํ์ธํ ์ ์์
- ์๋ค๋ค์ FC layer์ ๋ฃ์ด์ ๊ฐ์ค์น ๊ณฑํด์ ๊ฐ ์ถ์ถ
4. SVM
- ๊ฐ์ฒด๊ฐ ์๋์ง ์๋ ์ง๋ฅผ ๋ถ๋ฅํด์ฃผ๋ classification
- FC์์ ๊ด๋ จ ์ ๋ณด๊ฐ ๋ค์ด์์ ๊ฒ์ ( ํด๋น ์์น ์ ๋ณด ๊ฐ์ )
- SVM์ ํ์ฉํด์ ํด๋น fc๋ฅผ ํตํด ๋ฝ์ ์ ๋ณด์ ๊ฐ์ฒด๊ฐ ์๋ ์๋๋ฅผ ๋ถ๋ฅ
5. Boundary Boxes Regressor
6. Outro


- R-CNN์ ๊ฒฝ์ฐ, 2000๊ฐ๋ฅผ ๋ฝ๊ณ ์ ์ ํฌ๊ธฐ (227x227)๋ก warping ํด์คฌ์(projection) → ์ด๊ฒ ๋ฐ๋ก ๋ฌธ์ ์ !
- ๊ทธ๋์ SPPNet์ ๊ฒฝ์ฐ, ํฌ๊ธฐ ์กฐ์ ์ ํ์ง ์๋๋ค
- R-CNN๊ณผ ๋ฌ๋ฆฌ ํ๋์ ์ด๋ฏธ์ง๊ฐ ํต์งธ๋ก ๋ค์ด๊ฐ ⇒ ์๋ ๋น ๋ฆ
- back propagation์ด ์๋จ (๊ฐ์ค์น๋ FC)์๋ง ์กด์ฌํจ
- fine tuning ์์ spp๋ฅผ ๊ฑฐ์น๊ธฐ ์ด์ ์ conv ๋ ์ด์ด๋ค์ ํ์ต์ํค์ง ๋ชปํจ. fc layer๋ง ํ์ต์ํฌ ์ o
- e
nd-to-end ๊ฐ ์๋ ( ์ ๋ ฅ์์ ์ถ๋ ฅ์ผ๋ก ํ๋ฒ์ ์ฐ๊ฒฐ์ด ์๋๋ค๋ ๋ป) ์ฌ์ค ์ ๋ชจ๋ฅด๊ฒ์
7. Reference
https://bkshin.tistory.com/entry/๋ ผ๋ฌธ-๋ฆฌ๋ทฐ-SPP-net-ํบ์๋ณด๊ธฐ
https://rahites.tistory.com/78
https://inhovation97.tistory.com/68
https://inhovation97.tistory.com/68?category=997272
https://n1094.tistory.com/30
https://blackchopin.github.io/imagerecognition/Pyramid_pooling/
https://velog.io/@whiteamericano/R-CNN-์-์์๋ณด์
https://velog.io/@syj1031/SPPNet-paper-review
https://mainpower4309.tistory.com/27
https://better-tomorrow.tistory.com/entry/Bounding-box-regression
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
GAN: Generative Adversarial Nets (0) | 2023.07.06 |
---|---|
AE (0) | 2023.07.06 |
Faster R-CNN (0) | 2023.07.06 |
YOLO: You Only Look Once: Unified, Real-Time Object Detection (1) | 2023.07.06 |
Fast R-CNN (0) | 2023.07.06 |