๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[๋…ผ๋ฌธ] Paper Review

SPPNet

by ์ œ๋ฃฝ 2023. 7. 6.
728x90
๋ฐ˜์‘ํ˜•

 

 

1. Intro
  • ๊ธฐ์กด์—์„œ๋Š” ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ input์œผ๋กœ ๋ฐ›์•˜์Œ
    1. ์™œ? : FC layer์—์„œ ๊ณ ์ •๊ธธ์ด ๋ฒกํ„ฐ๋งŒ ๋ฐ›์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ
    1. ๋ฌธ์ œ์ ? : ํฌ๊ธฐ๊ฐ€ ๋‹ค ๋‹ค๋ฅธ ์ด๋ฏธ์ง€๋ฅผ ํ•œ ์‚ฌ์ด์ฆˆ๋กœ ํ†ต์ผํ•ด๋ฒ„๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฏธ์ง€์˜ ์™œ๊ณก์ด๋‚˜, ์•„๋ž˜ ์‚ฌ์ง„๊ณผ ๊ฐ™์ด ์ž˜๋ฆฌ๊ฑฐ๋‚˜ ์ด๋ฏธ์ง€๊ฐ€ ๊ณ ์žฅ๋‚จ.
    1. ํ•˜์ง€๋งŒ? : ์‚ฌ์‹ค FC layer์— ๋“ค์–ด๊ฐ€๊ธฐ ์ „๊นŒ์ง€๋Š” ์‚ฌ์ด์ฆˆ๊ฐ€ ์ œ๊ฐ๊ฐ ์ด์–ด๋„ ๊ดœ์ฐฎ์Œ
    1. ๊ทธ๋ž˜์„œ? : ์ด๋ฒˆ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ์„ ๋ณด์™„ํ•œ “Saptial Pyramid Pooling layer”๋ฅผ ์„ค๋ช….
    โ€ป CNN์ด ๊ณ ์ •๋œ ์ž…๋ ฅ ํฌ๊ธฐ๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š” ์ด์œ 
    • CNN์€ Convolutional layer + fc layer๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Œ
    • ์ด๋•Œ conv์˜ ๊ฒฝ์šฐ, sliding window ๋ฐฉ์‹์œผ๋กœ ์ด๋™ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋ฅผ ์‹ ๊ฒฝ์“ฐ์ง€ ์•Š์•„๋„ ๋ชจ๋“  ํฌ๊ธฐ์˜ feature map์„ ์ƒ์„ฑํ•จ (์˜†์œผ๋กœ ์ด๋™ํ•˜๋ฉด์„œ). ๋”ฐ๋ผ์„œ ๊ณ ์ •์ด ํ•„์š”์—†์Œ
    • ๋ฐ˜๋ฉด fc์˜ ๊ฒฝ์šฐ, ์ •์˜๋œ ๋ฒ•์น™์— ๋”ฐ๋ผ ๊ณ ์ • ํฌ๊ธฐ/๊ธธ์ด๊ฐ€ input์œผ๋กœ ๋“ค์–ด์™€์•ผ ํ•จ.
    • ๋”ฐ๋ผ์„œ, CNN ์ œ์•ฝ์€ FC์—์„œ๋งŒ ๋ฐœ์ƒํ•จ.
    • (๊ทธ๋ž˜์„œ ๋…ผ๋ฌธ์—์„œ๋Š” conv + spatial pyramid pooling + fc layer)์˜ ์ˆœ์„œ๋กœ ์ง„ํ–‰ํ•จ.
2. Overall architecture
  1. Selective Search
    1. input image๋ฅผ ๊ฐ€์ง€๊ณ  selective search ์ง„ํ–‰
    1. image ์•ˆ์— ๊ฐ์ฒด๊ฐ€ ์žˆ์„๋ฒ•ํ•œ ํ›„๋ณด๊ตฐ๋“ค์„ 2000๊ฐœ ์„ ์ •ํ•จ
  1. CNN
    1. input image ํ•œ ์žฅ์„ ๊ทธ๋ƒฅ CNN ๊ตฌ์กฐ์— ๋„ฃ์–ด๋ฒ„๋ฆผ (conv+pooling์˜ ๋ฐ˜๋ณต ๊ตฌ๊ฐ„)
    1. CNN ๊ณ„์ธต ๋ฐ˜๋ณตํ•˜๋‹ค๊ฐ€ ๋งˆ์ง€๋ง‰ ๋ถ€๋ถ„์—์„œ์˜ ํ’€๋ง์„ SPP pooling์œผ๋กœ ๋ฐ”๊ฟ”๋ฒ„๋ฆผ
  1. SPP Pooling
    1. ์•ž์—์„œ ์ถ”์ถœํ•œ 2000๊ฐœ์˜ ์˜์—ญ์„ ๊ฐ€์ ธ์˜ด.
    1. ์ดํ›„, 4*4 , 2*2, 1*1 ํฌ๊ธฐ์˜ max pooling์„ ์ง„ํ–‰ํ•จ.
    1. ์ง„ํ–‰ํ•ด์„œ 1์ฐจ์› ๋ฒกํ„ฐ ํฌ๊ธฐ๋กœ ์ด์–ด ๋ถ™์—ฌ์คŒ
    1. ๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด ์ด 21๊ฐœ์˜ bin์ด ๋‚˜์˜ด. (๊ณ ์ •ํฌ๊ธฐ์˜ ๋ฒกํ„ฐ๊ฐ€ ๋  ๊ฒƒ์ž„
  1. ์ดํ›„ ์–˜๋„ค๋ฅผ FC layer์— ์ง‘์–ด๋„ฃ์Œ. (๊ฐ€์ค‘์น˜ o)
  1. FC layer์— ํ•œ ๋ฒˆ์”ฉ ๋” ๋„ฃ๊ณ  SVM์„ ํ†ตํ•ด ํ•ด๋‹น ๋ฒกํ„ฐ์— ๊ฐ์ฒด์˜ ์œ ๋ฌด(classification) ์ง„ํ–‰
  1. ์ถ”๊ฐ€์ ์œผ๋กœ, Boundary Boxes Regressor ์ง„ํ–‰ํ•ด์„œ bounding box์˜ ํฌ๊ธฐ๋ฅผ ์•Œ๋งž๊ฒŒ ์กฐ์ •(๊ฐ์ฒด ์œ„์น˜์— ์žˆ๋Š” ๊ณณ์œผ๋กœ)ํ•œ ํ›„, non maximum suppression์„ ํ†ตํ•ด ์ตœ์ข… bounding box๋ฅผ ์„ ๋ณ„!
3. Spatial Pyramid Pooling Layer
  • ์•ž์—์„œ selective search๋ฅผ ํ†ตํ•ด์„œ ์ถ”์ถœํ•œ ์˜์—ญ์ธ ROI (window) (max 2000๊ฐœ)๋ฅผ ํ™œ์šฉํ•จ
  • ์ดํ›„, ํ•œ ์˜์—ญ์— ๋Œ€ํ•ด์„œ ์‚ฌ์ง„์„ 4*4, 2*2, 1*1๋กœ ๋ถ„ํ• ํ•จ.
  • ๊ทธ๋‹ค์Œ 1์ฐจ์› ๋ฒกํ„ฐ (1์ค„๋กœ ๋ถ™์—ฌ๋ฒ„๋ฆผ)๋กœ ๋งŒ๋“ค์–ด์„œ ๊ณ ์ •ํฌ๊ธฐ์˜ ๋ฒกํ„ฐ๋กœ ๋งŒ๋“ฌ.
  • ์ด ์ตœ๋Œ€ 2000๊ฐœ์˜ 1์ฐจ์› ๋ฒกํ„ฐ๊ฐ€ ๋‚˜์˜ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Œ
  • ์–˜๋„ค๋“ค์„ FC layer์— ๋„ฃ์–ด์„œ ๊ฐ€์ค‘์น˜ ๊ณฑํ•ด์„œ ๊ฐ’ ์ถ”์ถœ
4. SVM
  • ๊ฐ์ฒด๊ฐ€ ์žˆ๋Š”์ง€ ์—†๋Š” ์ง€๋ฅผ ๋ถ„๋ฅ˜ํ•ด์ฃผ๋Š” classification
  • FC์•ˆ์— ๊ด€๋ จ ์ •๋ณด๊ฐ€ ๋“ค์–ด์žˆ์„ ๊ฒƒ์ž„ ( ํ•ด๋‹น ์œ„์น˜ ์ •๋ณด ๊ฐ™์€ )
  • SVM์„ ํ™œ์šฉํ•ด์„œ ํ•ด๋‹น fc๋ฅผ ํ†ตํ•ด ๋ฝ‘์€ ์ •๋ณด์— ๊ฐ์ฒด๊ฐ€ ์žˆ๋‚˜ ์—†๋‚˜๋ฅผ ๋ถ„๋ฅ˜
5. Boundary Boxes Regressor
  • ์‹ค์ œ ์œ„์น˜์™€ ์˜ˆ์ธกํ•œ box ์œ„์น˜ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ขํ˜€์ฃผ๋Š” ์—ญํ• 
  • ์ฆ‰, predicted box๊ฐ€ ground truth box์™€ ์œ ์‚ฌํ•˜๋„๋ก ํ•™์Šต ์‹œํ‚ด
  • G: ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ๊ฐ€์ ธ์˜จ ์ด๋ฏธ์ง€
6. Outro
  • R-CNN์˜ ๊ฒฝ์šฐ, 2000๊ฐœ๋ฅผ ๋ฝ‘๊ณ  ์ ์ • ํฌ๊ธฐ (227x227)๋กœ warping ํ•ด์คฌ์Œ(projection) → ์ด๊ฒŒ ๋ฐ”๋กœ ๋ฌธ์ œ์ !
  • ๊ทธ๋ž˜์„œ SPPNet์˜ ๊ฒฝ์šฐ, ํฌ๊ธฐ ์กฐ์ •์„ ํ•˜์ง€ ์•Š๋Š”๋‹ค

 

  • R-CNN๊ณผ ๋‹ฌ๋ฆฌ ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€๊ฐ€ ํ†ต์งธ๋กœ ๋“ค์–ด๊ฐ ⇒ ์†๋„ ๋น ๋ฆ„
  • back propagation์ด ์•ˆ๋จ (๊ฐ€์ค‘์น˜๋Š” FC)์—๋งŒ ์กด์žฌํ•จ
    • fine tuning ์‹œ์— spp๋ฅผ ๊ฑฐ์น˜๊ธฐ ์ด์ „์˜ conv ๋ ˆ์ด์–ด๋“ค์„ ํ•™์Šต์‹œํ‚ค์ง€ ๋ชปํ•จ. fc layer๋งŒ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ o
  • end-to-end ๊ฐ€ ์•„๋‹˜ ( ์ž…๋ ฅ์—์„œ ์ถœ๋ ฅ์œผ๋กœ ํ•œ๋ฒˆ์— ์—ฐ๊ฒฐ์ด ์•ˆ๋œ๋‹ค๋Š” ๋œป) ์‚ฌ์‹ค ์ž˜ ๋ชจ๋ฅด๊ฒŸ์Œ
7. Reference
728x90
๋ฐ˜์‘ํ˜•

'Deep Learning > [๋…ผ๋ฌธ] Paper Review' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

GAN: Generative Adversarial Nets  (0) 2023.07.06
AE  (0) 2023.07.06
Faster R-CNN  (0) 2023.07.06
YOLO: You Only Look Once: Unified, Real-Time Object Detection  (1) 2023.07.06
Fast R-CNN  (0) 2023.07.06