1. Intro
What is objection Detection?

- object classification: ํ๋์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๊ทธ๊ฒ์ด ๊ฐ์ธ์ง ๊ณ ์์ธ์ง๋ฅผ ํ๋จ
- object localization: ํ๋์ ์ด๋ฏธ์ง ๋ด์์ ๊ฐ๋ ์ด๋์ ์์นํ๋์ง ํ๋จ โ output: x,y,w,h
- object detection: ํ๋์ ์ด๋ฏธ์ง ๋ด์์ ์๋ก ๋ค๋ฅธ object๋ฅผ ๊ฐ๊ฐ ์ฐพ์๋ด๋ ๊ฒ ex) DPM, R-CNN
one-stage vs two-stage detector


- one stage: localization+classification์ ๋์์ ์ํex) conv๋ฅผ ํต๊ณผํ ํ, ๊ฐ grid cell ๋ง๋ค classification๊ฒฐ๊ณผ์ bounding box regression์ ํตํด ๊ฒฐ๊ณผ ๋์ถ
- two stage: localization โ classification ์์ฐจ์ ์ผ๋ก ์งํ ex) DPM, R-CNNex) region proposal์ ํตํด ๋จผ์ ํ๋ณด box ์ถ์ถํ๊ณ , classification๊ฒฐ๊ณผ์ bounding box regression์ ํตํด ๊ฒฐ๊ณผ ๋์ถ
- DPM(deformable parts models): ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๊ฑฐ์ณ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ผ๋ก ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ
- R-CNN: bounding box ์์ฑ ํ, classification & regression โ (์ค๋ณต์ ๊ฑฐ) non maximum suppression
โ ๋๋ฆฌ๋ค. ์ต์ ํํ๊ธฐ ์ด๋ ค์
โป Yolo: ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ ๋ณด๋ ๊ฒ์ผ๋ก object์ ์ข ๋ฅ์ ์์น๋ฅผ ์ถ์ธก

2. Overall architecture


- 24๊ฐ Conv + 2๊ฐ FC layers
- input์ผ๋ก image ๋ฃ์
- Conv๋ฅผ ํตํด ๋์จ ํผ์ฒ๋ค์ ์ด์ฉํด ์งํ
- 7x7 49๊ฐ์ grid cell์ ๊ฐ๋๋ฐ, ์ฌ๊ธฐ์ ๊ฐ 2๊ฐ์ฉ์ bounding box๋ฅผ ๋ฝ์๋
- ์ด๋, box ํ๋๋น 5๊ฐ์ ๊ฐ์ด ์ฑ์์ง (x,y,w,h,c)
- ์ด 10๊ฐ์ ๊ฐ์ด ๋์ด
- ๊ทธ๋ฆฌ๊ณ ๋๋จธ์ง 20๊ฐ์ ๊ฐ์ 20๊ฐ์ class์ ๋ํ conditional class probability
- ์ดํ, ๊ธฐ์กด์ ๊ฐ box์ ๋ํ conifdence score์ conditional class probablility๋ฅผ ๊ณฑํด์ค
- ๊ทธ๋ ๊ฒ ๋๋ฉด ๊ฒฐ๊ตญ 49๊ฐ์ grid์ 2๊ฐ์ฉ bounding box๊ฐ ์์ฑ๋๋ฏ๋ก ์ด 98๊ฐ์ bounding box๊ฐ ์์ฑ.
- ์ฆ, 98๊ฐ์ class specific confidence score์ ์ป๊ฒ๋จ
- ์ด 98๊ฐ์ score์ ๋ํด 20๊ฐ ํด๋์ค๋ฅผ ๊ธฐ์ค์ผ๋ก ์ค๋ณต ์ ๊ฑฐ(non maximum suppression)์ ํด์ object์ ๋ํ class ๋ฐ bounding box ์์น๋ฅผ ์ต์ข ๊ฒฐ์
3. Unified Detection

- ์ด๋ฏธ์ง๋ก๋ถํฐ ์ป์ feature map์ ํ์ฉํด์ bbox ์์ธก + ๋ชจ๋ ํด๋์ค์ ๋ํ ํ๋ฅ ๊ณ์ฐ (๋ณ๋ ฌ์ ์ผ๋ก ์งํ ๋๋ค๊ณ ๋ ผ๋ฌธ์์ ํํ)

- ๋ ผ๋ฌธ์์๋ 7x7๋ก ๋์ด
- 4x4 grid๋ก ๋ถํ ํ, ๊ฐ grid cell๋ง๋ค bbox 2๊ฐ์ฉ ์์ธก
- ์ด๋, ํ box ๋น 5๊ฐ์ ๋ํ ๊ฐ์ ๊ฐ๊ฒ ๋๋๋ฐ, x,y,w,h,c์ ๊ฐ์ด ๋์ด
- x,y: ์ค์ฌ์ขํ ์์น / w,h: box์ ๊ฐ๋ก์ ๋์ด ( ์ ํํ ๋งํ์๋ฉด ์๋ ์ด๋ฏธ์ง์ W,H๋ก ๋๋ ์ 0~1 ์ฌ์ด ๊ฐ์ ๊ฐ๋๋ก ์ค์ )

- ๋ฌผ์ฒด๊ฐ bbox ์์ ์์ ๋, grid cell์ ์๋ object๊ฐ i๋ฒ์งธ class์ ์ํ ํ๋ฅ ๊ฐ ( class: 20๊ฐ )ex) ๊ณ ์์ด: 0.88 ๊ฐ์์ง: 0.01 ์: 0.005

4. Network Design - GoogleNet
5. Training

- ์์ธก๋ ์ฌ๋ฌ bounding box ์ค ์ค์ ๊ฐ์ฒด๋ฅผ ๊ฐ์ธ๋ ground-truth boudning box์์ IOU๊ฐ ๊ฐ์ฅ ํฐ ๊ฒ์ ์ ํ
- YOLO์ ๊ฒฝ์ฐ, ํ์ต ๋จ๊ณ์์๋ IOU๊ฐ ๊ฐ์ฅ ๋์ bbox 1๊ฐ ๋ง์ ์ฌ์ฉ
ex) ๋ ธ๋์ ๋ฐ์ค + ํ๋์ ๋ฐ์ค โ conv๋ฅผ ํตํด ์ป์ box
โ groundbox(๋นจ๊ฐ์) ๋ฐ์ค์ ๋ ธ๋orํ๋ ์ค ๋ ๊ฒน์น๋ ์ ๋ฅผ ์ ํ
โ ์ฌ๊ธฐ์๋ ๋ ธ๋์ ๋ฐ์ค๋ฅผ ์ ํํ๊ฒ ๋จ โ 1๊ฐ ์ ์

- ์ดํ, ๋ ธ๋์ box๋ฅผ ์ ํํ์ผ๋ฏ๋ก ํด๋น scaler ๊ฐ์ 1๋ก ํ์(๊ฐ์ฒด๊ฐ ์์ผ๋ฏ๋ก)
- ํ๋์์ ๊ฒฝ์ฐ 0์ผ๋ก ํ์ ( loss function์์ loss ์ ํx )
6. Loss Function(train)


- Mean Squared Error (์ ๊ณฑํฉ ์๋ฌ ์ฌ์ฉ)
(1) Object๊ฐ ์กด์ฌํ๋ grid cell i์ predictor bounding box j์ ๋ํด, x์ y์ loss๋ฅผ ๊ณ์ฐ
(2) Object๊ฐ ์กด์ฌํ๋ grid cell i์ predictor bounding box j์ ๋ํด, w์ h์ loss๋ฅผ ๊ณ์ฐ
(3) Object๊ฐ ์กด์ฌํ๋ grid cell i์ predictor bounding box j์ ๋ํด, confidence score์ loss๋ฅผ ๊ณ์ฐ
(4) Object๊ฐ ์กด์ฌํ์ง ์๋ grid cell i์ bounding box j์ ๋ํด, confidence score์ loss๋ฅผ ๊ณ์ฐ
(5) Object๊ฐ ์กด์ฌํ๋ grid cell i์ ๋ํด, conditional class probability์ loss ๊ณ์ฐ
- ฮปcoord : coordinates(x,y,w,h)์ ๋ํ loss์ ๋ค๋ฅธ loss๋ค๊ณผ์ ๊ท ํ์ ์ํ balancing parameter
- ฮปnoobj : obj๊ฐ ์๋ box์ ์๋ box๊ฐ์ ๊ท ํ์ ์ํ balancing parameterโ ์ด๋ค loss๋ฅผ ๋ ๋ง์ด ๋ฐ์ํ ๊ฒ์ธ๊ฐ( ๊ฐ์ค์น์ ๊ฐ๋ )
โป grid cell์ object๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ์ predictor box๋ก ์ ์ ๋ ๊ฒฝ์ฐ์๋ง ์ค์ฐจ๋ฅผ ํ์ต์ํด
- ๊ทธ๋ฆฌ๋ ์ ์ ๊ฐ์ฒด๊ฐ ์๋ค๋ฉด confidence score=0. ์ฌ์ค์ ๋๋ถ๋ถ์ ๊ทธ๋ฆฌ๋ ์ ์ confidence socre=0์ด ๋๋๋ก ํ์ตํ ์๋ฐ์ ์์ โ ๋ชจ๋ธ ๋ถ๊ท ํ ์ด๋
- ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ๊ฐ์ฒด๊ฐ ์กด์ฌํ๋ bounding box ์ขํ(coordinate)์ ๋ํ loss์ ๊ฐ์ค์น๋ฅผ ์ฆ๊ฐ์ํค๊ณ , ๊ฐ์ฒด๊ฐ ์กด์ฌํ์ง ์๋ bounding box์ confidence loss์ ๋ํ ๊ฐ์ค์น๋ ๊ฐ์์
7. Inference Stage(test)

โป class-specific confidence score
- confidence score x 20๊ฐ์ ํด๋์ค ํ๋ฅ ์ ๊ณฑํ ๊ฐ๋ค์ bbox์ ๋ฃ์

- 7x7, 49๊ฐ์ grid cell, ํ๋์ cell ๋น 2๊ฐ์ box๊ฐ ์์ฑ๋๊ธฐ์ ์ด 98๊ฐ์ bbox๊ฐ ์์ฑ๋จ (ํ์ต์์๋ 49๊ฐ๊ฐ ์์ฑ)
- bbox1: bbox1์ ๋ํ ์ขํ๊ฐ(x,y,w,h,c)+ class-specific confidence score๊ฐ ํ๋์ bbox1์ด ๋๋ ๊ฒ์
โ ์ด๋ ๊ฒ ๋๋ฉด ํ๋์ ์ด๋ฏธ์ง ๋น 98๊ฐ์ box๊ฐ ์์ฑ๋๋ฏ๋ก box๊ฐ ์์ฒญ๋๊ฒ ๋ง๊ธฐ์ NMS ์ ์ฉ์ํด. (ํ ์คํธ์)
โ ์ค๋ณต ์์ญ์ด ์๊ณ , IOU ๊ฐ์ด ๊ฐ์ฅ ๋์ ์ต์ข bbox 1๊ฐ๋ง์ ๋จ๊ธฐ๊ฒ ๋จ.
8. Comparison to other Systems (vs YOLO)
- DPM
- R-CNN
- Deep MultiBox
- OverFeat
- MultiGrasp
9. Experiments

- ๋ค๋ฅธ real-time object detect system๋ค์ ๋นํด ๋์ mAP๋ฅผ ๋ณด์ฌ์ค
- Fast YOLO์ ๊ฒฝ์ฐ ๊ฐ์ฅ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์ค

- Fast R-CNN๊ณผ ๋น๊ตํ์ , ํจ์ฌ ์ ์ False-Positive๋ฅผ ๋ณด์ฌ์ค. (low backgound error)โ background์ ์๋ฌด๊ฒ๋ ์๋๋ฐ ์๋ค๊ณ ํ๋ ํ๋ฅ ์ ์ค์ธ ๊ฒ์ ๋งํจ

- Fast R-CNN๊ณผ YOLO๋ฅผ combine ํ์ ๋ 3.2% ๋ ์ฆ๊ฐํ์ โ ํจ๊ณผ๊ฐ ๋ ์ข์๋ค!

- ๊ทธ๋ฆผ ์์ ์๋ ๊ฐ์ฒด๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ ์์ด์ YOLO์ ๋นํด ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ํ์ ํ ๋จ์ด์ง์ ํ์ธํ ์ ์์
10. Outro
- YOLO์ ํ๊ณ
- ๊ฐ๊ฐ์ grid cell์ด ํ๋์ ํด๋์ค๋ง์ ์์ธกํ ์ ์์ผ๋ฏ๋ก, ์์ object ์ฌ๋ฌ๊ฐ๊ฐ ๋ค๋ฅ๋ค๋ฅ ๋ถ์ผ๋ฉด ์ ๋๋ก ์์ธกํ์ง ๋ชปํจ.
- bounding box์ ํํ๊ฐ training data๋ฅผ ํตํด์๋ง ํ์ต๋๋ฏ๋ก, ์๋ก์ด/๋ ํนํ ํํ์ ๋น์จ์ ๊ฐ์ง bbox ์ ๊ฒฝ์ฐ ์ ํํ ์์ธกํ์ง ๋ชปํจ.ex) 1:1, 1:2, 2:1 ๋น์จ์ bounding box๋ง ํ์ตํ๋๋ฐ, 3:1 ๋น์จ์ box๋ฅผ ํ ์คํธํ๋ฉด ํ์งํ์ง ๋ชปํจ
- ๋ช ๋จ๊ณ์ layer๋ฅผ ๊ฑฐ์ณ์ ๋์จ feature map์ ๋์์ผ๋ก bouding box๋ฅผ ์์ธกํ๋ฏ๋ก localization์ด ๋ค์ ๋ถ์ ํํด์ง๋ ๊ฒฝ์ฐ๊ฐ ์๋ค. (R-CNN์ ๊ฒฝ์ฐ, ์ฒ์๋ถํฐ Region proposal ์งํ)
- ์์ ๋ฌผ์ฒด์ ๋ํด์ ํ์ง ์ฑ๋ฅ์ด ๋ฎ๋ค ex) object๊ฐ ํฌ๊ณ , BBox๊ฐ ํฐ ๊ฒฝ์ฐ, bbox์ ์์น ์ค์ฐจ๊ฐ ์กฐ๊ธ ์ปค์ ธ๋ ์ฌ์ ํ object์ bbox์ ๊ฒน์น๋ ์์ญ์ด ๋ง๊ธฐ ๋๋ฌธ์ IOU๋ ์ฌ์ ํ ๋์ง๋ง, object๊ฐ ์์ผ๋ฉด, bbox๊ฐ ์๊ฒ ์์ฑ์ด ๋ ํ ๋ฐ, ์ด ๊ฒฝ์ฐ์๋ bbox์ ์์น ์ค์ฐจ๊ฐ ์กฐ๊ธ๋ง ์ปค์ ธ๋ object์ bbox๊ฐ ๊ฒน์น๋ ์์ญ์ด ์ ์ด์ง๊ฒ ๋๋ฌธ์ IOU ๊ฐ์ด ๋น ๋ฅด๊ฒ ๊ฐ์ํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
SPPNet (0) | 2023.07.06 |
---|---|
Faster R-CNN (0) | 2023.07.06 |
Fast R-CNN (0) | 2023.07.06 |
Transformer (0) | 2023.07.06 |
Inception V2/3 (0) | 2023.07.06 |