728x90 ๋ฐ์ํ CV15 YOLOv4: Optimal Speed and Accuracy of Object Detection ๐ก 0. Abstract CNN์ ์ ํ๋๋ฅผ ํฅ์์ํค๋ ๋ค์ํ ๊ธฐ๋ฅ์ด ๋ง์ด ์กด์ฌํฉ๋๋ค. ์ด๋ฌํ ๊ธฐ๋ฅ๋ค์ ์กฐํฉ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์ค์ ๋ก ํ ์คํธํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ก ์ ์ผ๋ก ์ ๋นํํ๋ ๊ฒ์ด ํ์ํฉ๋๋ค. ์ผ๋ถ ๊ธฐ๋ฅ์ ํน์ ๋ชจ๋ธ์ด๋ ๋ฌธ์ ์๋ง ์ ์ฉ๋๊ฑฐ๋ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์๋ง ์ ์ฉ๋ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ฐฐ์น ์ ๊ทํ(batch-normalization)์ ์์ฐจ ์ฐ๊ฒฐ(residual-connections)๊ณผ ๊ฐ์ ๊ธฐ๋ฅ์ ๋๋ถ๋ถ์ ๋ชจ๋ธ, ์์ ๋ฐ ๋ฐ์ดํฐ์ ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์ ํฌ๋ ๊ฐ์ค ์์ฐจ ์ฐ๊ฒฐ(Weighted-Residual-Connections, WRC), ํฌ๋ก์ค ์คํ ์ด์ง ๋ถ๋ถ ์ฐ๊ฒฐ(Cross-Stage-Partial-connections, CSP), ํฌ๋ก์ค ๋ฏธ๋ ๋ฐฐ์น ์ ๊ทํ(Cross mini-Batch Norma.. 2023. 7. 9. R-CNN 1. Intro R-CNN 'Rich feature hierarchies for accurate object detection and semantic segmentation'. R-CNN์ region proposals์ CNN์ด ๊ฒฐํฉ๋ Regions with CNN์ ์ฝ์๋ก ์ง์นญ (1) region proposals๋ก object ์์น๋ฅผ ์์๋ด๊ณ , ์ด๋ฅผ CNN์ ์ ๋ ฅํ์ฌ class๋ฅผ ๋ถ๋ฅ. (2) Larger data set์ผ๋ก ํ์ต๋ pre-trained CNN์ fine-tunning. 2. Overall architecture ์ ๋ ฅ ์ด๋ฏธ์ง์ Selective Search ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ bounding box(region proposal) 2000๊ฐ๋ฅผ ์ถ์ถ. ์ถ์ถ๋ bounding box๋ฅผ w.. 2023. 7. 6. SPPNet 1. Intro ๊ธฐ์กด์์๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ๋ฐ์์ ์? : FC layer์์ ๊ณ ์ ๊ธธ์ด ๋ฒกํฐ๋ง ๋ฐ์ ์ ์๊ธฐ ๋๋ฌธ ๋ฌธ์ ์ ? : ํฌ๊ธฐ๊ฐ ๋ค ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ ํ ์ฌ์ด์ฆ๋ก ํต์ผํด๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์ ์๊ณก์ด๋, ์๋ ์ฌ์ง๊ณผ ๊ฐ์ด ์๋ฆฌ๊ฑฐ๋ ์ด๋ฏธ์ง๊ฐ ๊ณ ์ฅ๋จ. ํ์ง๋ง? : ์ฌ์ค FC layer์ ๋ค์ด๊ฐ๊ธฐ ์ ๊น์ง๋ ์ฌ์ด์ฆ๊ฐ ์ ๊ฐ๊ฐ ์ด์ด๋ ๊ด์ฐฎ์ ๊ทธ๋์? : ์ด๋ฒ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ์ ์ ๋ณด์ํ “Saptial Pyramid Pooling layer”๋ฅผ ์ค๋ช . โป CNN์ด ๊ณ ์ ๋ ์ ๋ ฅ ํฌ๊ธฐ๋ฅผ ํ์๋ก ํ๋ ์ด์ CNN์ Convolutional layer + fc layer๋ก ์ด๋ฃจ์ด์ ธ ์์ ์ด๋ conv์ ๊ฒฝ์ฐ, sliding window ๋ฐฉ์์ผ๋ก ์ด๋ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ ๊ฒฝ์ฐ์ง ์์๋ ๋ชจ๋ .. 2023. 7. 6. Faster R-CNN 0. R-CNN ์ ๋ ฅ ์ด๋ฏธ์ง์ Selective Search ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ bounding box(region proposal) 2000๊ฐ๋ฅผ ์ถ์ถ. ์ถ์ถ๋ bounding box๋ฅผ warp(resize)ํ์ฌ CNN์ ์ ๋ ฅ. fine tunning ๋์ด ์๋ pre-trained CNN์ ์ฌ์ฉํ์ฌ bounding box์ 4096์ฐจ์์ ํน์ง ๋ฒกํฐ๋ฅผ ์ถ์ถ. ์ถ์ถ๋ ํน์ง ๋ฒกํฐ๋ฅผ SVM์ ์ด์ฉํ์ฌ class๋ฅผ ๋ถ๋ฅ. bounding box regression์ ์ ์ฉํ์ฌ bounding box์ ์์น๋ฅผ ์กฐ์ . non maximum supression์ ์งํ ⇒ ์ด ์น๊ตฌ์ ๋ฌธ์ ์ : 1) ๊ฐ๋๋ฆผ 2) ๋ค์ด๊ฐ ๋ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ๊ณ ์ ์ํค๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ์๊ณก๋จ 0. SPPNet R-CNN์ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋.. 2023. 7. 6. YOLO: You Only Look Once: Unified, Real-Time Object Detection 1. Intro What is objection Detection? object classification: ํ๋์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๊ทธ๊ฒ์ด ๊ฐ์ธ์ง ๊ณ ์์ธ์ง๋ฅผ ํ๋จ object localization: ํ๋์ ์ด๋ฏธ์ง ๋ด์์ ๊ฐ๋ ์ด๋์ ์์นํ๋์ง ํ๋จ → output: x,y,w,h object detection: ํ๋์ ์ด๋ฏธ์ง ๋ด์์ ์๋ก ๋ค๋ฅธ object๋ฅผ ๊ฐ๊ฐ ์ฐพ์๋ด๋ ๊ฒ ex) DPM, R-CNN one-stage vs two-stage detector one stage: localization+classification์ ๋์์ ์ํex) conv๋ฅผ ํต๊ณผํ ํ, ๊ฐ grid cell ๋ง๋ค classification๊ฒฐ๊ณผ์ bounding box regression์ ํตํด ๊ฒฐ๊ณผ ๋์ถ two stage:.. 2023. 7. 6. Fast R-CNN 0. Fast R-CNN ๊ทธ๋์ ๋์จ ์น๊ตฌ๊ฐ fast R-CNN Selective Search input image๋ฅผ ๊ฐ์ง๊ณ selective search ์งํ image ์์ ๊ฐ์ฒด๊ฐ ์์๋ฒํ ํ๋ณด๊ตฐ๋ค์ ์ต๋ ex) 2000๊ฐ ์ ์ ํจ ROI ์์ญ ์ถ์ถ⇒ ์ด ๋ 2000๊ฐ์ ์์ญ์ ๋ค ์ฌ์ฉํ์ง ์์(Hierarohical sampling)์ด๋ผ๊ณ ํจex) input image๊ฐ 2๊ฐ๊ณ , region์ด 128๋ก ์ก์๋ค๋ฉด 64๊ฐ์ ์์ญ๋ง ํ๋ณด ์์ญ์ผ๋ก ๊ฐ์ ธ๊ฐ ⇒ ํ ๋ฏธ๋ ๋ฐฐ์น ๋น์ ์ด๋ฏธ์ง๋งํผ ๋๋ ์ค ์ ๋ค๋ง ์ฌ์ฉํ๋ค CNN input image ํ ์ฅ์ ๊ทธ๋ฅ CNN ๊ตฌ์กฐ์ ๋ฃ์ด๋ฒ๋ฆผ (conv+pooling์ ๋ฐ๋ณต ๊ตฌ๊ฐ) CNN ๊ณ์ธต ๋ฐ๋ณตํ๋ค๊ฐ ๋ง์ง๋ง ๋ถ๋ถ์์์ ํ๋ง์ ROI pooling์ผ๋ก ์งํํจ ROI poo.. 2023. 7. 6. ์ด์ 1 2 3 ๋ค์ 728x90 ๋ฐ์ํ