1. Intro
- Class Imbalance๋→ ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ ํด๋์ค์ ์ํ ์๊ฐ ๋ถ๊ท ํํ ์ํฉ์ ์๋ฏธํจ.→ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ํ ํด๋์ค์ ๋ํ ์ํ ์๊ฐ ๋ค๋ฅธ ํด๋์ค์ ๋นํด ๋งค์ฐ ์ ์ ๊ฒฝ์ฐ(class imbalance), ์ด๋ฌํ ๋ฌธ์ ๊ฐ ๋ฐ์.
- → ์๋ฅผ ๋ค์ด, ์ง๋ณ ์ ๋ฌด๋ฅผ ํ๋จํ๋ ๋ถ๋ฅ ๋ฌธ์ ์์, ๊ฑด๊ฐํ ์ฌ๋์ด ๋๋ถ๋ถ์ด๊ณ , ์ง๋ณ์ ๊ฐ์ง ์ฌ๋์ ์๊ฐ ๋งค์ฐ ์ ๋ค๋ฉด(class imbalance), ์ด๋ฌํ ๋ฌธ์ ๊ฐ ๋ฐ์ํจ.
- → ์ฆ, ํ ํด๋์ค์ ์ํ ์ํ ์๊ฐ ๋ค๋ฅธ ํด๋์ค์ ์ํ ์ํ ์๋ณด๋ค ์๋ฑํ ๋ง๊ฑฐ๋ ์ ์ ์ํฉ์ ๋งํจ.
- ๋ ผ๋ฌธ์์๋ ๋ฐฐ๊ฒฝ์์ญ(easy negative)์ด ๋๋ถ๋ถ์ด๋ผ ํ์ต์ ๋ผ์น๋ ์ํฅ๋ ฅ์ด ์ปค์ ธ์ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํ๋ฝํ๋ค๊ณ ๋งํจ
โป ์ถ๊ฐ ๋ด์ฉ
: ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์์๋ ์ด๋ฏธ์ง ๋ด์์ ๊ฐ์ฒด๊ฐ ์๋ ๋ถ๋ถ(=foreground)๊ณผ ๊ฐ์ฒด๊ฐ ์๋ ๋ถ๋ถ(=background)์ ๋ถ๋ฅํด์ผ ํจ.
์ด๋, foreground์ background์ ๋น์จ์ด ๋งค์ฐ ๋ถ๊ท ํํ๋ค๋ฉด(class imbalance), ๋ชจ๋ธ์ด background๋ก ๋ถ๋ฅํ๋ ๊ฒฝํฅ์ด ๊ฐํด์ง๋ฉฐ, foreground๋ฅผ ์ ํํ ๊ฒ์ถํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์.
- Two-statge-Detector ๋ ๊ฐ์ง ์ธก๋ฉด์์ ํด๊ฒฐ์ฑ ์ฌ์ฉ.์ฒซ ๋ฒ์งธ, region proposals์ ํตํด background sample์ ๊ฑธ๋ฌ์ค.ex) positive/negative sample์ ์๋ฅผ ์ ์ ํ๊ฒ ์ ์งํ๋ sampling heuristic ๋ฐฉ๋ฒ ์ ์ฉ- hard negative mining, OHEM ๋ฑ
- ex) selective search, edgeboxes, deepmask, RPN ๋ฑ
- One-statge-Detector region proposal ๊ณผ์ ์ ์์ ๊ณ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ sampling ํ๋ deance sampling ์ฌ์ฉ
- ๋ฐ๋ผ์ ๋ ๋ง์ ํ๋ณด ์์ญ์ด ๋ฐ์ํ๊ณ , class imbalance ๋ฌธ์ ๊ฐ ๋ ์ฌ๊ฐํจ
- ๋ฐ๋ผ์ One-stage-Detector์์๋ class imbalance ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์! ํด์ ๋์จ ๋ฐฉ๋ฒ์ด Focal loss. ์ด๋ฅผ ํตํด ํด๊ฒฐ (RetinaNet)
2. Idea
- class imbalance๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ธฐ์กด์ cross entropy loss๋ฅผ reshapingํ๋ ๋ฐฉ๋ฒ์ ์ ์.
- ์ฆ, ์ ๋ถ๋ฅ๋๋ ์ ๋ค(well-classified examples, easy sample)์๊ฒ ๋ ์์ ๊ฐ์ค์น(dwon-weights)๋ฅผ ์ฃผ๋ ๋ฐฉ๋ฒ์ด ์์.→ ์๋ฅผ ๋ค๋ฉด ๋ฐฐ๊ฒฝ์ด ๋ ์ ๋ถ๋ฅ๋๊ธฐ์ ๋ ์์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ.
⇒ ์ด๊ฒ ๋ฐ๋ก Focal Loss
- ๋ง์ easy negative์ ์ํฅ ๊ฐ๋ ๊ฒ์ ๋ง์ ( ๋ฐฐ๊ฒฝ๋ค์๊ฒ๋ ๊ฐ์ค์น ๋ถ์ฌ ์ ๊ฒ )
- ์๊ฒ ๋ถํฌ๋์ด ์๋ hard example์ ์ง์ค ( ์ค์ ๊ฐ์ฒด ์๋ ์น๊ตฌ๋ค์๊ฒ ๋ )
- ์ต๊ณ ๋น!
3. Focal Loss
- cross entropy (CE)๋ฅผ ๋ฐํ์ผ๋ก ์์ํจ
- ground truth class์ ๋ํด 0,1๋ก ๋ถ๋ฅํจ, label๊ณผ ๋์ผํ ๊ฒฝ์ฐ 1
- y=1์ผ ๋, p์ด๊ณ , ๊ทธ ์ธ์ ๊ฒฝ์ฐ์ 1−p.
- ๋ฐ๋ผ์ CE(p,y)์ ์์ ๋ค์ ์จ์, CE(pt) = −log(pt)๋ผ๊ณ ํ๊ธฐํจ.
3.1 Balanced Cross Entropy
- ์ฌ๊ธฐ์ y์ ์๊ด์์ด pt > 0.5 ์ด๋ฉด Confidence๊ฐ ๋์ผ๋ฏ๋ก Loss๊ฐ ํฌ๊ฒ ์ค์ด๋๋๋ฐ, ๋ฌธ์ ๋ ์ฝ๊ฒ ๋ถ๋ฅ๊ฐ ์ ๋ผ์ 0.5๋ฅผ ๋๊ธฐ๊ธฐ ์ฌ์ด Background๋ class๋ค์ด ๋๋ฌด ๋ง์ด Loss๋ฅผ ์ค์ฌ๋ฒ๋ฆฌ๊ฒ ๋จ.
⇒ ์ด๋ ๊ฒ ๋๋ฉด ์ ๊ฒ ์๋ ํด๋์ค๊ฐ Loss์ ๋ฏธ์น๋ ์ํฅ์ ์๋ํ๊ฒ ํจ
- ์ฌ๊ธฐ์ α๋ ๊ฐ ํด๋์ค๋ณ๋ก ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ์ญํ ์ ํจ.
- ์ด๋ ์์ค ํจ์์์ ๋ชจ๋ ํด๋์ค๋ฅผ ๋๋ฑํ๊ฒ ์ทจ๊ธํ๋ฉด ๋ชจ๋ธ์ด ํ์ต์ ์ ๋๋ก ํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํจ.
- ๋ฐ๋ผ์, Focal Loss์์๋ ์ด๋ฌํ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ค ํจ์์ ๊ฐ์ค์น๋ฅผ ์กฐ์ .
- α๋ ๊ฐ ํด๋์ค๋ณ๋ก ๊ฐ์ค์น๋ฅผ ์ง์ ํ๋๋ฐ, ์์ค ํจ์์์ ์ ๊ฒ ๋ฑ์ฅํ ํด๋์ค(์ ๋ต ํด๋์ค - positive) ์ ๋ํด์๋ ๊ฐ์ค์น๋ฅผ ๋๊ฒ ์ฃผ์ด ๋ชจ๋ธ์ด ์ด๋ฅผ ๋์ฑ ์ ํ์ตํ ์ ์๋๋ก ํจ.
- ์ฆ, negative(๊ฐ์ฒด ๋ฌด) class ์ ์ํ ์๊ฐ 1000๊ฐ, positive(๊ฐ์ฒด ์ ) class์ ์ํ ์๊ฐ 100๊ฐ๋ผ๋ฉด ์ด๋ ํด๋์ค ๋ถ๊ท ํ์.
- ๊ทธ๋ ๊ธฐ์ 100๊ฐ์ ๋ํด์ ๊ฐ์ค์น๋ฅผ ๋ ์ค์ ๋ถ๊ท ํ์ ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์.
⇒ ์ฆ, loss์ ๋ฏธ์น๋ ์ํฅ ์ ๋๋ง ์กฐ์ ํ ๋ฟ, easy/hard sample ๋ค์ ๋ํ loss ๋ฐ์์ ํ์ง ๋ชปํ์
⇒ Scaling Factor ๋ฑ์ฅ
3.2 Focal Loss Definition
- ์ฝ๊ฒ ๋ถ๋ฅ๋๋ neagative(๋ฐฐ๊ฒฝ)์ loss์ ๋๋ถ๋ถ์ ์ฐจ์ง. gradient๋ฅผ ์ง๋ฐฐํจ
- α balance๋ easy example๊ณผ hard example ์ฌ์ด๋ฅผ ๊ตฌ๋ณํ ์ ์์.
- ์ด๋ easy example๊ณผ hard example์ positive class๋ผ๊ณ ๋งํ ์ ์์
- ๊ฐ์ฒด๊ฐ ์๋ class ์ค์์ ์ฝ๊ฒ ๊ฒ์ถํ ์ ์๊ฑฐ๋ ์๋ ๊ฒ์ถํ๊ธฐ๊ฐ ์ด๋ ค์ด ์์๋ฅผ ๋งํจ.
- ์ฌ์ด ์์ ์ ์ด๋ ค์ด ์์ ์ฌ์ด์๋ ์์ค ๊ฐ์ ์ฐจ์ด๊ฐ ํฌ๊ฒ ๋์ง ์์์, Focal Loss์์ ์ฌ์ฉํ๋ ๊ฐ์ค์น ์กฐ์ ๋ฐฉ๋ฒ์ผ๋ก๋ ํด๊ฒฐํ ์ ์์⇒ ์ฆ, easy sample ์ ๋ํด ๊ฐ์ค์น๋ฅผ ๋ฎ์ถฐ์ hard example์ ๋ ์ง์คํ๋ ์์คํจ์๋ฅผ ์ฌ์ค์ ํ๋ ๊ฒ์ ์ ์ํจ
- ⇒ CE์ (1−pt)^γ๋ฅผ ๊ณฑํด์ค
(1) pt ์ modulating factor์์ ๊ด๊ณ
- pt(๋ชจ๋ธ์ด ์์ธกํ ํ๋ฅ ๊ฐ) ์ด ์์ ๊ฒฝ์ฐ, FL์ 1์ ๊ฐ๊น์์ง๋ฉฐ, loss์ ์ํฅ์ ๋ฐ์ง ์์
- pt(๋ชจ๋ธ์ด ์์ธกํ ํ๋ฅ )์ด 1์ ๊ฐ๊น์์ง ๊ฒฝ์ฐ, FL์ 0์ผ๋ก ์๋ ดํจ ( ์ด๋ฏธ ์๋ ์ข์ ๋ชจ๋ธ )⇒ Focal Loss์์ ๊ฐ์ด 0์ผ๋ก ์๋ ดํ ์๋ก easy example์ ๋ํ ๊ฐ์ค์น๋ ๋ฎ๊ฒ, hard example์ ๋ํ ๊ฐ์ค์น๋ ๋๊ฒ ์ค์ ๋จ⇒ ์ด์ ๋ฐํด Focal Loss๋ ๊ฐ์ด 0์ผ๋ก ์๋ ดํ ์๋ก easy example์ ๋ํ ๊ฐ์ค์น๋ฅผ ๊ฐ์์์ผ์ ๋ชจ๋ธ์ด hard example์ ๋์ฑ ์ง์ค์ ์ผ๋ก ํ์ตํ๋๋ก ์ ๋ํจ.
- ⇒ Focal Loss๋ ๊ธฐ์กด์ ๊ต์ฐจ ์ํธ๋กํผ ์์ค(Cross Entropy Loss)์ ๋ํ ๋ณด์์ ์ธ ์ญํ ์ ํ๋๋ฐ, ๊ธฐ์กด์ ์์ค ํจ์๋ easy example์ ๋ํ ๊ฐ์ค์น์ hard example์ ๋ํ ๊ฐ์ค์น๋ฅผ ๋ชจ๋ ๋์ผํ๊ฒ ์ ์ฉ.
(2) focusing parameter γ์ ์ญํ
- ํ๋ผ๋ฏธํฐ γ์ easy example์ ๊ฐ์ค์น๊ฐ ์์์ง๋ ๋น์จ์ ๋ ๋ถ๋๋ฝ๊ฒ ์กฐ์ ํด์ค.
- γ๊ฐ 0์ผ ๋, FL์ CE์ ๋์ผํ๋ฉด์ γ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ Scaling factor์ ์ํฅ์ด ์ปค์ง.
- FL๋ easy example์ ๊ฐ์ค์น(๊ธฐ์ฌ๋)๋ฅผ ์ค์ด๊ณ , example์ด ์์ loss๋ฅผ ๋ฐ๋ ๋ฒ์๋ฅผ ํ์ฅ์ํค๋ ๊ธฐ๋ฅ์ ํจ. ( ์ฆ, pt๊ฐ ์ปค์ง์๋ก ๋ ์์์ง๋ loss๋ฅผ ๊ฐ๋๋ค๊ณ ์๊ฐํ๋ฉด ๋จ ex) 100๋ฐฐ ⇒ 1000๋ฐฐ ์ ๊ฐ์ด loss๋ ์์์ง๋ ๋ฒ์๋ ํ์ฅ ์ํด์ ์๋ฏธ๋ก ํ์ )
- ์๋ฅผ ๋ค์ด γ=2, pt=0.9์ผ ๋, CE์ ๋นํด 100๋ฐฐ ์ ์ loss๋ฅผ ๊ฐ์ง๋ฉฐ pt=0.968์ผ ๋๋ 1000๋ฐฐ ์ ์ loss๋ฅผ ๊ฐ์ง
- ์ด๋ ์๋ชป ๋ถ๋ฅ๋ example์ ์์ ํ๋ ์์ ์ ์ค์๋๋ฅผ ์์น์ํด์ ์๋ฏธ. (hard example์ ๊ฐ์ค์น๋ฅผ ๋ ์ฃผ๊ฒ ๋ค)
- γ=2์ผ ๋, ๊ฐ์ฅ ํจ๊ณผ์ .
- loss layer์ ๊ตฌํ์ p ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํ sigmoid ์ฐ์ฐ๊ณผ loss ๊ณ์ฐ์ ๊ฒฐํฉํ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๊ฐ์ ธ์จ๋ค๋ ์ ์ ์ฃผ๋ชฉ
3.3. Class Imbalance and Model Initialization
- ๊ธฐ์กด binary classification model์ label์ด 0 ๋๋ 1์ผ ํ๋ฅ ์ด ๊ฐ๋๋ก ์ด๊ธฐํ๋จ
- ์ฆ, ์ด๋ ๊ฒ ์ด๊ธฐํ๋ฅผ ํ๊ณ , ๋ถ๊ท ํ ํ์์ด ๋ํ๋๋ฉด ๋ ๋ง์ class๊ฐ total loss์์ ๋ ๋ง์ ๋น์ค์ ์ฐจ์งํ๊ฒ ๋๋ฏ๋ก ์ด๊ธฐ๋ถํฐ ํ์ต์ด ๋ถ์์ ํด์ง (์ ์ด์ ๋ฐฐ๊ฒฝ๊ณผ ๊ด๋ จ๋ box๊ฐ ๋ ๋ง์ด ์์ฑ๋์ด์์ผ๋ฏ๋ก ํด๋์ค ๋ถ๊ท ํ์)
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด prior ์ด๋ผ๋ ๊ฐ๋ ์ pํญ์ ์ฌ์ฉํ๊ฒ ๋จ
- ์ฆ, FPN์ ๋ ์ด์ด๋ ์ด 5๊ฐ์ด๊ณ , Prior ํญ์ ์ด๋ฌํ ๊ฐ ๋ ์ด์ด์์ ์ฌ์ฉ๋์ด, ์ด์ ๋ ์ด์ด์์ ๊ณ์ฐ๋ ์ถ๋ ฅ๊ฐ๋ค์ ์ด์ฉํ์ฌ ํ์ฌ ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ด๊ธฐํํจ.
- pํญ์ด๋ผ๋ ๊ฒ์ penalty์ ๊ฐ๋ ๊ณผ ๊ฐ์ ๊ฒ์ ๋งํจ ๋ค์ ๋งํด, ๋ฌผ์ฒด๊ฐ ์๋ ๋ฐฐ๊ฒฝ anchor box์ ๋ ๋ง์ ํจ๋ํฐ๋ฅผ ๋ถ๊ณผํ๋ค๊ณ ์๊ฐํ๋ฉด ๋จ. → ๋งค์นญ๋์ง ์๋ anchor box์ ๋น์จ์ ๋ฎ์ถค
- pํญ์ ๋ฎ๊ฒ ์ค์ ๋ ์๋ก ๊ฐ์ฒด์ ๋งค์นญ๋์ง ์๋ anchor box๋ค์ ๋น์จ์ ๋ฎ์ถ๋ ์ญํ ์ ํจ.
- ์ด๋ฅผ ํตํด, ๋ชจ๋ธ์ด ๋ฐฐ๊ฒฝ๊ณผ ๊ฐ์ ํด๋์ค์ ๋ํด์๋ ๋ ๋ฏผ๊ฐํ๊ฒ ์์ธกํ๊ณ , ๊ฐ์ฒด๊ฐ ์๋ ํด๋์ค์ ๋ํด์๋ ๋ ๋ฏผ๊ฐํ๊ฒ ์์ธกํ๋๋ก ์ ๋
3.4. Class Imbalance and Two-stage Detectors
- Two-stage Detectors ๋ ๋ณดํต cross entropy loss ๋ฅผ ์ฌ์ฉํ๊ณ ์ํ-๋ฐธ๋ฐ์ฑ์ ์ฌ์ฉํ์ง ์์.
- ๋์ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 2๊ฐ์ง ๋ฉ์นด๋์ฆ์ ์ฌ์ฉํจ.
(1) two-stage cascade
1๋ฒ์งธ cascade stage ๋ object proposal mechanism ์ผ๋ก ๊ฑฐ์ ๋ฌดํ๋์ ๊ฐ๋ฅํ ์ค๋ธ์ ํธ์ ์์น๋ฅผ 1~2์ฒ๊ฐ ์ ๋๋ก ์ค์
์ ํํ proposals ์ ๋ฌผ๋ก ๋๋คํ ๊ฒ์ด ์๋๋ผ true object location ์ ๊ฐ๊น์ด ๊ฒ
๊ทธ๋ ๊ฒ ํจ์ผ๋ก์จ ๋๋ถ๋ถ์ ์ฐจ์งํ๋ easy negatives ๋ฅผ ์ ์ธํ ์ ์์.
(2) biased minibatch sampling
2 ๋จ๊ณ ํ์ต์์๋, biased sampling ์ผ๋ก minibatch ๋ฅผ ๊ตฌ์ฑ.
positive/negative ๋น์จ์ ์ํ-๋ฐธ๋ฐ์ฑ factor ์ ๋น์ทํ๊ฒ ์ํ๋ง.
ex)
ํด๋์ค A์ ํด๋์ค B๊ฐ ์๋ ๋ฐ์ดํฐ์ ์ด ์์ ๋, ํด๋์ค A์ ๋ํ ์ํ๋ง ๋น์จ์ 0.5, ํด๋์ค B์ ๋ํ ์ํ๋ง ๋น์จ์ 0.1๋ก ์ค์ ํ๋ค๋ฉด, ํด๋์ค A์ ์ํ์ ํด๋์ค B์ ์ํ๋ณด๋ค ๋ ๋ง์ด ์ ํ๋ ๊ฒ์.
์ด๋ฌํ ๋ฐฉ์์ผ๋ก ๊ตฌ์ฑ๋ minibatch๋ก ํ์ต์ ์ํํ๋ฉด, ๋ถ๊ท ํํ ๋ฐ์ดํฐ์ ์์๋ ๋ชจ๋ธ์ด ์ ์ ํด๋์ค๋ฅผ ์ ํ์ตํ ์ ์์.
4. RetinaNet Detector
- ํ๋์ backbone network + ๋๊ฐ์ง(class,box)subnetwork ์กด์ฌโป ์ฌ๊ธฐ์ backbone์ด๋?
- → ์ ์ฒด input image์ ๋ํ convolutional feature map์ ์ฐ์ฐ์ ํ๋ ๊ธฐ๋ฅ์ ํจ. ๊ทธ๋ฅ convolutional network๋ฅผ ๋งํ๋๊ฑฐ๋ก ๋ณด๋ฉด๋จ.
- first subnet์ backbone์ output(anchor box)์ ๋ํ object๋ฅผ classificationํ๋ ์ญํ
- second subnet์ anchor box์ GT(Ground Truth) Box๋ฅผ ๋น๊ตํ๋ regression์ ์ฐ์ฐ์ ์ํ
4.1 FPN(Feature Pyramid Network Backbone):
- FPN์ ๋ํ ์ค๋ช ์ฐธ์กฐ
- ResNet๊ตฌ์กฐ์ FPN์ backbone์ผ๋ก ์ฌ์ฉ
- FPN์ top-down pathway์ lateral connection์ ์ฌ์ฉํ์ฌ multi-scale feature pyramid๋ฅผ ์์ฑํจ
- pyramid์ channels์ ์๋ 256์ผ๋ก ์ค์
4.2 Anchors:
- three aspect ratios 1:2;1:1,2:1
- IoU threshold of 0.5
- [0, 0.4)์ IoU๋ background๋ผ๊ณ ํ๋จ
- [0.4, 0.5]์ IoU๋ฅผ ๊ฐ์ง๋ Anchors Box๋ ํ์ต ๋์ค์ ๋ฌด์๋จ
4.3 Classification Subnet:
- Anchor box ๋ด์ object๊ฐ ์กด์ฌํ ํ๋ฅ ์ predict
- subnet์ FPN level ์์ ๋ถ์ด์๋ ์์ FCN(Fully Convolution Network).
- subnet์ ํ๋ผ๋ฏธํฐ๋ pyramid level์์ ๊ณต์ ๋จ
- 3x3 ์ปจ๋ณผ๋ฃจ์ ์ 256 ๊ฐ์ ํํฐ๋ก ์ปจ๋ณผ๋ฃจ์ ํ๊ณ ReLU ํ์ฑํจ์๋ฅผ ์ ์ฉ. ์ด๊ฒ์ 4ํ๋ฐ๋ณต (x 4)
- ๋ง์ง๋ง์ผ๋ก KA(K*A) ๊ฐ์ ํํฐ๋ก conv ์คํ
- ์ด์ง ๋ถ๋ฅ์ด๋ฏ๋ก ๋ง์ง๋ง์๋ sigmoid activations ์ ์ฉ๋จ
- C=256, A=9๋ฅผ ์ฌ์ฉํจ
- box regression subnet ํ๋ผ๋ฏธํฐ์ ๋งค๊ฐ๋ณ์ ๊ณต์ ์ํจ
4.4 Box Regression Subnet:
- Classification Subnet๊ณผ ๊ฐ์ด ๊ฐ FPN level์ ์์ FCN์ ๋ถ์
- Anchor box ์ offset 4๊ฐ (center x, center y, width, height)๋ฅผ GT๋ฐ์ค์ ์ ์ฌํ๊ฒ regression ์งํ
- class-agnostic bounding box regressor ์ฌ์ฉ
- ์ฆ, ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๋ฐ๊ฒฌ๋ ๋ชจ๋ ๊ฐ์ฒด์ ๋ํด ๋์ผํ ๊ฒฝ๊ณ ์์๋ก ์์ธกํจ
- ์ฌ๋ฌ ๊ฐ์ฒด๊ฐ ์์ ๊ฒฝ์ฐ, ํ๋์ ์์๋ก ๋ฌถ์ด์ ์์ธกํจ
- ex) ์๋์ฐจ์ ์ฌ๋์ด๋ผ๋ ๋ ๊ฐ์ ๊ฐ์ฒด๊ฐ ์์ ๊ฒฝ์ฐ, ์ผ๋ฐ์ ์ผ๋ก๋ ์๋์ฐจ์ ์ฌ๋์ ๋ํ ๊ฒฝ๊ณ ์์๋ฅผ ์์ธกํ๋ค๋ฉด, ์ด ์น๊ตฌ๋ ๋ ๊ฐ์ ๋ํด์ ํ๊บผ๋ฒ์ ๊ฒฝ๊ณ ์์ 1๊ฐ๋ง์ ๋ง๋ฌ⇒ ์ด๋ ๊ฒ ๋๋ฉด ๋งค๊ฐ๋ณ์๊ฐ ์ ์ด์ง๋๋ฐ, ์ ์ด์ง์๋ ๊ธฐ์กด์ ์ฐ๋ regressor๊ณผ ๋์ผํ ํจ๊ณผ๋ฅผ ๋!
- ๋ง์ฐฌ๊ฐ์ง๋ก class subnet ํ๋ผ๋ฏธํฐ์ ๋งค๊ฐ๋ณ์ ๊ณต์ ์ํจ
5. Inference and Training
• FPN level์์ box prediction ์ ์๊ฐ ๋์ 1000๊ฐ์ box๋ง result์ ์ฌ์ฉํ๊ณ ์ต์ข detection์ NMS๋ฅผ ์ ์ฉํด ์๋ ํฅ์์ ์ํด
5.1 Focal Loss:
- class sub์ output์ผ๋ก Focal loss๋ฅผ ์ฌ์ฉ
- gamma = 2, alpha = 0.25์ผ ๋ ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์ด
5.2 Initialization:
- FPN์ initialization์ FPN ๋ ผ๋ฌธ๊ณผ ๊ฐ์ ๊ฐ์ผ๋ก ์งํ
- RetinaNet subnet์์ ๋ง์ง๋ง layer๋ฅผ ์ ์ธํ ๋ชจ๋ conv layer๋ bias=0, gaussian weight fill = 0.01๋ก ์ด๊ธฐํ
- classification subnet์ ๋ง์ง๋ง conv layer๋ bias=-log((1-pi)/pi)๋ก ์ด๊ธฐํ
5.3 Optimization:
- SGD ์ฌ์ฉ
- LR = 0.01, 90000๋ฒ ํ์ต์ ์งํ.
- 60000๋ฒ ์ผ๋ LR 10 ๋๋๊ณ , 80000๋ฒ ์ผ๋ LR 10 ๋
- weight decay = 0.0001, momentum = 0.9
- class predict์ focal loss, box regression์ smooth L1 loss ์ฌ์ฉ
6. Experiments
7. Conclusion
- one-stage์ ๊ฐ์ฅ ์ฃผ์ํ obstacle์ด์๋ class imbalance๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Focal Loss๋ฅผ ์ ์ํ์๊ณ , ์ฑ๋ฅ์ ์ ์ฆ.
- SOTA๋ฅผ ๋ฌ์ฑ
8. Reference
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
U-Net (0) | 2023.07.05 |
---|---|
Bert (0) | 2023.07.05 |
VIT [AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE] (0) | 2023.07.05 |
GPT-1 (0) | 2023.07.05 |
DeepLab V2: Semantic Image Segmentation with Convolutional Nets, Atrous Convolution and Fully Connected CRFs (0) | 2023.07.05 |