CAM(Class Activation Maps) ์ด๋?
Global Max Pooling(GMP) vs Global Average Pooling(GAP)
: ์ ์ฒด ์์ญ ๋ด์์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ Global Max Pooling(GMP)๋ผ๊ณ ํจ
: ๋ฐ๋ฉด, ๋ชจ๋ ๊ฐ์ ๊ณ ๋ คํ์ฌ ํ๊ท ๊ฐ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ Global Average Pooling(GAP)์ด๋ผ๊ณ ํจ
: ๋ณดํต CNN์ ๊ตฌ์กฐ์์๋๋ง์ง๋ง feature map์ flattenํ์ฌ 1์ฐจ์ ๋ฒกํฐ๋ก ๋ง๋ ๋ค ์ด๋ฅผ Fully Connected Netowork๋ฅผ ํต๊ณผํ์ฌ softmax๋ก classification์ ํ์์.
: ์ด FC layer๋ parameter์ ๊ฐ์๋ฅผ ๋งค์ฐ ์ปค์ง๋๋ก ๋ง๋ค๊ธฐ ๋๋ฌธ์ overfitting ์ํ์ด ์ฆ๊ฐํ ์ ์๊ณ , Feature map(pooling์ด์ )์ ์กด์ฌํ๋ object๋ค์ ์์น์ ๋ณด๊ฐ ์์ค๋๋ค๋ ๋จ์ ์ด ์กด์ฌ.
: CAM์ flatten์ ํ์ง ์๊ณ , ์ด๋ฅผ Global Average Pooling์ผ๋ก ๋์ฒดํจ
: overfitting์ ๋ฐฉ์งํ ์ ์๋ regularization์ ์ญํ ์ ํ๋ฉฐ, ์์น์ ๋ณด๋ฅผ ์์คํ์ง ์์ ์ ์๋๋ก ํจ
: ์ ๊ทธ๋ฆผ์์๋ ์ด 4๊ฐ์ Feature Map์ด ์กด์ฌํ๋ฏ๋ก ์ด 4๊ฐ์ ํน์ง๋ณ์๊ฐ ์์ฑ๋จ
: <CAM์ ์ฌ์ฉํ๊ธฐ ์ํ architecture> GAP + softmax layer๋ก ์ฐ๊ฒฐ ⇒ class ํ๋ฅ ๊ณ์ฐ
Class Activation Mapping
: ๊ฐ feature map๊ณผ feature map์ด ํน์ class๋ก ๋ถ๋ฅ๋ ๊ฐ์ค์น(w)๋ฅผ ๊ณฑํด์ ํฉํ๋ฉด ์ขํ ๋ณ (x,y) ํน์ ํด๋์ค์ ๋ํ ์ํฅ๋ ฅ ๊ณ์ฐํ ์ ์์ ⇒ ์ด๊ฑธ ๋ฐ๋ก CAM์ด๋ผ๊ณ ๋ถ๋ฆ
: ๊ฐ ํด๋์ค์ ๋ํด CAM์ ์ ์ฉํ๋ฉด ์ด๋ฏธ์ง์์ ํด๋์ค์ ์ํฅ์ ์ฃผ๋ ์ขํ์ ์ถ์ถํ ์ ์์
: ๋ง์ง๋ง convolution layer์์์ CAM์ ์๊ฐํํ๊ธฐ ๋๋ฌธ์, ์ต์ข CAM์ ์ฒ์ input image์ ๊ฐ์ ํฌ๊ธฐ๋ก unsamplingํ๋ฉด, input image๋ด์์ class c(๊ฐ)์ ๊ด๋ จ๋์ด์๋ ์์ญ์ด ์ด๋์ธ์ง ํ์ธํ ์ ์์
Learning Deep Features for Discriminative Localization
<CAM์ ์ฃผ์ ํน์ง>
- Weakly-supervised object localization: Object Classification๋ง์ ์ํด ํ์ต๋ CNN ๋ชจ๋ธ์ด ์ด๋ฏธ์ง๋ฅผ classify + localization ๊น์ง ๋ณผ ์ ์๋ค.
- Visualizing CNNs : Global Average Pooling์ ์ฌ์ฉํ์ฌ CAM์ ์๊ฐํํ ์ด๋ฏธ์ง
- : ๊ฐ ์ด๋ฏธ์ง๋ค์ ๋ํด classifyํ๋ฉด์๋ object๋ค์ด ์์นํ๋ ์์ญ๋ ์ฐพ์๋ผ ์ ์์์ ๋ณผ ์ ์์
1 INTRODUCTION
: ๋ชจ๋ธ์ ํด์ํ ๋์๋ Simplicity์ Interpretability์ฌ์ด์ tradeoff ๊ด๊ณ๊ฐ ์์.
: ์ฆ, ๋ชจ๋ธ์ด ๊ฐ๋จํ ์๋ก ํด์์ ์ฉ์ดํด์ง๊ณ ๋ชจ๋ธ์ด ๋ณต์กํ ์๋ก ํด์์ ์ด๋ ค์์ง๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ accuracy๋ฅผ ์์ง ์์ผ๋ฉด์ ํด์ํ๊ธฐ ์ํด์๋ ์ด ๋ ์ฌ์ด์ ์ ์ ์ ์ ์ฐพ๋ ๊ฒ์ด ์ค์ํจ
ex) ๋ชจ๋ธ์ ํ์ต์ด ์คํจํ ๊ฒฝ์ฐ, ์๋ชป๋ ์ถ๋ ฅ์ ๋ด๋ณด๋์ ๋ ์ ๋ชจ๋ธ์ด ์ด๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๋์๊น or ์ด๋๊ฐ ์๋ชป๋์ง ๋ผ๋ ์ค๋ช ์ด ๊ฐ๋ฅํด์ผ ํ๋๋ฐ ๊ทธ๋ฌ์ง ๋ชปํ๋ค๋ ๊ฑฐ์ ⇒ “Black box”
: ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ด ์์ธกํ ๋ด์ฉ์ ์ ์์ธกํ๋์ง, ์ ๊ทธ๋ ๊ฒ ์์ธกํ๋์ง ์ค๋ช ํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ ธ์ผ ํ๋ค๊ณ ๋งํ๊ณ ์์
: ํฌ๋ช ํ ๋ชจ๋ธ์ ๊ตฌ์ถํด์ผ ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ธ์ ์ ๋ขฐํ๊ณ ์ดํดํ ์ ์๊ธฐ ๋๋ฌธ!
โก๏ธ “Black Box”์ ๋ด๋ถ๋ฅผ ์์๋ณด์!
what makes a good visual explannation?
- Class discriminative: ๋ค๋ฅธ ํด๋์ค๋ฅผ ๊ตฌ๋ถํ ์ ์์ด์ผ ํจ
- High-resolution: ์ถฉ๋ถํ object๋ฅผ ํ๋ณํ ์ ์๊ณ ํน์ง์ ์์๋ผ ์ ์์ด์ผ ํจ
: ์ผ) ํน์ง๋ค์ ์ ๋ณด์ฌ์ฃผ์ง๋ง class ๊ตฌ๋ณ์ ์ ํ์ง ๋ชปํจ
: ์ค) ํด๋์ค ๊ตฌ๋ถ๋ ์ํด์ค
โก๏ธ cat class์ ๊ฒฝ์ฐ, cat ์ง์ญ์ ๊ฐ์กฐํ๊ณ dog ์ง์ญ์ ๊ฐ์กฐํ์ง ์์
โก๏ธ ๊ณ ์์ด์ ์ค๋ฌด๋ฌ๋ ๊ฐ์กฐํด์ ํน์ ๊ณ ์์ด์ ์ข ์ ์์ธกํ๋ ๊ฒ์ ๋ํ ์ ๋ณด๋ ์๊ฒ ํด์ค
Contribution
- Grad-CAM : Class-discriminativeํ localization technique์ผ๋ก, ์๊ฐํ๋ฅผ ํตํด ๋ชจ๋ธ์ด ์คํจํ์ ๋์ ์ง๋จ ๋ํ ๊ฐ๋ฅ(์ ์คํจํ์๊น์ ๋ํ ์ค๋ช ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์)
- Top-performing classification, captioning, VQA ๋ฑ ๋ค์ํ downstream work์ ์ ์ฉ ๊ฐ๋ฅํจ
โป Top-performing classification, captioning, VQA ?
: Top-performing classification: ์ด๋ฏธ์ง๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํด๋์ค ๋ ์ด๋ธ์ ์์ธกํ๋ ๋ชจ๋ธ.
: captioning: ์ด๋ฏธ์ง๋ ๋น๋์ค์ ๋ํ ์ค๋ช ์ ์์ฑํ๋ ๋ชจ๋ธ.
: VQA (Visual Question Answering): ์ด๋ฏธ์ง์ ๋ํ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์์ฑํ๋ ๋ชจ๋ธ.
- Human study๋ฅผ ์ํํด์ Grad-CAM์ด class-discriminative ์๊ณ , ์ ๋ขฐ๋ฅผ ๋๋๋ฐ ๋์์ด ๋๋๋ก ํจ.⇒ ํ๋ จ๋์ง ์์ ์ผ๋ฐ์ธ(์ด ๋ถ์ผ ๋ชจ๋ฅด๋ ์ฌ๋)๋ ๋ชจ๋ธ์ ๋ดค์ ๋, ‘๊ฐํ’ ๋ชจ๋ธ๊ณผ ‘์ฝํ’ ๋ชจ๋ธ์ ๊ตฌ๋ถํ ์ ์์์ ๋ณด์ฌ์ค (์, ์ด ๋ชจ๋ธ์ ๊ตฌ๋ถ์ ์ ํ๋ ๋ชจ๋ธ์ด๊ตฌ๋ ํน์ ํ์ต์ด ์๋ ๋ชจ๋ธ์ด๊ตฌ๋~ ์, ์ด ๋ชจ๋ธ์ ๋ญ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง ์ฑ๋ฅ์ด ๋ณ๋ก์ธ ๋ชจ๋ธ์ด๊ตฌ๋)
2 RELATED WORK
<๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ฐฉ๋ฒ๊ณผ ํ๊ณ์ ๋ค์ ์๊ฐํจ ⇒ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ ์ํค๊ณ ์ ํจ>
1. Visualizing CNNs.
- ‘pixel’ ๋จ์์ ์ํฅ๋ ฅ(์ค์์ฑ)์ ์๊ฐํ ํ๋ ค๋ ์ฐ๊ตฌ๊ฐ ๋ง์์ผ๋, class-discriminative ํ์ง ์์
โก๏ธ ๊ฐ cat๊ณผ dog ์์ธก์๋ ๋ถ๊ตฌํ๊ณ , feature map ์ ๋ ๊ฐ์ ํด๋์ค๊ฐ ๊ตฌ๋ถ๋์ง ์์
- ๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ก๋ ํน์ ์ ๋(๋ด๋ฐ)์ด ํ์ฑํ๋ ๋ ์ด๋ค ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋ ์ ์๋์ง๋ฅผ ์์๋ด๊ณ ์ ํ์
โก๏ธ high resolution + class-discriminative ์ง๋ง, single image์ ๋ํด์๊ฐ ์๋๋ผ ๋ชจ๋ธ ์ ๋ฐ์ ์๊ฐํ ํ๋ค๋ ํ๊ณ์ ์ ์ง๋ ์
2. Assessing Model Trust.
: [Why Should I Trust You?] ๋ผ๋ ๋ ผ๋ฌธ์์ ๋ชจ๋ธ์ ๋ํ ์ ๋ขฐ์ฑ์ ์ฐ๊ตฌํ๋ ๊ฒ์ ๋ณด๋ฉด์, ์ด ๊ฐ๋ ์ ์๊ฐ์ ๋ฐ์ ๋ณธ ๋ ผ๋ฌธ์ Human study๋ฅผ ํตํด Grad-CAM ์๊ฐํ๋ฅผ ํ๊ฐํ์์
โก๏ธ Grad-CAM์ด ์๋ํ๋ ์์คํ ์ ํ๊ฐํ๊ณ ์ ๋ขฐํ ์ ์๋ ๋๊ตฌ๋ก์ ์ค์ํ ์ญํ ์ ํ ์ ์์
3. Aligning Gradient-based Importances.
: [Choose your neuron] ๋ผ๋ ๋ ผ๋ฌธ์์ gradient์ ๊ธฐ๋ฐํ neuron importance๋ฅผ ์ธ๊ฐ์ class specific domain-knowledge์ ์ฐ๊ฒฐํ๊ณ ์๋ก์ด class์ ๋ํ ๋ถ๋ฅ๊ธฐ ํ์ต
โก๏ธ gradient ๊ธฐ๋ฐ์ ์ค์์ฑ์ Grad-CAM์ ์ ์ฉํ๊ณ ์ ํจ
4. Weakly-Supervised localization.
: class label๋ง์ ์ฌ์ฉํด์ ์ด๋ฏธ์ง ๋ด์ ๊ฐ์ฒด๋ฅผ localize ํ๋ ๊ฐ์ฅ ๊ด๋ จ์๋ ๋ฐฉ์์ด CAM(Class Activation Map)
: CNN์ ๋ง์ง๋ง feature map์ GAPํ ๋ค, ๊ฐ์ค์น(w)๋ฅผ ๊ฐ๊ฐ ๊ณฑํด์ class score์ ๊ณ์ฐ
: ๊ฐ w๋ฅผ feature map๊ณผ ์ ํ ๊ฒฐํฉํด์ class activation map์ ์ป์ ์ ์๊ณ , ์ด๋ฅผ ํตํด class score์ ๋ํ feature map์ ์ค์์ฑ(์ํฅ๋ ฅ)์ ์๊ฐํํ ์ ์์
CAM์ ์ต๋ ๋จ์ : conv feature map → GAP → softmax ์ architecture๋ก๋ง ๊ตฌ์ฑ๋์ด์ผ CAM์ ์ฌ์ฉํ ์ ์์์. ์ฆ, ๋ชจ๋ธ์ ์ฌ๊ตฌ์ฑ ํด์ผ ํ๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค.
โก๏ธ ๋ฐ๋ผ์, ์ด ๋ ผ๋ฌธ์ architecture๋ฅผ ์์ /์ฌ๊ตฌ์ฑํ ํ์ ์์ด ์ฌ์ฉํ๋ “gradient ๋ฐฉ์”์ ๋์ ํจ
3 Grad-CAM
3-1) Grad-CAM
: CNN์์ ์์ ์ธต์ low-level feature์ ์ฝ๊ณ , ๊น์ ์ธต์ผ๋ก ๊ฐ์๋ก semantic class-specific ์ ๋ณด๋ฅผ ์ฝ์
: Grad-CAM์ CNN์ ๋ง์ง๋ง layer๋ก ํ๋ฅด๋ gradient๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ์์ธก์ ๊ฐ ๋ด๋ฐ์ด ๋ฏธ์น๋ ์ํฅ(=์ค์์ฑ)์ ํ์ ํจ
: ์? ๋ง์ง๋ง์ธ๊ฐ, ๋ง์ง๋ง layer๊ฐ ๋ง์ ์ ๋ณด๋ฅผ ์ง๋๊ณ ์๊ธฐ ๋๋ฌธ์.
: ๋ฌผ๋ก ๋ชจ๋ layer์ ๋ํด์๋ ์ํฅ๋ ฅ ํ์ ๊ฐ๋ฅ(gradient๋ฅผ ํ์ฉํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ค ๊ฐ๋ฅ) (ํ์ง๋ง, ์์์๋ ์๋ฏธ๊ฐ ๋ณ๋ก ์๊ฒ ์ฃ ? - ์ ๋ณด๊ฐ ๋ณ๋ก ์๊ธฐ ๋๋ฌธ์)
3-1-0) Overall Architecture
3-1-1) Importance of each feature map
: y^c(class score-softmax ์ ๋จ๊ณ)๋ฅผ feature map์ผ๋ก ๋ฏธ๋ถ
: i,y๋ ๊ฐ ํด๋น ํฝ์ ์์น๊ฐ
: k๋ ๋ช ๋ฒ ์งธ feature map์ธ์ง
โก๏ธ ์ฆ, y^c๋ฅผ ํด๋น ํผ์ฒ๋งต A์ ๊ฐ ํฝ์ ๋ก ๋ฏธ๋ถํ ํ์, GAP๋ฅผ ํ๋ฉด, ์ค์๋ ๊ฐ์ค์น๋ฅผ ์ป๊ฒ ๋จ
= k๋ฒ์งธ ํผ์ฒ๋งต์ด y^c๋ผ๋ score map์ ๋ฏธ์น๋ ์ํฅ๋ ฅ์ ์๋ฏธ
= ๋ชจ๋ธ์ ์์ธก(y)์ ์ด๋ feature map(k)๊ฐ ํ๊ท ์ ์ผ๋ก ์ด๋ ์ ๋์ ์ํฅ์ ๋ฏธ์ณค๋๊ฐ๋ฅผ ์๋ฏธํจ
โป y^c๋ ๊ผญ class score์ผ ํ์ ์์ด ๋ฏธ๋ถ ๊ฐ๋ฅํ downstream task๋ฉด ๋๋ค๊ณ ํจ
3-2-2) Weighted Combination
: ์์์ ๊ตฌํ ๊ฐ์ค์น(์ํฅ๋ ฅ)์ k๋ฒ์งธ feature map์ ๊ณฑํด์ค ํ ํฉ์น ํ, ReLU ์ฌ์ฉ
: ์๋ฅผ ๋ค์ด, ๊ณฑํ ๊ฐ์ด ์์์ ๊ฐ์ ์ง๋๋ค๋ฉด, ๊ทธ ๊ฐ์ ์ ์ธํ๊ณ ์์ ๋ถ๋ถ๋ง ๊ฐ์ง๊ณ ์๊ฐํ๋ฅผ ํ๊ฒ ๋ค
: ์ฆ, ์ฐ๋ฆฌ๋ ๊ฐ์ ๋ํ label์ classification ํด์ผ ํ๋๋ฐ, ์์ ๊ฐ์ด๋ผ๋ฉด ์ฌ๋ or ๋ฐฐ๊ฒฝ์ ๋ํ ํผ์ฒ๋งต์ ๋งํ๋ ๊ฒ์.
3-2-3) Weighted Combination
โ
: ์ผ์ชฝ) ๊ธฐ์กด CAM์ ์์ , ๊ฐ์ค์น x GAPํ feature map
: ๊ฐ์ด๋ฐ) k๋ฒ์งธ ํผ์ฒ๋งต์ ๋ํด ๊ฐ ํฝ์ ์ ํฉ์ ๊ฐ์ค ํ๊ท ํ ๊ฐ
: ์ค๋ฅธ์ชฝ) ๋์ฒดํ ๊ฒฐ๊ณผ ์
โก
: ์ผ์ชฝ) Y^c class score์ F^k ํผ์ฒ๋งต์ ํ๊ท ์ผ๋ก ๋ฏธ๋ถํ ๊ฐ
: ๊ฐ์ด๋ฐ) F^k๋ฅผ A^k์ ๋ํด ๋ฏธ๋ถํ๋ฉด 1/Z๋ง ๋จ์. ์ด๋ฅผ ์ผ์ชฝ์ ๋์ ํ๋ฉด ์ค๋ฅธ์ชฝ๊ณผ ๊ฐ์ ์์ด ๋จ
: ์ค๋ฅธ์ชฝ) ์ด ๋, Y^c๋ฅผ ๋์ ํด์ F^k์ ๋ํด ๋ฏธ๋ถ ์ต์ข ์์ ๊ตฌํจ
โข
: ์ผ์ชฝ) ๊ฐ ํฝ์ ์ ๋ํด ์ฐ์ฐ
… ๋ฏธ์ํฉ๋๋ค… ๋ง์ง๋ง ๊ฐ์ ์ดํด๋ฅผ ๋ชปํ์ด์ (์ ์ ํฉ์ด Z์ธ ๊ฒ์ธ๊ฐ..)
โก๏ธ ๊ฒฐ๊ณผ์ ์ผ๋ก ์๊ฐ ๋งํ๊ณ ์ถ์๋ ๊ฑด CAM ๋ฐฉ์๊ณผ ๊ฐ๋ค๋ ๊ฒ์
: CNN์ ๋ง์ง๋ง์ GAP ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ๊ฒฐ๊ณผ์ ์ผ๋ก CAM๊ณผ ๊ฐ์ (= ๋ ผ๋ฌธ์์๋ CAM์ generalization์ด๋ผ๊ณ ๋งํจ)
: Grad-CAM์ gradient ๊ธฐ๋ฐ์ผ๋ก weight๋ฅผ ๊ตฌํ๊ธฐ ๋๋ฌธ์, GAP์ด ์๋ ์ด๋ ํ ๊ตฌ์กฐ์์๋ visualization์ด ๊ฐ๋ฅํจ
(CAM์ GAP ํตํด์ weight๋ฅผ ๊ตฌํ๋ ๋ฐ๋ฉด, Grad-CAM์ gradient(์ญ์ ํ)ํตํด์ ๊ตฌํจ))
3-2) Guided Grad-CAM
: Grad-CAM์ class ๊ตฌ๋ถ(class-discriminative)์ด ๊ฐ๋ฅํ๋ฉฐ ์์ธก๋ ๊ด๋ จ ์ด๋ฏธ์ง ์ง์ญ์ ์ฐพ์๋ผ ์๋ ์์ผ๋, pixel-space gradient visualization์ ์ด๋ ค์
: ์ฆ, ์ tiger cat์ผ๋ก ์์ธกํ๋์ง๋ฅผ ์์๋ผ ์ ์์.
Guided Backpropagation
: backpropation ํ๊ธฐ์ ์ feature map์์ 0 ์ดํ์ธ ๋ถ๋ถ์ ์ ๊ฑฐ ํจ์ผ๋ก์จ positive value๋ง์ ์ด์ฉํ์ฌ backpropagation value๋ฅผ ์ถ์ถ
: ์์์ ํด๋นํ๋ gradient๋ฅผ ์ฌ์ฉํ์ง ์์์ผ๋ก์จ ๊นจ๋ํ ์ด๋ฏธ์ง๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
: class-discriminative๋ ํ์ง ์์ผ๋, ํน์ง๋ค์(๊ณ ์์ด ์ค๋ฌด๋ฌ, ๊ท, ๋)์ ๋ํ ์ ๋ณด๋ ์ ๋ํ๋
โก๏ธ Grad-CAM + Guided Backprop = Guided Grad-CAM
: Guided Backprop๊ณผ Grad-CAM ๊ฐ element-wise ๊ณฑ์ ํตํด ํฉ์ฑ
: Guided Backprop์ ํฝ์ ๋จ์์ฌ์ input ํฌ๊ธฐ์ ๋์ผํ ๋ฐ๋ฉด, Grad-CAM์ feature map ๋จ์์ด๊ธฐ ๋๋ฌธ์, ํฌ๊ธฐ๋ฅผ ๋ง์ถฐ์ฃผ๊ธฐ ์ํด bilinear interpolation์ผ๋ก up-sampling ํด์ค
: ์ ๋ ๊ฐ๋ฅผ ๊ณฑ์ ํด์ฃผ๋ฉด Guided Grad-CAM์ด ๋จ
3-3) Counterfactual Explanations
: Grad-CAM์ ์ฝ๊ฐ ์์ ํ์ฌ ๋คํธ์ํฌ์ ์์ธก์ ๋ณ๊ฒฝ์ํค๋ ์์ญ์ ๊ฐ์กฐํ๋ ์ค๋ช ์ ์ป์ ์ ์์
: ์์ ๋์ผํ๊ฒ, ์ค๋ช ๋ ฅ์ ์ค์ํ๋ ๋๋์ด๊ณ ์ด๋ฌํ ํผ์ฒ๋งต์ด ์ ๋ถ์ ์ ์ผ๋ก ์ํฅ์ ๋ผ์น๋์ง์ ์๊ณ ์ ํ ๋ ์ฌ์ฉํ๋ ์์
: ๊ณ ์์ด๋ฅผ ์์ธกํ ๋, ๊ฐ์ฅ ๋ถ์ ์ ์ผ๋ก ์ํฅ์ ์ฃผ๋ ์น๊ตฌ ์ฐพ๋ ๊ฒ
: -1, -1, 1๋ก feature map wieght๊ฐ ์ฃผ์ด์ก์ ๋, -1์ ์ทจํ๊ณ ReLU ํต๊ณผ์ํค๋ฉด 1,1,0์ด ๋จ
: ๊ฒฐ๊ตญ, ๊ณ ์์ด๋ผ๊ณ ์์ธกํ๋ ๊ฒ์ ๋์์ ์ฃผ์ง ์๋ ๋ถ๋ถ๋ง์ด ๋จ๊ฒ ๋๋ ๊ฒ์
4 Evaluating Localization Ability
Weakly-Supervised Segmentation
Diagnosing Image Classification CNNs with Grad-CAM
: VGG-16์ด ๋ถ๋ฅ๋ฅผ ์คํจํ ์ผ์ด์ค๋ค์ ๋ํด ์ค์ ๋ผ๋ฒจ๊ณผ ์์ธก๋ ๋ผ๋ฒจ์ Guided Grad-CAM์ ๊ทธ๋ ค๋ณธ ๊ฒฐ๊ณผ
: ์๋ชป๋ ์์ธก์ ํ์ ํ๋๋ฐ ๋์์ด ๋จ
Image Captioning
: ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช ์ ์ด์ ์ ๋ง์ถฐ ์๊ฐํ ํ ๋ชจ์ต
Visual Question Answering
: VQA pipeline์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ CNN๊ณผ question์ ์ํ RNN language model๋ก ์ด๋ค์ ธ ์์
: ์ด๋ฏธ์ง์ ์ง๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก answer๋ฅผ ์์ธกํ๋ ๊ฒ
<์ฐธ๊ณ >
https://velog.io/@tobigs_xai/CAM-Grad-CAM-Grad-CAMpp
https://hellopotatoworld.tistory.com/18
https://joungheekim.github.io/2020/09/29/paper-review/
https://jays0606.tistory.com/4
https://minimin2.tistory.com/39
https://www.youtube.com/watch?v=uA5rIr79I0o&t=1514s
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
STAR: Sparse Trained Articulated Human Body Regressor(2020) (0) | 2023.08.10 |
---|---|
DINO: Emerging Properties in Self-Supervised Vision Transformers (2021) (0) | 2023.08.10 |
Expressive Body Capture: 3D Hands, Face, and Body from a Single Image (0) | 2023.08.04 |
BodyNet: Volumetric Inference of 3D Human Body Shapes (0) | 2023.08.03 |
mixup: Beyond Emprical Risk Minimization (0) | 2023.08.03 |