<๊ธฐ๋ณธ ์ฉ์ด>
Self Supervised learning
https://brunch.co.kr/@b047a588c11b462/45
: ๋น์ง๋ ํ์ต ๋ฐฉ์์ ์ผ์ข ์ผ๋ก์ ๋ผ๋ฒจ๋ง๋์ง ์์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ ์ธ๊ณต์ง๋ฅ์ด ์ค์ค๋ก ๋ถ๋ฅ์์ ์ ์ํํ๋๋ก ํจ
: ์ค์ค๋ก ํ์คํฌ๋ฅผ ์ค์ ํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๋ค๋ ์ ์์ ๊ธฐ์กด์ ๋น์ง๋ ํ์ต ๋ฐฉ์๊ณผ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ฉฐ, ์ธํฐ๋ท์ ํฌ๋กค๋ง์ ํตํด ์์งํ ์ ์๋ ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค ๋ฑ ๋ค์ํ ์ข ๋ฅ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ ์๋ ์์
: ๋ชจ๋ธ์ด ํ์ฅ๋๊ธฐ ์ํด์๋ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง๋ง, ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ง์์ ์ผ๋ก ํ๋ณดํ๊ธฐ ์ํด์๋ ๋ง์ ๋น์ฉ์ด ์๊ตฌ๋๋ค๋ ๋จ์ ์ด ์กด์ฌ
: ์๊ธฐ ์ง๋ ํ์ต์ ๋ผ๋ฒจ๋ง๋์ง ์์ ํ์ต ๋ฐ์ดํฐ๋ง ํ๋ณดํ๋๋ผ๋ ๋ชจ๋ธ์ ๊ท๋ชจ๋ฅผ ์ฆ๊ฐ์ํฌ ์ ์์ผ๋ฉฐ ์ด์ ๋ฐ๋ผ ์ ํ๋ ์ญ์ ํฅ์์ํฌ ์ ์๋ค๋ ์ฅ์ ์ด ์กด์ฌ
<์ง๋ํ์ต์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ>
1) Self Prediction
: ํ๋์ ๋ฐ์ดํฐ ์ํ ๋ด์์, ๋ฐ์ดํฐ์ ์ผ๋ถ๋ฅผ ํ์ฉํด ๋๋จธ์ง ๋ถ๋ถ์ ์์ธกํ๋ ๋ฐฉ๋ฒ
2) Contrastive Learning
: ๋ฐ์ดํฐ ์ํ๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ์์ธกํ๋ ํ์คํฌ๋ฅผ ์ํํ๋ฉฐ, ์ ์ฌํ ์ํ๋ค ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ๊น๊ฒ ํ๊ณ ์ ์ฌํ์ง ์์ ์ํ๋ค ๊ฐ ๊ฑฐ๋ฆฌ๋ ๋ฉ๊ฒ ํ๋ ๊ฒ.
: ์ ์ฌ ์ฌ๋ถ์ ๊ธฐ์ค์ด ๋๋ ๋ฐ์ดํฐ์ ์ anchor๋ผ๊ณ ํจ
: anchor(ํ์)์ ์ ์ฌํ ์ํ์ positive point(์๋ฐ)๋ก, anchor์ positive pair๋ฅผ ์ด๋ฃธ.
: ๋ฐ๋๋ก anchor์ ์ ์ฌํ์ง ์์ ์ํ์ negative sample(ํธ๋ญ์ด)๋ก์จ anchor๊ณผ negative pair๋ฅผ ์ด๋ฃธ
: Contrastive ํ์ต ๋ฐฉ์์ ๋ค์ํ ๊ด์ ๋ค๋ก๋ถํฐ ๊ณตํต๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ ์ ํ๋ ๋ชฉ์ ์ ๊ฐ์ง
: ex) ๊ณ ์์ด ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ์ด๋ฏธ์ง์ ์๋ณธ ์ด๋ฏธ์ง๊ฐ ์์ ๋, ๋ ์ด๋ฏธ์ง ๊ฐ ๊ณตํต๋ ์ ๋ณด์ ํด๋นํ๋ ๊ณ ์์ด ๋ถ๋ถ๋ง ํ์ต๋์์ผ๋ก ์ธ์๋๋ฉฐ, ๊ทธ ์ธ์ ๋ฐฐ๊ฒฝ์ด๋ ๋ ธ์ด์ฆ๋ ํ์ต๊ณผ์ ์์ ๊ณ ๋ ค๋์ง ์์
: contrastive learning์ ์ฑ๋ฅ์๋ positive sample๊ณผ negative sample์ ์ ์ ๋ฐฉ์์ด ํฐ ์ํฅ์ ๋ฏธ์นจ.
: Positive pair๋ augmentation ๊ธฐ๋ฒ๋ค์ ํ์ฉํ์ฌ ์๋ณธ์ ๋ณํ์ํค๊ฑฐ๋, ํ๋์ ๋ฐ์ดํฐ์ ๋ํ ์์ดํ ๊ด์ ์ ์ทจํ๋ ๋ฐฉ์์ผ๋ก ์ ์ ๋จ.
: ํ ๋ฐ์ดํฐ์ ๋ด์์ anchor์ด ์๋ ์ํ๋ค์ negative pair๋ก ์ฌ๊ฒจ์ง๋ฉฐ negative sample ๊ฐ์๊ฐ ๋ง์์๋ก ํจ๊ณผ์ ์ผ๋ก representation collapse๋ฅผ ๋ฐฉ์งํ ์ ์์.
("negative sample" ๊ฐ์๊ฐ ๋ง์์๋ก, ๋ชจ๋ธ์ ๋ค์ํ ํด๋์ค ๊ฐ์ ์ฐจ์ด๋ฅผ ์ดํดํ๊ณ ๊ตฌ๋ถํ๋ ๋ฅ๋ ฅ์ด ํฅ์)
โก๏ธ ํ์ง๋ง negative sample์ ์ฌ์ฉํ ๋, ๋ฐฐ์น ์ฌ์ด์ฆ ํฌ๊ธฐ๋ ์ฆ๊ฐ๊ธฐ๋ฒ ์ ํ ๋ฑ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํธ์ฐจ๊ฐ ํฌ๊ฒ ๋ํ๋๊ธฐ ๋๋ฌธ์ ํ์ต ์ ๊ณ ๋ คํด์ผํ ์ ์ด ๋ง๋ค๋ ๋ฌธ์ ์ ์ด ์กด์ฌ
BYOL : Boostrap Your Own Latent
: ๊ธฐ์กด negative sample์ ์ฌ์ฉํ ๋, ๋ฐฐ์น ์ฌ์ด์ฆ ๊ณ ๋ ค๋, ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํธ์ฐจ๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ ๊ณจ์นซ๋ฉ์ด๋ฆฌ์์.
: ๋ฐ๋ผ์, BYOL์ positive sample ๋ง์ ์ฌ์ฉํ๋ค๊ณ ํจ ⇒ ํ ์ด๋ฏธ์ง์์ augmentation ํ ๋ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ํ์ฉ(ํ์์ด anchor(target), ์์กฐ ์ด๋ฏธ์ง๊ฐ positive sample(online))
: BYOLO์ ๊ตฌ์กฐ๋ Online network์ Target network๋ก ๊ตฌ์ฑ
: Online network๋ก predictor๊น์ง ์์ธกํด์ anchor(target network)์ predict์ ์์ธกํ๋ ๋ฐฉ์์
: ์ด ๋, L2 loss๋ฅผ ํตํด์ online network gradient๋ฅผ ์ ๋ฐ์ดํธ ํด์ฃผ๊ณ , ์ ๋ฐ์ดํธํ ํ๋ผ๋ฏธํฐ ๊ฐ๊ณผ, ๊ธฐ์กด target network์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ํ์ฉํด์ ์ด๋ํ๊ท ํด์ target ์ ์ ๋ฐ์ดํธ ํจ
โป L2 loss๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ negative sample์ด ์๊ธฐ ๋๋ฌธ
โป ์ฌ๊ธฐ์ momentum encoder๋ online network์์ ๋์จ ํ๋ผ๋ฏธํฐ ๊ฐ๊ณผ target network ํ๋ผ๋ฏธํฐ๋ก ์ด๋ํ๊ท ํด์ target๊ฐ์ ์ ๋ฐ์ดํธ ํด์ฃผ๋ ๋ฐฉ์์ ์๋ฏธํ๊ณ , ์ ๋ฐ์ดํธ ๊ท์น์ด ๊ธฐ์กด momentum์ฒ๋ผ ์ฒ์์๋ 0.99๋ก ๊ฐ์ค์น๋ฅผ ์คฌ๋ค๊ฐ ์ ์ ์ค์ด๋ ๋ฐฉ์์ผ๋ก ์ ๋ฐ์ดํธํด์ ๋ถ์ฌ์ง ๋ง ๊ฐ์.
์ถ๊ฐ ๊ธฐ๋ณธ ์ฉ์ด
ViT
: ViT(Vision Transformer)๋ vision task๋ฅผ ์ํ Transformer ์ํคํ ์ฒ๋ฅผ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ ์ฉํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ก, ์ด๋ฏธ์ง๋ฅผ ์ผ์ ํฌ๊ธฐ์ ํจ์น๋ก ๋ถํ ํ์ฌ Transformer์ self-attention ๋ฉ์ปค๋์ฆ์ ํ์ฉํด ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ์
Self Distillation
: ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์ต๋ ๋ชจ๋ธ์ธ ํ์ ๋ชจ๋ธ๊ณผ, ํด๋น ๋ชจ๋ธ์ ์ง์์ ์ ๋ฌํด์ฃผ๋ ๋ชจ๋ธ์ธ ์ ์๋ ๋ชจ๋ธ ์ฌ์ด์ ์ ์ฌ์ฑ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ง์ ์ ๋ฌ์ ํตํด ํ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ธฐ๋ฒ
๐ป DINO์์ฝ
: Self-distillation with no labels
: ViT (vision Transformer)์ SSL (Self-Supervised Learning)์ ์ ์ฉํด๋ณด์!
: DINO์ ๊ฒฝ์ฐ, ๊ฐ์ฒด์๋ง attention map์ด ํ์ฑํ ๋์ด์์
⇒ ๋ฐฐ๊ฒฝ ์ ๋ณด์๋ ๋ ์์กดํ๋ค ๋ผ๊ณ ๋งํ ์ ์์ ↔๏ธ classification์ ๊ฒฝ์ฐ, ๋ฐฐ๊ฒฝ ์ ๋ณด๋ ํ์ฉ
<์ฃผ์ ํน์ง>
(1) Cross-entropy loss
(2) multi-crop
(3) mean teacher
(4) centering, sharpening
0. ABSTRACT
: ์ด ๋ ผ๋ฌธ์ Vision Transformer(ViT)์ ๋ํด Self-Supervised learning)์ด conv์ ๋น๊ตํด์ ์๋ก์ด ํน์ฑ์ ์ ๊ณตํ๋์ง์ ๋ํด ์๋ฌธ์ ์ ๊ธฐ
ํน์ง
1) DINO๋ image์ sementic segmentaion์ ๋ํ ๋ช ์์ ์ธ ์ ๋ณด๋ฅผ ํฌํจํจ
2) ์ฐ์ํ K-NN ๋ถ๋ฅ๊ธฐ
3) Momentum encoder, multi-crop, ์์ ํจ์น ์ฌ์ฉ์ ์ค์์ฑ ๊ฐ์กฐ
1. INTRODUCTION
: Transformer๋ ์ต๊ทผ์ ์ปจ๋ณผ๋ฃจ์ ์ ๊ฒฝ๋ง(convnets) ๋์์ผ๋ก ๋ฑ์ฅ
: ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ์ง๋ํ์ต์ ์ฌ์ฉ์ผ๋ก ์ค๋ช ๋ ์ ์๋์ง์ ๋ํด ์๋ฌธ์ ์ ๊ธฐํจ
: ๊ธฐ์กด NLP์์ Transformer์ ์ฑ๊ณต์ ์ฃผ์ ๊ตฌ์ฑ ์ค ํ๋๊ฐ BERT ๋ฐ GPT์ ์๊ธฐ์ง๋ ํ์ต์ ์ฌ์ฉ์ด์์
: ์ด๋ฅผ ๋๊ธฐ ์ผ์ ViT์ SSL์ ์ ์ฉํจ
2. RELATED WORK2-1) Self-supervised learning.
: instance classification์ ์๊ธฐ ์ง๋ ํ์ต์ ํ ์ข ๋ฅ๋ก์จ, ์ด๋ฏธ์ง๋ค์ ์๋ก ๋ค๋ฅธ ํด๋์ค๋ก ๊ฐ์ฃผํด์ ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ฐฉ๋ฒ์
: ์ฃผ๋ก data augmentation์ ์ฌ์ฉํด์ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ๋ถ
↔๏ธ ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ ๊ฒฝ์ฐ, ์ด๋ฏธ์ง ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ํ์ฅ์ฑ์ด ๋จ์ด์ง๋ค๋ ๋ฌธ์ ์กด์ฌ
: ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ ์ฐ๊ตฌ๋ค์ instance๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ ๋์ ์ด๋ฏธ์ง ๊ฐ์ ์ ์ฌ์ฑ์ ํ์ตํด์ ๋น์ง๋ ํน์ง์ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค (์ด๋ฏธ์ง๋ค์ ํน์ฑ์ ์ถ์ถํ๊ณ ์ด ํน์ฑ๋ค์ ์๋ก ๋งค์นญํด์ ํ์ต ⇒ ๋ ๋ง์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋๋ฐ ์ ๋ฆฌํจ)
: ๊ทธ ์ค์์๋ BYOL์ด๋ผ๋ ๋ฐฉ๋ฒ์ momentum encoder๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ ์ด๋ฏธ์ง๋ค์ ํน์ฑ์ ๋งค์นญํ๊ณ , ํ์ตํจ
: BYOL์ ์๊ธฐ ์ง๋ ํ์ต์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค + ๋ ์ด๋ธ์ด ์๋ ์ํ์์๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑ
โก๏ธ ๋ฐ๋ผ์, BYOL์ ์๊ฐ์ผ๋ก + ๊ต์ฌ/ํ์ architecture์ ์ฌ์ฉํจ
2-2) Self-training and knowledge distillation.
: ์์ ๋คํธ์ํฌ๋ฅผ ํ๋ จํ์ฌ ํฐ ๋คํธ์ํฌ์ ์ถ๋ ฅ์ ๋ชจ๋ฐฉํ์ฌ ๋ชจ๋ธ์ ์์ถํ๋ ๋ฐ ์ฌ์ฉ
3. APPROACH
3-1) SSL with Knowledge Distillation
: knowledge distillation
โก๏ธ ๊ต์ฌ ๋คํธ์ํฌ gθt์ ์ถ๋ ฅ๊ณผ ์ผ์นํ๋๋ก ํ์ ๋คํธ์ํฌ gθs๋ฅผ ํ๋ จํ๋ ํ์ต ๋ฐฉ์
(gθt๋ ์ฌ์ ์ ํ๋ จ๋ ๋ฏธ๋ฆฌ ์ค๋น๋ ๋คํธ์ํฌ๋ก, ํ์ ๋คํธ์ํฌ gθs๋ gθt์ ์ถ๋ ฅ๊ณผ ์ผ์นํ๋๋ก ํ์ตํ๋ ๊ณผ์ ์์ ์ ๋ฐ์ดํธ๋๋ ๋คํธ์ํฌ์)
: θs์ θt๋ ๊ฐ๊ฐ ํ์ ๋คํธ์ํฌ์ ๊ต์ฌ ๋คํธ์ํฌ์ ๋งค๊ฐ๋ณ์(๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์๋ฏธ)
: ์ด๋ฏธ์ง x๊ฐ ์ฃผ์ด์ก์ ๋ ๋ ๋คํธ์ํฌ ๋ชจ๋ K์ฐจ์์ ํ๋ฅ ๋ถํฌ Ps์ Pt(๊ฐ๊ฐ์ output ๊ฐ)๋ฅผ ์ถ๋ ฅํจ
: ์ด ๋, ํ๋ฅ ๋ถํฌ P๋ ๋คํธ์ํฌ g์ ์ถ๋ ฅ์ softmax function์ผ๋ก ์ ๊ทํํด์ ์ป์
: τs>0 ์ τt>0๋ temperature parameter์ด๋ฉฐ ์ถ๋ ฅ ๋ถํฌ์ ๋พฐ์กฑํ ์ ๋๋ฅผ ์กฐ์ ํจ (๋ค์์ ์ค๋ช )
: ๊ณ ์ ๋ teacher ๋คํธ์ํฌ gθt๊ฐ ์ฃผ์ด์ง ์ํ์์, student ๋คํธ์ํฌ์ ๋งค๊ฐ๋ณ์ θs์ ๋ํด ๋ถํฌ๋ฅผ ์ผ์น์ํค๊ธฐ ์ํด ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ์ต์ํํ๋ ค๊ณ
โป H(a,b)=−alogb
: Ps(a)์ Pt(a)๋ ๊ฐ๊ฐ student์ teacher ๋คํธ์ํฌ๊ฐ ์ถ๋ ฅํ ๋์ผํ ํด๋์ค a์ ๋ํ ํ๋ฅ
: student ๋คํธ์ํฌ๋ teacher ๋คํธ์ํฌ์ ์ถ๋ ฅ ๋ถํฌ์ ์ ์ฌํ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์์ฑํ๋๋ก ์ ๋๋จ( ํ์์ด ์ ์๋์ฒ๋ผ ๋๋๋ก ํ์ต๋จ )
๐ป self-supervised learning์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ
: multi-crop์ ์ฌ์ฉํด์ ์ฃผ์ด์ง ํ๋์ ์ด๋ฏธ์ง์์ ๋ ๊ฐ์ง์ view๋ก ๊ตฌ์ฑํจ
- ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ๋ด๊ณ ์๋ ๊ธ๋ก๋ฒ ๋ทฐ(global view)
- 224x224 ํด์๋์ 2๊ฐ์ ์ ์ญ ๋ทฐ์ ์๋ณธ ์ด๋ฏธ์ง์ ํฐ ์์ญ (์: 50% ์ด์)์ ํฌํจ
- ์ด๋ฏธ์ง์ ์์ ์ง์ญ๋ง์ ํฌํจํ๋ ๋ก์ปฌ ๋ทฐ(local view)
- 96x96 ํด์๋์ ์ฌ๋ฌ ๋ก์ปฌ ๋ทฐ์ ์๋ณธ ์ด๋ฏธ์ง์ ์์ ์์ญ (์: 50% ๋ฏธ๋ง)์ ํฌํจํ๋ ๋ฐฉ์์ ์ฌ์ฉ
1) local + global (student input์ผ๋ก ๋ค์ด๊ฐ)
2) global (teacher input์ผ๋ก ๋ค์ด๊ฐ)
โก๏ธ local์์ global ๋์์ ์ ๋ํ์ (๊ธ๋ก๋ฒ ๋ทฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ก์ปฌ ๋ทฐ์์ ๊ด๊ณ๋ฅผ ํ์ต)
: ์๋์ loss๋ฅผ ์ต์ํํจ
⇒ ๋ ๋คํธ์ํฌ ๋ชจ๋(์ ์, ํ์) ๋ค ๊ฐ์ architecture์ ๊ฐ์ง์ง๋ง, ์๋ก ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ θs์ θt ๋ฅผ ๊ฐ์ง
: θs๋ SGD(ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ)์ ์ฌ์ฉํด์ ๋งค๊ฐ๋ณ์๋ฅผ ์ ๋ฐ์ดํธํจ (์ ์์ ์ด๋ฏธ ํ์ต๋์ด์์-์๋ ์ฐธ๊ณ )
Teacher network
: Knowledge distillation๊ณผ ๋ค๋ฅด๊ฒ ์ฌ์ ์ง์์ผ๋ก teacher network gθt๋ฅผ ๊ฐ๊ธฐ ์๊ธฐ์, teacher network๋ฅผ student network์ ์ด์ iteration์ผ๋ก ๊ตฌ์ถํ์์
: <Freeze> Teacher Network๋ ํ epoch ๋์ ๋๊ฒฐ(freeze)๋จ. ์ด๋ ํ์ ๋คํธ์ํฌ๋ฅผ ํ๋ จํ๋ ๋์ teacher network์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ์ง ์๊ณ ๊ณ ์ ํ์ฌ ์ฌ์ฉํ๋ ๊ฒ์ ์๋ฏธํจ
๐ป teacher network ์ด๋ค๊ฑธ๋ก?
: <ํ์ ๊ฐ์ค์น๋ฅผ teacher ๊ฐ์ค์น๋ก > student์ ๊ฐ์ค์น๋ฅผ teacher์ ๊ฐ์ค์น๋ก ์ง์ ๋ณต์ฌํ๋ ๋ฐฉ๋ฒ์ด ์๋๋์์ผ๋, ์๋ ดํ์ง ์์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชปํ๋ค๊ณ ํจ
: <momentum encoder> Student์ ๊ฐ์ค์น์ exponential moving average (EMA)๋ฅผ ์ฌ์ฉํ๋ momentum encoder๋ฅผ ์ฌ์ฉํ๋ค๊ณ .
⇒ ์ ๋ฐ์ดํธ ๊ท์น: θt ← λθt + (1 - λ)θs
: λ๋ ํ๋ จ ์ค์ 0.996์์ 1๋ก ์ฆ๊ฐํ๋ ์ฝ์ฌ์ธ ์ค์ผ์ค์ ๋ฐ๋ฆ
: ์๋๋ momentum encoder๊ฐ contrastive learning์์ ์ฌ์ฉ๋์์ผ๋, DINO๋ ํ(์๋ชฐ๋ผ)๋ contrastive loss๊ฐ ์๊ธฐ์ momentum encoder๊ฐ mean teacher(๋ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ๊ท ํด์ ์๋ก์ด ๋ชฉํ ํน์ง์ ์์ฑํ๊ณ , ํ์ ๋ชจ๋ธ์ ์ด ์๋ก์ด ๋ชฉํ ํน์ง์ผ๋ก ํ๋ จ ⇒ ํ์์ ์ ์ ํน์ง์ ๋ ํ์ต ์ํ๊ฒ๋)์ ์ญํ ์ ํจ
: ํ์ต ์ค์๋ teacher๊ฐ student๋ณด๋ค ๋ ์ฑ๋ฅ์ด ์ข์ผ๋ฉฐ, teacher๊ฐ target feature๋ค์ ๊ณ ํ์ง๋ก ์ ๊ณตํ์ฌ student์ ํ์ต์ guideํจ
Network architecture
: ๋ชจ๋ธ(g)๋ ViT๋ ResNet backbone f (ViT [19] ๋๋ ResNet [34])์ projection head h๋ก ๊ตฌ์ฑ๋จ
: (g=hโf) Projection head๋ layer 3๊ฐ์ MLP, L2์ ๊ทํ, ๊ฐ์ค์น๊ฐ ์ ๊ทํ๋ FC layer๋ก ๊ตฌ์ฑ
: ViT ์ํคํ ์ฒ๋ ๊ธฐ๋ณธ์ ์ผ๋ก batch ์ ๊ทํ(BN)๋ฅผ ์ฌ์ฉํ์ง ์์
: ์ ์ฒด architecture์ BN์ด ์์
Avoiding collapse
โป collapse: ๋ชจ๋ธ์ด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๊ฒ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ธ์ฝ๋ฉํ์ง ์๊ณ , ๊ฐ ์ ๋ ฅ์ ๋ํด ์ผ์ ํ ํน์ ํ ๊ฐ์ผ๋ก ์๋ ดํ์ฌ ์ ๋ณด๋ฅผ ์์ด๋ฒ๋ฆฌ๋ ํ์ (ํน์ ์ฐจ์์ด ์ง๋์น๊ฒ ์ฐ์ธํด์ ธ์, ๋ชจ๋ธ์ด ๊ทธ ์ฐจ์์ ๋ํ ์ ๋ณด๋ง์ ์ฌ์ฉํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ ์ํ๋ฅผ ๋งํจ)
: self-supervised ๋ฐฉ๋ฒ์ด contrastive loss, clustering constraints, predictor, BN ๋ฑ์ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก collapse๋ฅผ ํผํ๋ ค๊ณ ํจ
⇒ DINO๋ momentum teacher output์ ์ ๋ ฌํ๊ณ , centering ๋ฐ sharpening์ผ๋ก ํด๊ฒฐํจ
1) Centering
: ์์ ์ ๊ธฐ์ค์ผ๋ก ์ค์ฌํ(ํน์ง๋ค์ ํ๊ท ์ ๊ณ์ฐํ์ฌ ํด๋น ๊ฐ์ ํน์ง๋ค์์ ๋นผ๋ ๋ฐฉ)
: ์ด๋ค ํน์ ์ฐจ์์ด ๋ค๋ฅธ ์ฐจ์์ ๋นํด ์ง๋์น๊ฒ ์ฐ์ธํด์ง๋ ๊ฒ์ ๋ฐฉ์ง
: ์ฆ, ํน์ ์ฐจ์์ด ์ง๋์น๊ฒ ํฐ ๊ฐ์ ๊ฐ์ง์ง ์๋๋ก ๋ณด์ ํ๋ ์ญํ ์ ํจ
: centering์ด ์ ์ฉ๋๋ฉด ๋ชจ๋ธ์ ํน์ง๋ค์ด ๊ท ์ผํ ๋ถํฌ๋ก ๋ณํ๋จ. ์ฆ, ๋ชจ๋ธ์ ์ถ๋ ฅ ํน์ง๋ค์ด ๋ชจ๋ ๋น์ทํ ๊ฐ์ผ๋ก ์๋ ดํ๊ฒ ๋๋๋ฐ, ์ด๋ก ์ธํด ๋ชจ๋ ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ๊ฑฐ์ ๋์ผํ ํน์ง์ผ๋ก ์ฌ์๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ ๋จ
2) Sharpening
: ํน์ง๋ค์ ๋ถํฌ๋ฅผ ์กฐ์ ํด์, ๋ ๋๋ ทํ๊ณ ์ ๋ช ํ ๋ถํฌ๋ฅผ ์ป๋ ๊ฒ์ ์๋ฏธ.
: Temperature parameter (τ)๋ผ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์ฌ softmax ํจ์์ ์ ๋ช ๋๋ฅผ ์กฐ์ .
: Temperature ๊ฐ์ด ๋ฎ์์๋ก softmax ํจ์์ ๋ถํฌ๊ฐ ๋ sharpํด์ง๊ณ , ๊ฐ์ด ๋์์๋ก ๋ ๊ท ์ผํ ๋ถํฌ๊ฐ ๋จ
⇒ ๋ถ๊ดด๋ฅผ ๋ฐฉ์งํจ. But, centering์ ํจ์ผ๋ก์จ ์์ ์ฑ์ ์ป์ง๋ง, batch์ ๋ํ ์์กด์ฑ์ด ์ค์ด๋ ๋ค๊ณ ํจ (centering์์์ ํ๊ท ๊ฐ ์ฌ์ฉ์ ํด๋น ๋ฐฐ์น์ ํน์ง๋ค์ ๋ํ ํต๊ณ ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์, ๋ค๋ฅธ ๋ฐฐ์น์ ๋ํด์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์๋ค๋ ๋ง์)
⇒ 1์ฐจ ๋ฐฐ์น ํต๊ณ์๋ง ์์กดํ๋ค๊ณ .
: ๊ฒฐ๊ตญ, centering๊ณผ sharpening์ ์ญํ ์ teacher์ bias ํญ์ ์ถ๊ฐํ๋ ๊ฒ๊ณผ ๊ฐ์ ๋ป์.
: c๋ EMA๋ก ์ ๋ฐ์ดํธ ๋จ. batch size๊ฐ ๋ค๋ฅด๋๋ผ๋ ์ ์๋ํ๋ค๊ณ ํจ
: m>0 ์ ์ด๋ํ๊ท ์ ๊ณ์ฐํ๋๋ฐ ์ฌ์ฉํ๋ ๋น์จ ํ๋ผ๋ฏธํฐ (ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ์ค์ํ๊ฒ ๋ฐ์๊ฑด์ง์ ๋ํ ๊ฐ์ค์น ํ๋ผ๋ฏธํฐ - ๋๋ค๋ ๊ฐ์ ์ญํ ์ธ ๋ฏ)
: B๋ batch size
3-2) Implementation and evaluation protocols
Vision Transformer: ViT ์ํคํ ์ฒ๋ ํด์๋ N × N์ ๊ฒน์น์ง ์๋ ์ด๋ฏธ์ง patch grid๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์
: N = 16 (" /16 ") ๋๋ N = 8 (" /8 ")์ ์ฌ์ฉ
: ํจ์น๋ค์ ์ ํ ๋ ์ด์ด๋ฅผ ํตํด ์๋ฒ ๋ฉ ์งํฉ์ผ๋ก ๋ณํ
: ์ ์ฒด ์ ๋ณด๋ฅผ ๋ณผ ์ ์๋๋ก ํ ํฐ ํ๋๋ฅผ ์ถ๊ฐํจ + ์ถ๋ ฅ์ projection head h๋ฅผ ์ฐ๊ฒฐ
: ์ด ํ ํฐ์ ์ด๋ ํ ๋ ์ด๋ธ์ด๋ supervision์ ์ฐ๊ฒฐ๋์ง๋ ์์ง๋ง ๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ์ ์ผ๊ด์ฑ์ ์ํด ํด๋์ค ํ ํฐ [CLS-Special Classificaiton token]์ด๋ผ ๋ถ๋ฆ (์ฒซ๋ฒ์งธ ์์ ํ ํฐ)
: ํจ์น ํ ํฐ๊ณผ [CLS] ํ ํฐ์ pre-norm layer normalization์ ๊ฐ์ง ํ์ค Transformer network์ ์ ๋ ฅ๋จ
: Transformer๋ self-attention๊ณผ feed-forward layer์ ์ํ์ค์ด๋ฉฐ skip connection ์ฌ์ฉ
: Self-attention layer๋ attention mechanism์ผ๋ก ๋ค๋ฅธ ํ ํฐ ํํ์ ๋ณด๊ณ ๊ฐ ํ ํฐ ํํ๋ค์ ์ ๋ฐ์ดํธ
Implementation details
: ๋ฐ์ดํฐ์ : ImageNet ๋ฐ์ดํฐ์ ์ ๋ ์ด๋ธ ์์ด ์ฌ์ ํ์ต
: batch size 1024, adamw optimizer, 16 GPUs
: learning rate๋ ์ฒ์ 10 epoch๋ง 0.005×batchsize/256๊น์ง warm up ํ cosine schedule๋ก decay
: weight decay: cosine schedule๋ก 0.04์์ 0.4
: τs=0.1, τt๋ 0.04์์ 0.07๋ก ์ด๋ฐ 30 epoch๋์ linear-warmup
: BYOL์ data augmentation (color jittering, Gaussian blur and solarization)๊ณผ multi-crop์ ์ฌ์ฉ
Evaluation protocols
- ์๋ต
<์ฐธ๊ณ >
http://dmqm.korea.ac.kr/activity/seminar/310
https://kyujinpy.tistory.com/44
https://kimjy99.github.io/๋ ผ๋ฌธ๋ฆฌ๋ทฐ/dino/
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization (0) | 2023.08.13 |
---|---|
STAR: Sparse Trained Articulated Human Body Regressor(2020) (0) | 2023.08.10 |
Expressive Body Capture: 3D Hands, Face, and Body from a Single Image (0) | 2023.08.04 |
BodyNet: Volumetric Inference of 3D Human Body Shapes (0) | 2023.08.03 |
mixup: Beyond Emprical Risk Minimization (0) | 2023.08.03 |