728x90
๋ฐ์ํ
1. Intro
- ๋ณธ ๋ ผ๋ฌธ์์๋ CNN์ ์ฑ๊ณต์ด Training Set์ ์์ด ์ปค์ง๋ฉด์ ์๊ธด ์ ํ์ ์ธ ์ด์ ๋ผ๊ณ ๋งํจ.
- ์ด์ ๊น์ง๋ CNN์ Classification์ ์ํด ๋ง์ด ์ฌ์ฉ๋์์ผ๋ ์๋ฌผํ ๋ถ์ผ์ ์์ ์ฒ๋ฆฌ์์๋ Localization์ด ์ค์ํ๊ณ , Semantic Segmentation์ ์ค์๋๊ฐ ๋์์.
- ํ์ง๋ง ์๋ฌผํ์ ๋ํ Sample์ ๊ฐ์๊ฐ 1000๊ฐ๋ฐ์ ๋์ง ์๋ ๊ฒ์ด ๋ค์.
- ๊ธฐ์กด์ ์ฌ์ฉํ๋ sliding-window 2๊ฐ์ง ๋จ์
- redundancy of over lapping patch(๊ฒน์น๋ ํจ์น์ ๋ถํ์ํ ์ค๋ณต์ฑ)์์ ์ฌ์ง์์ ๋ณด์ด๋ ๊ฒ๊ณผ ๊ฐ์ด patch๋ฅผ ์ฎ๊ธฐ๋ฉด์ ์ค๋ณต์ด ๋ฐ์ํ๊ฒ ๋จ=> ์ด ์ค๋ณต๋ ๋ถ๋ถ์ ์ด๋ฏธ ํ์ต๋(๊ฒ์ฆ๋) ๋ถ๋ถ์ ๋ค์ ํ์ตํ๋ ๊ฒ์ด๋ฏ๋ก ๋๊ฐ์ ์ผ์ ๋ฐ๋ณตํ๋ ๊ฒ๊ณผ ๊ฐ์. ์ฆ, ๋ถํ์ํ ์ค๋ณต์ ๋ํ ๋ด์ฉ๋ ํ์ตํ๊ธฐ ๋๋ฌธ์ ์๋๋ ๋๋ฆฌ๊ณ ์๊ฐ๋ ์ค๋ ๊ฑธ๋ฆผ
- trade-off between localization accuracy and use of context patch ์ฌ์ด์ฆ๊ฐ ํฌ๋ฉด, max pooling์ด ๋ ๋ง์ด ์ ์ฉ ๋๊ณ ์ ํํ ์์น ์ ๋ณด๋ฅผ ์๊ธฐ์๋ ์ด๋ ต์ง๋ง, ๋ ๋์ ๋ฒ์์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ธฐ ๋๋ฌธ์ context ์ธ์์๋ ํจ๊ณผ๋ฅผ ๊ฐ์ง.
⇒ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์์๋ Fully Convolutional network๋ฅผ ์๊ฐํจ.
1.5 U-net: Improved Sliding Window Search Method - input
- ๊ฒ์ฆ์ด ๋๋ ๋ถ๋ถ์ ํ์ง ์๊ณ ๋ค์ ํจ์น๋ถํฐ ์ฐ์ฐ ์งํ
⇒ ๊ธฐ์กด์ sliding window ๋จ์ ํด๊ฒฐ (์ฐ์ฐ + ์๋ ๋ถ๋ถ)
- ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํจ
1.5 U-net: Overlap tile Method (Strategy) - input
- U-net์ ๊ฒฝ์ฐ padding์ ์ฌ์ฉํ์ง ์์
- ๋ฐ๋ผ์ ์ถ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง๋ณด๋ค ํญ์ ์๊ธฐ ๋๋ฌธ์, input image ํฌ๊ธฐ๋ฅผ ๋๋ ค์ ์ฌ์ฉ
- ์๋ฅผ ๋ค์ด, ๋ ธ๋์ ๋ถ๋ถ ์์ญ์ segmentation์ด ํ์ํ๋ฉด ๊ทธ๊ฒ๋ณด๋ค ๋ ํฐ ๋ฒ์(ํ๋์ ๋ฒ์)์ ํจ์น๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฝ๊ณ , ์ถ๋ ฅ ํจ์น๋ก ์ฌ์ฉ.
- ์ด๋ฏธ์ง ๊ฒฝ๊ณ๋ถ๋ถ(์๋ ๋ถ๋ถ ex) padding์์ zero padding ๋ถ๋ถ)์ ๋ฏธ๋ฌ๋ง์ ํ์ฉ
- ์์ ์ฌ์ง๊ณผ ๊ฐ์ด ๊ฒน์น๋ ๋ถ๋ถ์ด ์ผ๋ถ ์กด์ฌํ๊ฒ ๋จ
2. Network Architecture
- ์ ์ฒด ๋คํธ์ํฌ: 23 conv
- Contraction Path
- CNN ์ด๋ฏธ์ง์ context๋ฅผ ํฌ์ฐฉํ ์ ์๋๋ก ํด์ค.
- Expansive path
- ์์์ง feature map์ Upsampling ํด์ ์๋ณธ ์ด๋ฏธ์ง์ ๋น์ทํ ํฌ๊ธฐ๋ก ๋๋ ค์ค ํ, Contracting Path์ feature map๊ณผ ๊ฒฐํฉํ์ฌ(ํ์ ํ์ดํ ๋ถ๋ถ) ๋ ์ ํํ ์์น ์ ๋ณด๋ฅผ ๊ฐ์ง segmentation map์ ์ป๊ฒ ๋จ.
- Contraction path
- ํ๋์ ๋ถ๋ถ: conv
- ๋๋ฒ์ 3x3 conv
- ReLU ์ฌ์ฉ
- ๋นจ๊ฐ์ ๋ถ๋ถ: max pooling
- 2x2 max pooling ์ฌ์ฉ
- channel 2๋ฐฐ์ฉ ๋๋ ค์ค
- Expansive Path
- ์ด๋ก์ ๋ถ๋ถ: up-sampling
- ํฌ๊ธฐ๋ฅผ ํค์์ค (2๋ฐฐ์ฉ)
- ํ๋์ ๋ถ๋ถ: conv
- ๋๋ฒ์ 3x3 conv
- ReLU ์ฌ์ฉ
- ํ์ ๋ถ๋ถ: concat
- contraction path์์ ์ถ์ถ๋ feature map (๊ฒฝ๊ณ ๋ถ๋ถ์ crop) ์ concat
- ์ข์ฐ๋ฐ์ → ํ์ฅ
- conv ์ฐ์ฐ ์ํํ ๋, ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ฒฝ๊ณ ๋ถ๋ถ์ ์ปค๋์ด ๊ฒน์ณ์ง์ง ์๊ธฐ์ ์ถ๋ ฅ ์ด๋ฏธ์ง์์ ์์ค๋ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธ
- ์ฆ, ๋ณดํต 3x3, 5x5 7x7 ํํฐ๋ฅผ ์ฌ์ฉํ๋๋ฐ, ๊ฐ์ฅ์๋ฆฌ ๋ถ๋ถ์ ๊ฒน์น๋ ๋ถ๋ถ์ด ๊ฑฐ์ ์์ด์ ์ ๋ณด๊ฐ ์์ค๋๋ค๊ณ ํํํจ
- ์ฒญ๋ก์ ๋ถ๋ถ: 1x1 conv
- ๋ง์ง๋ง์ class๋ฅผ 2๋ก ์ค์ (๋ฐฐ๊ฒฝvs์ธํฌ)
- ์ฌ๊ธฐ์ x์ y๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ฐ๋ก์ ์ธ๋ก ํฌ๊ธฐ๋ฅผ ์๋ฏธํจ.
- ์ต๋ ํ๋ง ์ฐ์ฐ์ ์ผ๋ฐ์ ์ผ๋ก ์ ๋ ฅ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ์ ๋ฐ์ผ๋ก ์ค์ด๋๋๋ฐ, ์ด ๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ํ์์ผ ๊ฒฝ์ฐ ์ ํํ ๋ฐ์ผ๋ก ๋๋๊ธฐ๊ฐ ์ด๋ ค์์ง.
- ๋ฐ๋ผ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ฐ๋ก์ ์ธ๋ก ํฌ๊ธฐ๊ฐ ์ง์์ธ ๊ฒฝ์ฐ, ์ต๋ ํ๋ง ์ฐ์ฐ์ด ๋ฐ์ผ๋ก ์ค์ด๋ค์์ ๋๋ ๋ชจ๋ ๋ ์ด์ด์์ ์ ์ฉ๋๋๋ก ํ ์ ์๋๋ก ํจ.
- ํ๋์ ๋ถ๋ถ: conv
3. Training
- ํ๋ฏธ๊ฒฝ์ผ๋ก ์ฐ์ ์ฌ
- color์ ๋ค๋ฅด๊ฒ ํ (์ ๋ต ๋ต์ง- ground truth)
- segmentation์ black and white๋ก ๋ง๋ ๊ฒฐ๊ณผ๊ฐ
- ์ธํฌ ๊ฒฝ๊ณ์ ํ์ต์ํจ ์ด๋ฏธ์ง
- ๊ฒฝ์ฌํ๊ฐ๋ฒ ์ฌ์ฉ
- GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ต๋ํ ํ์ฉํ๊ธฐ ์ํด ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ์ค์ด๊ณ , ํจ์น๋ฅผ ํฌ๊ฒ ํ์
- ํ์ง๋ง, ๋ฐฐ์น ์ฌ์ด์ฆ๊ฐ ์์ ๊ฒฝ์ฐ, ์ต์ ํ ์ ์๋จ
- ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋ชจ๋ฉํ ์ 0.99๋ก → ๊ณผ๊ฑฐ์ ๊ฐ์ด ๋ง์ด ๋ฐ์๋๋๋ก.
- softmax
- ์ ์ฒด ํด๋์ค ์ค ํด๋น ํด๋์ค์ผ ํ๋ฅ ๊ฐ
- ์๋์ง ํจ์: ์ต์ข ํผ์ณ ๋งต์ ๋ํ ํฝ์ ๋จ์์ ์ํํธ๋งฅ์ค์ ๊ต์ฐจ ์ํธ๋กํผ ์์ค ํจ์์ ๊ฒฐํฉ์ผ๋ก ๊ณ์ฐ๋จ.
- ์ธํฌ ์ฌ์ด์ ๊ฐ๊ฒฉ์ด ์งง์์ ์ธํฌ๋ณ๋ก ๊ตฌ๋ณ์ด ํ๋ ๊ฒฝ์ฐ๊ฐ ์๊ธฐ ๋๋ฌธ์, ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ธ์๋ก ๊ฐ์ค์น๋ฅผ ํฌ๊ฒ ํด์ ๋ถ๋ฆฌ๋ฅผ ํ์คํ๊ฒ ํด๋ฒ๋ฆผ.
- ์ธํฌ ์ฌ์ด์ ๋จ์ด์ง ๊ฐ๊ฒฉ์ด ์งง์ ์ธํฌ๋ณ๋ก ๊ตฌ๋ณ์ด ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ.
- wc: ๊ฐ๊ฐ ํด๋์ค๋ง๋ค ๋ฑ์ฅํ๋ ๋น๋์ ์กฐ์จ( ex: ๋ฐฐ๊ฒฝ๊ณผ ์ธํฌ์ ๋ฑ์ฅ ํ์ )
- d1(x): ์ฒซ๋ฒ์งธ๋ก ๊ฐ์ฅ ๊ฐ๊น์ด ์ธํฌ๊น์ง์ ๊ฑฐ๋ฆฌ → ์ฌ๊ธฐ์ x๋ ๋ ์ธํฌ ์ฌ์ด์ ์กด์ฌํ๋ ์ขํ๊ฐ
- d1(x): ๋ ๋ฒ์งธ๋ก ๊ฐ๊น์ด ์ธํฌ๊น์ง์ ๊ฑฐ๋ฆฌ
- σ=5, w_0 =10
++ ๊ฑฐ๋ฆฌ๊ฐ ์งง์์๋ก ๊ฐ์ค์น๋ฅผ ํฌ๊ฒ
ex) d1=2, d2=4์ธ ๊ฒฝ์ฐ, ๊ฐ์ 0.00000152299
d1=1, d2=3์ธ ๊ฒฝ์ฐ, ๊ฐ์ 0.00335๋ก ๊ฑฐ๋ฆฌ๊ฐ ์งง์์๋ก ๊ฐ์ค์น๊ฐ ํฌ๊ฒ ๋จ
์ฆ, ์ด ๋ง์ ์ธํฌ ๊ฐ์ ๋ถ๋ฆฌ๋ฅผ ํ์คํ๊ฒ ํ๊ฒ ๋ค!์ ์๋ฏธ๋ฅผ ๊ฐ์ง ์ ์์ (๋ถ๋ฆฌ๋ฅผ ๋ ์ํ๋๋ก)
- ๊ฐ์ค์น ์ด๊ธฐํ
- ํ ๋ด๋ฐ์ ๋ค์ด์ค๋ ๋ ธ๋ ๊ฐ์๋ฅผ n์ด๋ผ๊ณ ํ๋ค๋ฉด, root(2/n)์ ํ์ค ํธ์ฐจ๋ฅผ ๊ฐ์ง ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ์ด์ฉํด ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํ
- ReLU์ ์์ฃผ ์ฐ์ด๋ He initialization ์ฌ์ฉํจ
- ex) 3x3 CNN์ channel = 64์ธ feature map์ด ๋ค์ด์ค๋ฉด ํด๋น CNN์ N = 9*64 = 576๊ฐ์ ๊ฐ์ค์น ์ด๊ธฐํ
3.1 (Training) Data augmentation
- data augmentation์ ํ์ต ๋ฐ์ดํฐ์ ์ด ๋ง์ด ์์ ๋ ์ ์ฉํจ
- ํ๋ฏธ๊ฒฝ ๋ฑ์ผ๋ก ์ดฌ์ํ๋ ์ฌ์ง๋ค(microscopical image)์ ์๊น์ด ๋ค์ํ์ง ์๊ณ ํ์๋น๊น๋ก ์ด๋ฃจ์ด์ ธ์๊ณ ๊ฐ์ฒด๊ฐ ๊ตฌ๋ณ๋ ์ ๋ช ํ์ง ์๊ธฐ ๋๋ฌธ์ Data Augmentation์ ์ด์ฉํด ํ๋ถํ ๋ฐ์ดํฐ์ ์ ๋ง๋๋๊ฒ ๋์ฑ ํ์ํจ.
- ์ผ๋ฐ์ ์ธ augmentation(์ ํ๋ณํ) + ์ถ๊ฐ์ ์ผ๋ก Elastic Deformation ๋ฐฉ๋ฒ์ ์ฌ์ฉ → ๋น์ ํ์ ์ผ๋ก ๊ฐํจ
- ์ธํฌ๊ฐ ์ด์์๊ธฐ์, ์ธํฌ๋ ํญ์ ๋์ผ ๋ชจ์์ด ์๋ → ์๊ฐ์ ๋ณํ๋ค์ ์ ํํํ ์ ์๋ค๊ณ .
4. Experiments
4.1 EM segmentation challenge
- ์ฐ์ U-Net์ ์ ์ํ๋ฏธ๊ฒฝ์ผ๋ก ๊ด์ฐฐ๋๋ ๋ด๋ฐ ๊ตฌ์กฐ์์ cell segmentation task๋ฅผ ์ํ.
- EM segmentation challenge์์ ์ ๊ณต๋๋ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต.
- ๋ฐ์ดํฐ์ ์ ์ ์ ํ๋ฏธ๊ฒฝ์ผ๋ก ์ฐ์ 512 x 512 ํด์๋์ ์ด๋ฏธ์ง 30์ฅ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ ์ด๋ฏธ์ง์ ๊ฐ ๋ถ๋ถ์ ์ธํฌ๋ ํฐ์์ผ๋ก, ์ธํฌ๋ง(membrane)์ ๊ฒ์์์ผ๋ก ์์น ํ ground truth segmentation map์ ๋ง๋ฌ.
- ํ ์คํธ์ฉ ์ด๋ฏธ์ง๋ ์๋๋ฐ ground truth segmentation map์ ๊ณต๊ฐ๋์ง ์์๋ค๊ณ .
- U-net์ด ๊ฐ์ฅ ์ข์๋ค!
4.2 ISBI cell tracking challenge
- a, c๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง๊ณ b, d๊ฐ ground truth segmentation map
- a, c์ ๊ฐ์ด ๊ดํ ํ๋ฏธ๊ฒฝ์์ ์ป์ ์ด๋ฏธ์ง๋ก b, d์ ๊ฐ์ด ์ธํฌ๋ฅผ ๊ตฌ๋ณํ๋ task๋ฅผ U-Net์ด ์ผ๋ง๋ ์ ์ํํ๋์ง ์ํํด๋ด.
- U-net์ด ์ข์๋ค!
5. Conclusion
- U-Net์ ๋ค์ํ biomedical segmentation applications์์ "์์ฃผ" ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
- ์ ์๋ elastic deformation์ด ํฌํจ๋ Data augmentation ๋๋ถ์ ์ ์ ์ฌ์ด์ฆ์ ๋ฐ์ดํฐ์ ๋ง ์๊ตฌํ๊ณ ํฉ๋ฆฌ์ ์ธ ํ์ต ์๊ฐ(NVidia Titan GPU (6 GB)์์ 10์๊ฐ ํ์ต)์ ๊ฐ์ก๋ค๊ณ ๋งํจ.
- ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง์ผ๋ก U-Net์ ๊ตฌ์กฐ๊ฐ ๋ค์ํ task์ ์ฝ๊ฒ ์์ฉ๋ ์ ์์๊ฑฐ๋ผ ํ์ ํ๋ค๊ณ ๋งํ๋ฉฐ ๋ ผ๋ฌธ์ ๋๋ง์นจ.
6. Reference
728x90
๋ฐ์ํ
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Inception-v4, Inception-ResNetand the Impact of Residual Connections on Learning (0) | 2023.07.05 |
---|---|
Seq2Seq (0) | 2023.07.05 |
Bert (0) | 2023.07.05 |
VIT [AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE] (0) | 2023.07.05 |
RetinaNet (0) | 2023.07.05 |