728x90 ๋ฐ์ํ CV15 Inception-v4, Inception-ResNetand the Impact of Residual Connections on Learning ๐ก Inception-v1 Inception-v2 inception-v3 Inception-v2 ๊ตฌ์กฐ์์ ์์์ ์ค๋ช ํ ๊ธฐ๋ฒ๋ค์ ํ๋ํ๋ ์ถ๊ฐํด ์ฑ๋ฅ์ ์ธก์ ํ๊ณ , ๋ชจ๋ ๊ธฐ๋ฒ๋ค์ ์ ์ฉํ์ฌ ์ต๊ณ ์ฑ๋ฅ์ ๋ํ๋ด๋ ๋ชจ๋ธ์ด Inception-v3 Inception-v3์ Inception-v2์์ BN-auxiliary + RMSProp + Label Smoothing + Factorized 7x7 ์ ๋ค ์ ์ฉํ ๋ชจ๋ธ [๋ ผ๋ฌธ ์ฝ๊ธฐ] Inception-v3(2015) ๋ฆฌ๋ทฐ, Rethinking the Inception Architecture for Computer Vision ์ด๋ฒ์ ์ฝ์ด๋ณผ ๋ ผ๋ฌธ์ Rethinking the Inception Architecture for Computer Vision ์ ๋๋ค. ๋ณธ ๋ ผ.. 2023. 7. 5. U-Net 1. Intro ๋ณธ ๋ ผ๋ฌธ์์๋ CNN์ ์ฑ๊ณต์ด Training Set์ ์์ด ์ปค์ง๋ฉด์ ์๊ธด ์ ํ์ ์ธ ์ด์ ๋ผ๊ณ ๋งํจ. ์ด์ ๊น์ง๋ CNN์ Classification์ ์ํด ๋ง์ด ์ฌ์ฉ๋์์ผ๋ ์๋ฌผํ ๋ถ์ผ์ ์์ ์ฒ๋ฆฌ์์๋ Localization์ด ์ค์ํ๊ณ , Semantic Segmentation์ ์ค์๋๊ฐ ๋์์. ํ์ง๋ง ์๋ฌผํ์ ๋ํ Sample์ ๊ฐ์๊ฐ 1000๊ฐ๋ฐ์ ๋์ง ์๋ ๊ฒ์ด ๋ค์. ๊ธฐ์กด์ ์ฌ์ฉํ๋ sliding-window 2๊ฐ์ง ๋จ์ redundancy of over lapping patch(๊ฒน์น๋ ํจ์น์ ๋ถํ์ํ ์ค๋ณต์ฑ)์์ ์ฌ์ง์์ ๋ณด์ด๋ ๊ฒ๊ณผ ๊ฐ์ด patch๋ฅผ ์ฎ๊ธฐ๋ฉด์ ์ค๋ณต์ด ๋ฐ์ํ๊ฒ ๋จ=> ์ด ์ค๋ณต๋ ๋ถ๋ถ์ ์ด๋ฏธ ํ์ต๋(๊ฒ์ฆ๋) ๋ถ๋ถ์ ๋ค์ ํ์ตํ๋ ๊ฒ์ด๋ฏ๋ก ๋๊ฐ์ ์ผ์ ๋ฐ๋ณตํ๋ ๊ฒ๊ณผ .. 2023. 7. 5. VIT [AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE] ๐ก 0. Abstract While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on .. 2023. 7. 5. ์ด์ 1 2 3 ๋ค์ 728x90 ๋ฐ์ํ