0. Abstract
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train.1
Transformer ์ํคํ ์ฒ๋ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ์ฌ์ค์์ ํ์ค์ด ๋์์ง๋ง, ์ปดํจํฐ ๋น์ ์ ๋ํ ์ ์ฉ์ ์ ํ์ ์ ๋๋ค. ๋น์ ์์๋ ์ดํ ์ (Attention)์ด ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)๊ณผ ํจ๊ป ์ ์ฉ๋๊ฑฐ๋, ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ผ๋ถ ๊ตฌ์ฑ ์์๋ฅผ ๋์ฒดํ๋ ๋ฐ ์ฌ์ฉ๋์ง๋ง, ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ ์ ์ง๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ CNN์ ๋ํ ์์กด์ฑ์ด ํ์ํ์ง ์์ผ๋ฉฐ, ์ด๋ฏธ์ง ํจ์น(sequence of image patches)์ ์ง์ ์ ์ฉ๋ ์์ํ Transformer๊ฐ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์์ ๋งค์ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ๋๊ณ ์ฌ๋ฌ ์ค๊ฐ ๊ท๋ชจ ๋๋ ์์ ์ด๋ฏธ์ง ์ธ์ ๋ฒค์น๋งํฌ(ImageNet, CIFAR-100, VTAB ๋ฑ)๋ก ์ ์ด(Transfer)๋ Vision Transformer (ViT)์ ์ต์ฒจ๋จ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ๋นํด ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ฉด์ ํ๋ จ์ ํ์ํ ๊ณ์ฐ ์์์ ์๋นํ ์ค์ผ ์ ์์ต๋๋ค. [1]
1. Introduction
Self-attention-based architectures, in particular Transformers (Vaswani et al., 2017), have become the model of choice in natural language processing (NLP). The dominant approach is to pre-train on a large text corpus and then fine-tune on a smaller task-specific dataset (Devlin et al., 2019). Thanks to Transformers’ computational efficiency and scalability, it has become possible to train models of unprecedented size, with over 100B parameters (Brown et al., 2020; Lepikhin et al., 2020). With the models and datasets growing, there is still no sign of saturating performance. In computer vision, however, convolutional architectures remain dominant (LeCun et al., 1989; Krizhevsky et al., 2012; He et al., 2016). Inspired by NLP successes, multiple works try combining CNN-like architectures with self-attention (Wang et al., 2018; Carion et al., 2020), some replacing the convolutions entirely (Ramachandran et al., 2019; Wang et al., 2020a). The latter models, while theoretically efficient, have not yet been scaled effectively on modern hardware accelerators due to the use of specialized attention patterns. Therefore, in large-scale image recognition, classic ResNetlike architectures are still state of the art (Mahajan et al., 2018; Xie et al., 2020; Kolesnikov et al., 2020). Inspired by the Transformer scaling successes in NLP, we experiment with applying a standard Transformer directly to images, with the fewest possible modifications. To do so, we split an image into patches and provide the sequence of linear embeddings of these patches as an input to a Transformer. Image patches are treated the same way as tokens (words) in an NLP application. We train the model on image classification in supervised fashion.
์์ฐ์ด ์ฒ๋ฆฌ(NLP)์์๋ ํนํ Transformer (Vaswani et al., 2017)์ ๊ฐ์ Self-attention ๊ธฐ๋ฐ ์ํคํ ์ฒ๊ฐ ์ฃผ๋ฅ ๋ชจ๋ธ์ด ๋์์ต๋๋ค. ์ฃผ์ํ ์ ๊ทผ ๋ฐฉ์์ ํฐ ํ ์คํธ ๋ง๋ญ์น์์ ์ฌ์ ํ๋ จํ ๋ค์, ์์ ์์ ๋ณ ๋ฐ์ดํฐ์ ์์ ์ธ๋ฐํ๊ฒ ์กฐ์ ํ๋ ๊ฒ์ ๋๋ค (Devlin et al., 2019). Transformer์ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ ๋๋ถ์ 1000์ต ๊ฐ ์ด์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ํฌํจํ ์ด์ ์ ์๋ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ํ๋ จํ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค (Brown et al., 2020; Lepikhin et al., 2020). ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ์ด ๊ณ์ํด์ ์ปค์ง๋ฉด์ ์ฑ๋ฅ์ด ํฌํ๋๋ ๊ธฐ๋ฏธ๋ ์์ง ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ปดํจํฐ ๋น์ ์์๋ ์ฌ์ ํ ํฉ์ฑ๊ณฑ ์ํคํ ์ฒ๊ฐ ์ฐ์ธํฉ๋๋ค (LeCun et al., 1989; Krizhevsky et al., 2012; He et al., 2016). NLP์ ์ฑ๊ณต์ ์๊ฐ์ผ๋ก ํ์ฌ ์ฌ๋ฌ ์ฐ๊ตฌ์์๋ CNN๊ณผ Self-attention์ ๊ฒฐํฉํ๋ ค๋ ์๋๋ฅผ ํ๊ณ ์์ต๋๋ค (Wang et al., 2018; Carion et al., 2020). ์ผ๋ถ๋ ํฉ์ฑ๊ณฑ์ ์์ ํ ๋์ฒดํ๊ธฐ๋ ํฉ๋๋ค (Ramachandran et al., 2019; Wang et al., 2020a). ๊ทธ๋ฌ๋ ํ์์ ๋ชจ๋ธ์ ์ด์ฉ๋๋ ํน์ํ ์ดํ ์ ํจํด ๋๋ฌธ์ ํ๋์ ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ฅ๋์ง ๋ชปํ ์ํ์ ๋๋ค. ๋ฐ๋ผ์ ๋๊ท๋ชจ ์ด๋ฏธ์ง ์ธ์์์๋ ์ ํต์ ์ธ ResNet๊ณผ ์ ์ฌํ ์ํคํ ์ฒ๊ฐ ์ฌ์ ํ ์ต์ฒจ๋จ ๊ธฐ์ ์ ๋๋ค (Mahajan et al., 2018; Xie et al., 2020; Kolesnikov et al., 2020). NLP์์ Transformer์ ํ์ฅ ์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์ ์ต์ํ์ ์์ ์ผ๋ก ์ง์ ์ด๋ฏธ์ง์ Transformer๋ฅผ ์ ์ฉํ๋ ์คํ์ ์งํํ์์ต๋๋ค. ์ด๋ฅผ ์ํด ์ด๋ฏธ์ง๋ฅผ ํจ์น(patch)๋ก ๋ถํ ํ๊ณ , ์ด๋ฌํ ํจ์น๋ค์ ์ ํ ์๋ฒ ๋ฉ(sequence of linear embeddings)์ Transformer์ ์ ๋ ฅ์ผ๋ก ์ ๊ณตํฉ๋๋ค. ์ด๋ฏธ์ง ํจ์น๋ NLP ์์ฉํ๋ก๊ทธ๋จ์์์ ํ ํฐ(๋จ์ด)๊ณผ ๋์ผํ๊ฒ ์ฒ๋ฆฌ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํด ์ด ๋ชจ๋ธ์ ํ๋ จ์์ผฐ์ต๋๋ค.
When trained on mid-sized datasets such as ImageNet without strong regularization, these models yield modest accuracies of a few percentage points below ResNets of comparable size. This seemingly discouraging outcome may be expected: Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trained on insufficient amounts of data. However, the picture changes if the models are trained on larger datasets (14M-300M images). We find that large scale training trumps inductive bias. Our Vision Transformer (ViT) attains excellent results when pre-trained at sufficient scale and transferred to tasks with fewer datapoints. When pre-trained on the public ImageNet-21k dataset or the in-house JFT-300M dataset, ViT approaches or beats state of the art on multiple image recognition benchmarks. In particular, the best model reaches the accuracy of 88.55% on ImageNet, 90.72% on ImageNet-ReaL, 94.55% on CIFAR-100, and 77.63% on the VTAB suite of 19 tasks.
์ค๊ฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ธ ImageNet๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ์์ ๊ฐ๋ ฅํ ์ ๊ทํ(regularization) ์์ด ํ๋ จํ ๊ฒฝ์ฐ, ์ด๋ฌํ ๋ชจ๋ธ์ ๋น์ทํ ํฌ๊ธฐ์ ResNet์ ๋นํด ๋ช ๊ฐ์ ๋ฐฑ๋ถ์จ ์๋๋ก ๊ฒจ์ฐ ์ค์ํ ์ ํ๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ด๋ ์ ๋ ์์ํ ์ ์๋ ๊ฒฐ๊ณผ์ ๋๋ค. Transformer๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ๋ด์ฌ๋ ์ผ๋ถ ์ธ๋ํฐ๋ธ ๋ฐ์ด์ด์ค, ์๋ฅผ ๋ค์ด ์ด๋์ ๋ํ ๋ฑ๋ณ์ฑ(translation equivariance)๊ณผ ๊ตญ์์ฑ(locality)๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ๊ณ ์์ง ์์ผ๋ฉฐ, ๋ฐ๋ผ์ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ์ํฉ์์๋ ์ ์ผ๋ฐํ๋์ง ์์ ์ ์์ต๋๋ค.
ํ์ง๋ง ์ํฉ์ ๋ฐ์ดํฐ์ ์ด ํฐ ๊ฒฝ์ฐ(1400๋ง~3์ต ๊ฐ์ ์ด๋ฏธ์ง)์๋ ๋ฌ๋ผ์ง๋๋ค. ๋๊ท๋ชจ ํ๋ จ์ ์ธ๋ํฐ๋ธ ๋ฐ์ด์ด์ค๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. ์ฐ๋ฆฌ์ Vision Transformer (ViT)๋ ์ถฉ๋ถํ ๊ท๋ชจ๋ก ์ฌ์ ํ๋ จ๋ ํ, ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ์ ์ ์์ ์ ์ ์ด(transfer)๋ ๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ต๋๋ค. ImageNet-21k ๋ฐ์ดํฐ์ ์ด๋ ๋ด๋ถ JFT-300M ๋ฐ์ดํฐ์ ์ ๋ํด ์ฌ์ ํ๋ จ๋ ViT๋ ์ฌ๋ฌ ์ด๋ฏธ์ง ์ธ์ ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ๊ฒฝ๋กํ๊ฑฐ๋ ๋ฅ๊ฐํฉ๋๋ค. ํนํ, ์ต์์ ๋ชจ๋ธ์ ImageNet์์ 88.55%, ImageNet-ReaL์์ 90.72%, CIFAR-100์์ 94.55%, VTAB 19๊ฐ ์์ ์ ์ค์ํธ์์ 77.63%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
→ inductive bias: ํ์ต์ ๋ง๋๋ณด์ง ๋ชปํ๋ ์ํฉ์ ๋ํด ์ ํํ ์์ธก์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ์ถ๊ฐ์ ์ธ ๊ฐ์ ์ ์๋ฏธํจ (์ฌ์ ์ ๋ณด๋ฅผ ํตํด ์ถ๊ฐ๋ ๊ฐ์ )
- Vision ์ ๋ณด๋ ์ธ์ ํฝ์ ๊ฐ์ locality(๊ทผ์ ํฝ์ ๋ผ๋ฆฌ์ ์ข ์์ฑ)๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ ๋ฏธ๋ฆฌ ์๊ณ ์๊ธฐ ๋๋ฌธ์ Conv๋ ์ธ์ ํฝ์ ๊ฐ์ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก ์ค๊ณ๋์ด Conv์ inductive bias๊ฐ local ์์ญ์์ spatial ์ ๋ณด๋ฅผ ์ ๋ฝ์๋.+ transitional Invariance(์ฌ๋ฌผ ์์น๊ฐ ๋ฐ๋์ด๋ ๋์ผ ์ฌ๋ฌผ ์ธ์)๋ฑ์ ํน์ฑ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ํฉํ ๋ชจ๋ธ์
- ๋ฐ๋ฉด, MLP์ ๊ฒฝ์ฐ, all(input)-to-all (output) ๊ด๊ณ๋ก ๋ชจ๋ weight๊ฐ ๋ ๋ฆฝ์ ์ด๋ฉฐ ๊ณต์ ๋์ง ์์ inductive bias๊ฐ ๋งค์ฐ ์ฝํจ.
- Transformer๋ attention์ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ชจ๋ ์์๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ๋ฏ๋ก CNN๋ณด๋ค๋ Inductive Bias๊ฐ ์๋ค๋ผ๊ณ ํ ์ ์์.
→ CNN > Transformer > Fully Connected
→ inductive bias๊ฐ ์ปค์ง์๋ก generalizaion์ด ๋จ์ด์ง (๋์ trade off ๊ด๊ณ)
2. Related Work
Transformers were proposed by Vaswani et al. (2017) for machine translation, and have since become the state of the art method in many NLP tasks. Large Transformer-based models are often pre-trained on large corpora and then fine-tuned for the task at hand: BERT (Devlin et al., 2019) uses a denoising self-supervised pre-training task, while the GPT line of work uses language modeling as its pre-training task (Radford et al., 2018; 2019; Brown et al., 2020). Naive application of self-attention to images would require that each pixel attends to every other pixel. With quadratic cost in the number of pixels, this does not scale to realistic input sizes. Thus, to apply Transformers in the context of image processing, several approximations have been tried in the past. Parmar et al. (2018) applied the self-attention only in local neighborhoods for each query pixel instead of globally. Such local multi-head dot-product self attention blocks can completely replace convolutions (Hu et al., 2019; Ramachandran et al., 2019; Zhao et al., 2020). In a different line of work, Sparse Transformers (Child et al., 2019) employ scalable approximations to global selfattention in order to be applicable to images. An alternative way to scale attention is to apply it in blocks of varying sizes (Weissenborn et al., 2019), in the extreme case only along individual axes (Ho et al., 2019; Wang et al., 2020a). Many of these specialized attention architectures demonstrate promising results on computer vision tasks, but require complex engineering to be implemented efficiently on hardware accelerators.
Transformers์ Vaswani et al. (2017)์ ์ํด ๊ธฐ๊ณ ๋ฒ์ญ์ ์ํด ์ ์๋์์ผ๋ฉฐ, ๊ทธ ์ดํ๋ก ๋ง์ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ ์์ ์ต์ฒจ๋จ ๊ธฐ๋ฒ์ด ๋์์ต๋๋ค. ๋๊ท๋ชจ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ํฐ ๋ง๋ญ์น์์ ์ฌ์ ํ๋ จ๋ ํ ํด๋น ์์ ์ ๋ํด ์ธ๋ฐ ์กฐ์ (fine-tuning)๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, BERT (Devlin et al., 2019)๋ ์ค์ญ ๋ณด์ ์๊ธฐ์ง๋ ํ์ต ์ฌ์ ํ๋ จ ์์ ์ ์ฌ์ฉํ๊ณ , GPT ์๋ฆฌ์ฆ๋ ์ธ์ด ๋ชจ๋ธ๋ง์ ์ฌ์ ํ๋ จ ์์ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค (Radford et al., 2018; 2019; Brown et al., 2020).
์ด๋ฏธ์ง์ ๋ํด self-attention์ ๋จ์ํ ์ ์ฉํ๋ฉด ๊ฐ ํฝ์ ์ด ๋ค๋ฅธ ๋ชจ๋ ํฝ์ ์ ์ฐธ์ฌํด์ผ ํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ํฝ์ ์์ ๋ํ ์ด์ฐจ ๋น์ฉ ๋๋ฌธ์ ์ค์ ์ ๋ ฅ ํฌ๊ธฐ๋ก ํ์ฅ๋์ง ์์ต๋๋ค. ๋ฐ๋ผ์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ๋งฅ๋ฝ์์ Transformer๋ฅผ ์ ์ฉํ๊ธฐ ์ํด ๊ณผ๊ฑฐ์๋ ์ฌ๋ฌ ๊ฐ์ง ๊ทผ์ฌ ๋ฐฉ๋ฒ์ด ์๋๋์์ต๋๋ค. Parmar et al. (2018)์ ์ ์ญ์ ์ผ๋ก๊ฐ ์๋ ๊ฐ ์ฟผ๋ฆฌ ํฝ์ ์ ๋ํด ๋ก์ปฌ ์ด์์์๋ง self-attention์ ์ ์ฉํ์ต๋๋ค. ์ด๋ฌํ ๋ก์ปฌ ๋ค์ค ํค๋ ์ ๊ณฑ self-attention ๋ธ๋ก์ ํฉ์ฑ๊ณฑ์ ์์ ํ ๋์ฒดํ ์ ์์ต๋๋ค (Hu et al., 2019; Ramachandran et al., 2019; Zhao et al., 2020). ๋ค๋ฅธ ์ฐ๊ตฌ ๋ฐฉํฅ์์ Sparse Transformers (Child et al., 2019)๋ ์ด๋ฏธ์ง์ ์ ์ฉ ๊ฐ๋ฅํ๋๋ก ํ์ฅ ๊ฐ๋ฅํ ๊ทผ์ฌ ๋ฐฉ๋ฒ์ ์ ์ญ self-attention์ ์ ์ฉํฉ๋๋ค. attention์ ํ์ฅํ๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅธ ๋ธ๋ก์ ์ ์ฉํ๋ ๊ฒ์ ๋๋ค (Weissenborn et al., 2019), ๊ทน๋จ์ ์ธ ๊ฒฝ์ฐ์๋ ๊ฐ๊ฐ์ ์ถ์ ๋ฐ๋ผ๋ง ์ ์ฉํฉ๋๋ค (Ho et al., 2019; Wang et al., 2020a). ์ด๋ฌํ ํน์ํ๋ attention ์ํคํ ์ฒ ์ค ๋ง์ ๊ฒ๋ค์ด ์ปดํจํฐ ๋น์ ์์ ์์ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ด์ง๋ง, ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ํจ์จ์ ์ผ๋ก ๊ตฌํํ๊ธฐ ์ํด ๋ณต์กํ ์์ง๋์ด๋ง์ด ํ์ํฉ๋๋ค.
Most related to ours is the model of Cordonnier et al. (2020), which extracts patches of size 2 × 2 from the input image and applies full self-attention on top. This model is very similar to ViT, but our work goes further to demonstrate that large scale pre-training makes vanilla transformers competitive with (or even better than) state-of-the-art CNNs. Moreover, Cordonnier et al. (2020) use a small patch size of 2 × 2 pixels, which makes the model applicable only to small-resolution images, while we handle medium-resolution images as well. There has also been a lot of interest in combining convolutional neural networks (CNNs) with forms of self-attention, e.g. by augmenting feature maps for image classification (Bello et al., 2019) or by further processing the output of a CNN using self-attention, e.g. for object detection (Hu et al., 2018; Carion et al., 2020), video processing (Wang et al., 2018; Sun et al., 2019), image classification (Wu et al., 2020), unsupervised object discovery (Locatello et al., 2020), or unified text-vision tasks (Chen et al., 2020c; Lu et al., 2019; Li et al., 2019). Another recent related model is image GPT (iGPT) (Chen et al., 2020a), which applies Transformers to image pixels after reducing image resolution and color space. The model is trained in an unsupervised fashion as a generative model, and the resulting representation can then be fine-tuned or probed linearly for classification performance, achieving a maximal accuracy of 72% on ImageNet.
Cordonnier et al. (2020)์ ๋ชจ๋ธ์ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ํฌ๊ธฐ๊ฐ 2 × 2์ธ ํจ์น๋ฅผ ์ถ์ถํ๊ณ ์ด์ ๋ํด ์ ์ฒด self-attention์ ์ ์ฉํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ViT์ ๋งค์ฐ ์ ์ฌํ์ง๋ง, ์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ์ฌ์ ํ๋ จ์ ํตํด ๊ธฐ๋ณธ Transformer๊ฐ ์ต์ฒจ๋จ CNN๊ณผ ๊ฒฝ์ํ ์ ์์์ ๋ ๋์๊ฐ ์ฆ๋ช ํฉ๋๋ค. ๊ฒ๋ค๊ฐ Cordonnier et al. (2020)์ 2 × 2 ํฝ์ ์ ์์ ํจ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์์ ํด์๋์ ์ด๋ฏธ์ง์๋ง ์ ์ฉํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด์ ์ฐ๋ฆฌ๋ ์ค๊ฐ ํด์๋ ์ด๋ฏธ์ง๋ ๋ค๋ฃฐ ์ ์์ต๋๋ค.
๋ํ, ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)๊ณผ self-attention์ ๊ฒฐํฉํ๋ ๊ฒ์ ๋ํ ๋ง์ ๊ด์ฌ์ด ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํด ํน์ง ๋งต์ ๋ณด๊ฐํ๋ ๋ฐฉ์์ด๋ CNN์ ์ถ๋ ฅ์ self-attention์ผ๋ก ์ถ๊ฐ ์ฒ๋ฆฌํ๋ ๋ฐฉ์ ๋ฑ์ด ์์ต๋๋ค. ์ด๋ ๊ฐ์ฒด ๊ฒ์ถ (Hu et al., 2018; Carion et al., 2020), ๋น๋์ค ์ฒ๋ฆฌ (Wang et al., 2018; Sun et al., 2019), ์ด๋ฏธ์ง ๋ถ๋ฅ (Wu et al., 2020), ๋น์ง๋ ๊ฐ์ฒด ํ์ง (Locatello et al., 2020) ๋๋ ํตํฉ ํ ์คํธ-๋น์ ์์ (Chen et al., 2020c; Lu et al., 2019; Li et al., 2019) ๋ฑ ๋ค์ํ ์์ ์์ ์ฌ์ฉ๋์์ต๋๋ค.
๋ ๋ค๋ฅธ ์ต๊ทผ์ ๊ด๋ จ ๋ชจ๋ธ์ ์ด๋ฏธ์ง GPT (iGPT) (Chen et al., 2020a)๋ก, ์ด๋ฏธ์ง ํด์๋์ ์ ๊ณต๊ฐ์ ์ค์ธ ํ Transformer๋ฅผ ์ด๋ฏธ์ง ํฝ์ ์ ์ ์ฉํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ์์ฑ ๋ชจ๋ธ๋ก ๋น์ง๋ ๋ฐฉ์์ผ๋ก ํ๋ จ๋๋ฉฐ, ๊ฒฐ๊ณผ์ ์ธ ํํ์ ์ธ๋ฐ ์กฐ์ (fine-tuning)์ด๋ ์ ํ ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ํ ํ๋ก๋ธ(probe)๋ก ์ฌ์ฉ๋ ์ ์์ผ๋ฉฐ, ImageNet์์ ์ต๋ 72%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
Our work adds to the increasing collection of papers that explore image recognition at larger scales than the standard ImageNet dataset. The use of additional data sources allows to achieve state-ofthe-art results on standard benchmarks (Mahajan et al., 2018; Touvron et al., 2019; Xie et al., 2020). Moreover, Sun et al. (2017) study how CNN performance scales with dataset size, and Kolesnikov et al. (2020); Djolonga et al. (2020) perform an empirical exploration of CNN transfer learning from large scale datasets such as ImageNet-21k and JFT-300M. We focus on these two latter datasets as well, but train Transformers instead of ResNet-based models used in prior works.
์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ํ์ค ImageNet ๋ฐ์ดํฐ์ ๋ณด๋ค ๋ ํฐ ๊ท๋ชจ์ ์ด๋ฏธ์ง ์ธ์์ ํ๊ตฌํ๋ ๋ ผ๋ฌธ๋ค์ ์ฆ๊ฐํ๋ ์งํฉ์ ์ถ๊ฐ๋ฉ๋๋ค. ์ถ๊ฐ ๋ฐ์ดํฐ ์์ค์ ์ฌ์ฉ์ ํ์ค ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค (Mahajan et al., 2018; Touvron et al., 2019; Xie et al., 2020). ๊ฒ๋ค๊ฐ Sun et al. (2017)์ CNN ์ฑ๋ฅ์ด ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ์ค์ผ์ผ๋๋์ง์ ๋ํด ์ฐ๊ตฌํ์๊ณ , Kolesnikov et al. (2020) ๋ฐ Djolonga et al. (2020)์ ImageNet-21k ๋ฐ JFT-300M๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ์ CNN ์ ์ด ํ์ต์ ๋ํด ๊ฒฝํ์ ์ผ๋ก ํ๊ตฌํ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ดํ์ ์์ ์์ ์ฌ์ฉ๋ ResNet ๊ธฐ๋ฐ ๋ชจ๋ธ ๋์ ์ Transformer๋ฅผ ํ๋ จ์ํด์ผ๋ก์จ ์ด ๋ ๋ฐ์ดํฐ์ ์ ์ง์คํฉ๋๋ค.
Figure 1: Model overview. We split an image into fixed-size patches, linearly embed each of them, add position embeddings, and feed the resulting sequence of vectors to a standard Transformer encoder. In order to perform classification, we use the standard approach of adding an extra learnable “classification token” to the sequence. The illustration of the Transformer encoder was inspired by Vaswani et al. (2017).
Figure 1: ๋ชจ๋ธ ๊ฐ์. ์ฐ๋ฆฌ๋ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ํฌ๊ธฐ์ ํจ์น๋ก ๋๋๊ณ , ๊ฐ๊ฐ์ ์ ํ์ผ๋ก ์๋ฒ ๋ฉํ๊ณ , ์์น ์๋ฒ ๋ฉ์ ์ถ๊ฐํ ํ, ๊ฒฐ๊ณผ์ ์ธ ๋ฒกํฐ ์ํ์ค๋ฅผ ํ์ค Transformer ์ธ์ฝ๋์ ์ ๋ ฅํฉ๋๋ค. ๋ถ๋ฅ๋ฅผ ์ํํ๊ธฐ ์ํด, ์ํ์ค์ ํ์ต ๊ฐ๋ฅํ "๋ถ๋ฅ ํ ํฐ"์ ์ถ๊ฐํ๋ ํ์ค์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. Transformer ์ธ์ฝ๋์ ๊ทธ๋ฆผ์ Vaswani et al. (2017)์ ์๊ฐ์ ๋ฐ์ ์์ฑ๋์์ต๋๋ค.
3. Method
In model design we follow the original Transformer (Vaswani et al., 2017) as closely as possible. An advantage of this intentionally simple setup is that scalable NLP Transformer architectures – and their efficient implementations – can be used almost out of the box.
๋ชจ๋ธ ๋์์ธ์์๋ ๊ฐ๋ฅํ ํ ์๋์ Transformer (Vaswani et al., 2017)๋ฅผ ๋ฐ๋ฅด๋๋ก ๋ ธ๋ ฅํ์ต๋๋ค. ์ด๋ฌํ ์๋์ ์ผ๋ก ๊ฐ๋จํ ์ค์ ์ ์ฅ์ ์ ํ์ฅ ๊ฐ๋ฅํ NLP Transformer ์ํคํ ์ฒ์ ํจ์จ์ ์ธ ๊ตฌํ์ด ๊ฑฐ์ ๊ทธ๋๋ก ์ฌ์ฉ๋ ์ ์๋ค๋ ์ ์ ๋๋ค.
3.1 VISION TRANSFORMER (VIT)
An overview of the model is depicted in Figure 1. The standard Transformer receives as input a 1D sequence of token embeddings. To handle 2D images, we reshape the image x ∈ R H×W×C into a sequence of flattened 2D patches xp ∈ R N×(P 2 ·C) , where (H, W) is the resolution of the original image, C is the number of channels, (P, P) is the resolution of each image patch, and N = HW/P2 is the resulting number of patches, which also serves as the effective input sequence length for the Transformer. The Transformer uses constant latent vector size D through all of its layers, so we flatten the patches and map to D dimensions with a trainable linear projection (Eq. 1). We refer to the output of this projection as the patch embeddings.
Similar to BERT’s [class] token, we prepend a learnable embedding to the sequence of embedded patches (z 0 0 = xclass), whose state at the output of the Transformer encoder (z 0 L ) serves as the image representation y (Eq. 4). Both during pre-training and fine-tuning, a classification head is attached to z 0 L . The classification head is implemented by a MLP with one hidden layer at pre-training time and by a single linear layer at fine-tuning time. Position embeddings are added to the patch embeddings to retain positional information. We use standard learnable 1D position embeddings, since we have not observed significant performance gains from using more advanced 2D-aware position embeddings (Appendix D.4). The resulting sequence of embedding vectors serves as input to the encoder.
Figure 1์์ ๋ชจ๋ธ์ ๊ฐ์๋ฅผ ๋ณด์ฌ์ค๋๋ค. ํ์ค Transformer๋ 1D ํ ํฐ ์๋ฒ ๋ฉ ์ํ์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. 2D ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ด๋ฏธ์ง x ∈ R H×W×C๋ฅผ ํํํ๋ 2D ํจ์น ์ํ์ค xp ∈ R N×(P 2 ·C)๋ก ์ฌ๊ตฌ์ฑํฉ๋๋ค. ์ฌ๊ธฐ์ (H, W)๋ ์๋ ์ด๋ฏธ์ง์ ํด์๋, C๋ ์ฑ๋์ ์, (P, P)๋ ๊ฐ ์ด๋ฏธ์ง ํจ์น์ ํด์๋๋ฅผ ๋ํ๋ด๋ฉฐ, N = HW/P2๋ ํจ์น์ ๊ฐ์๋ก์ Transformer์ ์ ํจํ ์ ๋ ฅ ์ํ์ค ๊ธธ์ด๋ก ์ฌ์ฉ๋ฉ๋๋ค. Transformer๋ ๋ชจ๋ ๋ ์ด์ด์์ ์ผ์ ํ ์ ์ฌ ๋ฒกํฐ ํฌ๊ธฐ D๋ฅผ ์ฌ์ฉํ๋ฏ๋ก, ํจ์น๋ฅผ ํํํํ๊ณ ํ์ต ๊ฐ๋ฅํ ์ ํ ๋ณํ(Eq. 1)์ ์ฌ์ฉํ์ฌ D ์ฐจ์์ผ๋ก ๋งคํํฉ๋๋ค. ์ด ๋ณํ์ ์ถ๋ ฅ์ ํจ์น ์๋ฒ ๋ฉ์ด๋ผ๊ณ ํฉ๋๋ค.
Similar to BERT’s [class] token, we prepend a learnable embedding to the sequence of embedded patches (z 0 0 = xclass), whose state at the output of the Transformer encoder (z 0 L ) serves as the image representation y (Eq. 4). Both during pre-training and fine-tuning, a classification head is attached to z 0 L . The classification head is implemented by a MLP with one hidden layer at pre-training time and by a single linear layer at fine-tuning time. Position embeddings are added to the patch embeddings to retain positional information. We use standard learnable 1D position embeddings, since we have not observed significant performance gains from using more advanced 2D-aware position embeddings (Appendix D.4). The resulting sequence of embedding vectors serves as input to the encoder.
The Transformer encoder (Vaswani et al., 2017) consists of alternating layers of multiheaded selfattention (MSA, see Appendix A) and MLP blocks (Eq. 2, 3). Layernorm (LN) is applied before every block, and residual connections after every block (Wang et al., 2019; Baevski & Auli, 2019). The MLP contains two layers with a GELU non-linearity.
BERT์ ์ ์ฌํ๊ฒ, ์๋ฒ ๋ฉ๋ ํจ์น ์ํ์ค์ ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ์ ์์ ์ถ๊ฐํฉ๋๋ค (z 0 0 = xclass). Transformer ์ธ์ฝ๋์ ์ถ๋ ฅ ์ํ (z 0 L)๋ ์ด๋ฏธ์ง ํํ y๋ก ์ฌ์ฉ๋ฉ๋๋ค (Eq. 4). ์ฌ์ ํ๋ จ ๋ฐ ์ธ๋ถ ์กฐ์ ๋์์๋ ๋ถ๋ฅ ํค๋๊ฐ z 0 L์ ์ฐ๊ฒฐ๋ฉ๋๋ค. ๋ถ๋ฅ ํค๋๋ ์ฌ์ ํ๋ จ ์์๋ ํ๋์ ์๋์ธต์ ๊ฐ์ง MLP๋ก ๊ตฌํ๋๊ณ , ์ธ๋ถ ์กฐ์ ์์๋ ๋จ์ผ ์ ํ ์ธต์ผ๋ก ๊ตฌํ๋ฉ๋๋ค.
์์น ์๋ฒ ๋ฉ์ ํจ์น ์๋ฒ ๋ฉ์ ์ถ๊ฐ๋์ด ์์น ์ ๋ณด๋ฅผ ๋ณด์กดํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๊ณ ๊ธ 2D-aware ์์น ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ํ์ค ํ์ต ๊ฐ๋ฅํ 1D ์์น ์๋ฒ ๋ฉ์ ์ฌ์ฉํฉ๋๋ค. (๋ถ๋ก D.4 ์ฐธ์กฐ) ๋ง๋ถ์ฌ์, ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๊ฒฐ๊ณผ ์ํ์ค๋ ์ธ์ฝ๋์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
→ 1D positional embedding: ์ผ์ชฝ ์๋ถํฐ ์ค๋ฅธ์ชฝ ์๋์ ๊ฐ์ด ์ฐจ๋ก๋ก ์์๋ฅผ ๋งค๊ธฐ๋ ๊ฒ์ ์๋ฏธ
→ 2D positional embedding: 2์ฐจ์์ ๋ํด x,y์ถ์ ๋ํ ์ขํ๊ฐ ์๋ positional embedding
→ relative positional embedding: ํจ์น๋ค ์ฌ์ด์ ์๋์ ๊ฑฐ๋ฆฌ๋ฅผ ํ์ฉํ positional embedding
Transformer ์ธ์ฝ๋ (Vaswani et al., 2017)๋ ๋ค์ค ํค๋ ์ ํ ์ดํ ์ (MSA, ๋ถ๋ก A ์ฐธ์กฐ)๊ณผ MLP ๋ธ๋ก(Eq. 2, 3)์ด ๋ฒ๊ฐ์ ๋์ค๋ ์ฌ๋ฌ ๊ฐ์ ์ธต์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ์ธต์ ๋ ์ด์ด ์ ๊ทํ(LN)๊ฐ ์์ ์ ์ฉ๋๋ฉฐ, ์์ฐจ ์ฐ๊ฒฐ์ด ๊ฐ ๋ธ๋ก ๋ค์ ์ ์ฉ๋ฉ๋๋ค. (Wang et al., 2019; Baevski & Auli, 2019).
MLP ๋ธ๋ก์ ๋ ๊ฐ์ ์์ ์ฐ๊ฒฐ์ธต์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, GELU ๋น์ ํ์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. GELU ํ์ฑํ ํจ์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์ ๋น์ ํ์ฑ์ ๋์ ํ์ฌ ๋ฐ์ดํฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๋ ๋ฐ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
→ z0: patch์ ๋ํ ์ ๋ณด + position embedding์ ํฉ
→ z’l: normalization์ ์งํํ๊ณ , multi-head self- attention ์ํํ ํ, ์์ฐจ ๋ํด์ค
→ zl: normalization ํ ๋ฒ ๋ ์ํ ํ, MLP ์ ์ฉ ํ, ์์ฐจ ๋ํด์ค
→ y: ๋ง์ง๋ง ์์ธก๊ฐ์ normalization ํ ๋ฒ ๋ ์ ์ฉ
Inductive bias. We note that Vision Transformer has much less image-specific inductive bias than CNNs. In CNNs, locality, two-dimensional neighborhood structure, and translation equivariance are baked into each layer throughout the whole model. In ViT, only MLP layers are local and translationally equivariant, while the self-attention layers are global. The two-dimensional neighborhood structure is used very sparingly: in the beginning of the model by cutting the image into patches and at fine-tuning time for adjusting the position embeddings for images of different resolution (as described below). Other than that, the position embeddings at initialization time carry no information about the 2D positions of the patches and all spatial relations between the patches have to be learned from scratch.
์ธ์ ํธํฅ
Vision Transformer๋ CNN์ ๋นํด ์ด๋ฏธ์ง ํน์ ์ธ์ ํธํฅ์ด ํจ์ฌ ์ ์ต๋๋ค. CNN์์๋ ๊ฐ ๋ ์ด์ด๋ง๋ค ์ง์ญ์ฑ(locality), 2์ฐจ์ ์ด์ ๊ตฌ์กฐ, ์ด๋ ๋ถ๋ณ์ฑ(translation equivariance)์ด ์ ์ฒด ๋ชจ๋ธ์ ๋ด์ฌ๋์ด ์์ต๋๋ค. ๋ฐ๋ฉด์ ViT์์๋ MLP(Multi-Layer Perceptron) ๋ ์ด์ด๋ง ์ง์ญ์ ์ด๊ณ ์ด๋ ๋ถ๋ณ์ฑ์ ๊ฐ์ง๋ฉฐ, self-attention ๋ ์ด์ด๋ ์ ์ญ์ ์ ๋๋ค. 2์ฐจ์ ์ด์ ๊ตฌ์กฐ๋
๋งค์ฐ ์ ํ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ฏธ์ง๋ฅผ ํจ์น(patch)๋ก ์๋ผ๋ด์ด ๋ชจ๋ธ์ ์์ ๋ถ๋ถ์์ ์ฌ์ฉํ๊ณ, fine-tuning ์์๋ ๋ค๋ฅธ ํด์๋๋ฅผ ๊ฐ์ง ์ด๋ฏธ์ง์ ๋ํด ์์น ์๋ฒ ๋ฉ์ ์กฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค (์๋์์ ์ค๋ช ๋จ). ์ด๊ธฐํ ๋จ๊ณ์์ ์์น ์๋ฒ ๋ฉ์ ํจ์น์ 2D ์์น์ ๋ํ ์ ๋ณด๋ฅผ ์ ๋ฌํ์ง ์์ผ๋ฉฐ, ํจ์น ๊ฐ์ ๋ชจ๋ ๊ณต๊ฐ ๊ด๊ณ๋ ์ฒ์๋ถํฐ ํ์ต๋์ด์ผ ํฉ๋๋ค.
→ VIT์์์ MLP๋ ์ด๋ฏธ input์์ ํจ์น ๋จ์๋ก ์ ๋ ฅ๊ฐ์ ๋ฐ๊ธฐ์ ์ ๋ณด๊ฐ ์กด์ฌํจ.
→ self attention ๋ ์ด์ด๋ ์ ๋ ฅ ์ํ์ค์ ๋ชจ๋ ์์น ๊ฐ์ ์ํธ์์ฉ์ ์ํํจ.
โป Self-attention์ ์ ๋ ฅ ์ํ์ค ๋ด์ ๊ฐ ์์น๊ฐ ๋ค๋ฅธ ์์น์ ์ผ๋ง๋ ๊ด๋ จ๋์ด ์๋์ง๋ฅผ ๊ณ์ฐํ์ฌ ์ค์๋๋ฅผ ๋ถ์ฌํจ. ์ด๋ฅผ ํตํด ์ํ์ค ๋ด์ ์์์ ์์น๊ฐ ์ ์ฒด ์ํ์ค์ ๋ค๋ฅธ ์์น์ ์ํธ์์ฉํ ์ ์์. ๋ฐ๋ผ์ self-attention์ ์ ๋ ฅ ์ํ์ค์ ๊ธธ์ด๋ ์์น์ ๋ํด ์๊ด์์ด ๋ชจ๋ ์์น ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ ์ญ์ ์ธ ์ ๋ณด๋ฅผ ์ ์ฅํ ์ ์์.
โป ๋ฐ๋ฉด์ MLP ๋ ์ด์ด๋ ์ ๋ ฅ ์์น์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์์ผ๋ฉฐ, ์ง์ญ์ ์ธ ํน์ง์ ๋ชจ๋ธ๋งํจ. ์ด ๋ ์ด์ด๋ ์ ๋ ฅ ์์น์ ๋ํ ํน์ง ๋ณํ์ ์ํํ๋ฏ๋ก, ์ด๋ ๋ถ๋ณ์ฑ์ ๊ฐ์ง๊ฒ ๋จ. MLP๋ ์ ๋ ฅ ์์น์ ๋ํด ๋ ๋ฆฝ์ ์ผ๋ก ์๋ํ๋ฉฐ, ์ ๋ ฅ์ ์์๋ ์์น์ ์ํฅ์ ๋ฐ์ง ์์.
โป ์๋ ๋ ๊ฐ์ง ๋ฐฉ์์ ํตํด inductive bias๊ฐ ์ฃผ์ ๋๋ค๋ผ๊ณ ๋งํ ์ ์์
→ patch extraction: ํจ์น ๋จ์๋ก ๋ถํ ํ์ฌ, ์์๊ฐ ์กด์ฌํ๋ ํํ๋ก ์ ๋ ฅ์ ๋ฃ์ → ์ด๋ฅผ ํตํด ๊ธฐ์กด MLP์๋ ๋ค๋ฅด๊ฒ, locality์ translation equivariance๊ฐ ๋ด์ฌ๋จ.
→ resolution adjustment: fine tuning ์์ ์งํ๋จ. ์ด๋ฏธ์ง์ ํฌ๊ธฐ์ ๋ฐ๋ผ ํจ์น ํฌ๊ธฐ๋ ๋์ผํ์ง๋ง, ์์ฑ๋๋ ํจ์น ๊ฐ์๊ฐ ๋ฌ๋ผ์ง๊ธฐ์, positional embedding์ ์กฐ์ ํด์ผ๋จ → ์ด๋ฅผ ํตํด inductive bias๊ฐ ์ฃผ์ .
Hybrid Architecture. As an alternative to raw image patches, the input sequence can be formed from feature maps of a CNN (LeCun et al., 1989). In this hybrid model, the patch embedding projection E (Eq. 1) is applied to patches extracted from a CNN feature map. As a special case, the patches can have spatial size 1x1, which means that the input sequence is obtained by simply flattening the spatial dimensions of the feature map and projecting to the Transformer dimension. The classification input embedding and position embeddings are added as described above.
ํผํฉ ์ํคํ ์ฒ
์์ ์ด๋ฏธ์ง ํจ์น ๋์ , ์ ๋ ฅ ์ํ์ค๋ฅผ CNN (LeCun et al., 1989)์ ํผ์ณ ๋งต(feature map)์ผ๋ก๋ถํฐ ๊ตฌ์ฑํ ์๋ ์์ต๋๋ค. ์ด ํผํฉ ๋ชจ๋ธ์์๋ ํจ์น ์๋ฒ ๋ฉ ํฌ์ E (์ 1)์ด CNN ํผ์ณ ๋งต์์ ์ถ์ถํ ํจ์น์ ์ ์ฉ๋ฉ๋๋ค. ํน๋ณํ ๊ฒฝ์ฐ๋ก, ํจ์น์ ๊ณต๊ฐ ํฌ๊ธฐ๊ฐ 1x1์ธ ๊ฒฝ์ฐ ์ ๋ ฅ ์ํ์ค๋ ๋จ์ํ ํผ์ณ ๋งต์ ๊ณต๊ฐ ์ฐจ์์ ํผ์ณ์ Transformer ์ฐจ์์ผ๋ก ํฌ์ํ๋ ๊ฒ์ผ๋ก ์ป์ด์ง๋๋ค. ๋ถ๋ฅ ์ ๋ ฅ ์๋ฒ ๋ฉ๊ณผ ์์น ์๋ฒ ๋ฉ์ ์์์ ์ค๋ช ํ ๋๋ก ์ถ๊ฐ๋ฉ๋๋ค.
→ VIT๋ raw image๊ฐ ์๋ CNN์ผ๋ก ์ถ์ถํ raw image์ feature map์ ํ์ฉํ๋ hybrid architecture๋ก๋ ์ฌ์ฉํ ์ ์์
→ feature map์ ๊ฒฝ์ฐ, ์ด๋ฏธ raw image์ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์๊ธฐ์ hybrid architecture๋ ํจ์น ํฌ๊ธฐ๋ฅผ 1x1๋ก ์ค์ ํด๋ ๋จ
→ 1x1 ํจ์น๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ํผ์ฒ๋งต์ ๊ณต๊ฐ ์ฐจ์์ flattenํ์ฌ ๊ฐ ๋ฒกํฐ์ linear projection ์ ์ฉํ๋ฉด ๋จ
3.2 FINE-TUNING AND HIGHER RESOLUTION Typically, we pre-train ViT on large datasets, and fine-tune to (smaller) downstream tasks. For this, we remove the pre-trained prediction head and attach a zero-initialized D × K feedforward layer, where K is the number of downstream classes. It is often beneficial to fine-tune at higher resolution than pre-training (Touvron et al., 2019; Kolesnikov et al., 2020). When feeding images of higher resolution, we keep the patch size the same, which results in a larger effective sequence length. The Vision Transformer can handle arbitrary sequence lengths (up to memory constraints), however, the pre-trained position embeddings may no longer be meaningful. We therefore perform 2D interpolation of the pre-trained position embeddings, according to their location in the original image. Note that this resolution adjustment and patch extraction are the only points at which an inductive bias about the 2D structure of the images is manually injected into the Vision Transformer.
3.2 ํ์ธํ๋๊ณผ ๊ณ ํด์๋ ์ผ๋ฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ViT๋ฅผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ๋ จํ ํ (๋ ์์) ํ์ ์์ ์ ๋ํด ํ์ธํ๋ํฉ๋๋ค. ์ด๋ฅผ ์ํด, ์ฌ์ ํ๋ จ๋ ์์ธก ํค๋๋ฅผ ์ ๊ฑฐํ๊ณ ์๋ฒกํฐ๋ก ์ด๊ธฐํ๋ D × K ํผ๋ํฌ์๋ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ฌ๊ธฐ์ K๋ ํ์ ์์ ์ ํด๋์ค ์์ ๋๋ค. ์ฌ์ ํ๋ จ๋ณด๋ค ๋ ๋์ ํด์๋์์ ํ์ธํ๋ํ๋ ๊ฒ์ด ์ข ์ข ์ ๋ฆฌํฉ๋๋ค (Touvron et al., 2019; Kolesnikov et al., 2020). ๋ ๋์ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅํ ๋, ํจ์น ํฌ๊ธฐ๋ ๋์ผํ๊ฒ ์ ์งํ๋ฉฐ, ์ด๋ก ์ธํด ๋ ํฐ ์ ํจํ ์ํ์ค ๊ธธ์ด๊ฐ ์์ฑ๋ฉ๋๋ค. Vision Transformer๋ ์์์ ์ํ์ค ๊ธธ์ด๋ฅผ ์ฒ๋ฆฌํ ์ ์์ง๋ง, ์ฌ์ ํ๋ จ๋ ์์น ์๋ฒ ๋ฉ์ ๋ ์ด์ ์๋ฏธ๊ฐ ์์ ์ ์์ต๋๋ค. ๋ฐ๋ผ์, ์ฌ์ ํ๋ จ๋ ์์น ์๋ฒ ๋ฉ์ ์๋ ์ด๋ฏธ์ง์์์ ์์น์ ๋ฐ๋ผ 2D ๋ณด๊ฐ(interpolation)์ ์ํํฉ๋๋ค. ์ด ๋, ํด์๋ ์กฐ์ ๊ณผ ํจ์น ์ถ์ถ์ ์ด๋ฏธ์ง์ 2D ๊ตฌ์กฐ์ ๋ํ ๊ท๋ฉ์ ํธํฅ์ด Vision Transformer์ ์๋์ผ๋ก ์ฃผ์ ๋๋ ์ ์ผํ ์ง์ ์์ ์ ์ํฉ๋๋ค.
→ transformer encoder๋ ๊ทธ๋๋ก ์ฌ์ฉํ๋, MLP head (MLP์ ์ถ๋ ฅ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ต์ข ์์ธก๊ฐ ๋ง๋๋ ์ญํ )์ 0์ผ๋ก ์ด๊ธฐํ. (์ด๊ธฐํ ๋ฐฉ๋ฒ์ผ๋ก ์๊ฐํ๋ฉด ๋ ๋ฏ)
โป pre-trained prediction head: ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์์๋ ์์ธก ํค๋๊ฐ ํด๋์ค ์์ ํด๋นํ๋ ์ถ๋ ฅ ๋ ธ๋๋ฅผ ๊ฐ์ง๊ณ , ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ์ ์์ธกํจ.
→ ViT๋ฅผ fine tuning ํ ๋, pre-training๊ณผ ๋์ผํ ํจ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ก fine-tuning์ ํ ๊ฒฝ์ฐ, sequence์ ๊ธธ์ด๊ฐ ๋ ๊ธธ์ด์ง.
→ ViT๋ ๊ฐ๋ณ์ ํจ์น๋ค์ ์ฒ๋ฆฌํ ์ ์์ง๋ง, pre-trained position embedding์ ์๋ฏธ๊ฐ ์ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์, pretrained position embedding์ ์๋ณธ ์ด๋ฏธ์ง ์์น์ ๋ฐ๋ผ ์ด์ค ์ ํ๋ณด๊ฐ๋ฒ ์ฌ์ฉ
4. Experiments
We evaluate the representation learning capabilities of ResNet, Vision Transformer (ViT), and the hybrid. To understand the data requirements of each model, we pre-train on datasets of varying size and evaluate many benchmark tasks. When considering the computational cost of pre-training the model, ViT performs very favourably, attaining state of the art on most recognition benchmarks at a lower pre-training cost. Lastly, we perform a small experiment using self-supervision, and show that self-supervised ViT holds promise for the future.
์ฐ๋ฆฌ๋ ResNet, Vision Transformer (ViT), ๊ทธ๋ฆฌ๊ณ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ํํ ํ์ต ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. ๊ฐ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ์๊ตฌ ์ฌํญ์ ์ดํดํ๊ธฐ ์ํด ๋ค์ํ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ๋ จ์ ์ํํ๊ณ ์ฌ๋ฌ ๋ฒค์น๋งํฌ ์์ ์ ํ๊ฐํฉ๋๋ค. ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ ๋น์ฉ์ ๊ณ ๋ คํ ๋, ViT๋ ๋งค์ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ฎ์ ์ฌ์ ํ๋ จ ๋น์ฉ์ผ๋ก ๋๋ถ๋ถ์ ์ธ์ ๋ฒค์น๋งํฌ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ฐ๋ฆฌ๋ ์๊ธฐ ์ง๋ ํ์ต์ ์ฌ์ฉํ ์์ ์คํ์ ์ํํ๊ณ , ์๊ธฐ ์ง๋ ํ์ต ViT๊ฐ ๋ฏธ๋์ ๋ํ ์ฝ์์ ๋ณด์ฌ์ค๋๋ค.
4.1 SETUP Datasets.
To explore model scalability, we use the ILSVRC-2012 ImageNet dataset with 1k classes and 1.3M images (we refer to it as ImageNet in what follows), its superset ImageNet-21k with 21k classes and 14M images (Deng et al., 2009), and JFT (Sun et al., 2017) with 18k classes and 303M high-resolution images. We de-duplicate the pre-training datasets w.r.t. the test sets of the downstream tasks following Kolesnikov et al. (2020). We transfer the models trained on these dataset to several benchmark tasks: ImageNet on the original validation labels and the cleaned-up ReaL labels (Beyer et al., 2020), CIFAR-10/100 (Krizhevsky, 2009), Oxford-IIIT Pets (Parkhi et al., 2012), and Oxford Flowers-102 (Nilsback & Zisserman, 2008). For these datasets, pre-processing follows Kolesnikov et al. (2020). We also evaluate on the 19-task VTAB classification suite (Zhai et al., 2019b). VTAB evaluates low-data transfer to diverse tasks, using 1 000 training examples per task. The tasks are divided into three groups: Natural – tasks like the above, Pets, CIFAR, etc. Specialized – medical and satellite imagery, and Structured – tasks that require geometric understanding like localization.
๋ชจ๋ธ์ ํ์ฅ์ฑ์ ํ๊ตฌํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํฉ๋๋ค. ILSVRC-2012 ImageNet ๋ฐ์ดํฐ์ ์ 1,000๊ฐ ํด๋์ค์ 1.3๋ฐฑ๋ง ์ฅ์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ImageNet์ ์์ ์งํฉ์ธ ImageNet-21k๋ 21,000๊ฐ ํด๋์ค์ 14๋ฐฑ๋ง ์ฅ์ ์ด๋ฏธ์ง๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ๋ํ, JFT ๋ฐ์ดํฐ์ ์ 18,000๊ฐ ํด๋์ค์ 3์ต 3์ฒ๋ง ๊ฐ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
์คํ์ ๊ณต์ ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ๊ณผ ํ์ ์์ ์ ํ ์คํธ ์ธํธ ์ฌ์ด์์ ์ค๋ณต๋ ์ด๋ฏธ์ง๋ฅผ ์ ๊ฑฐํฉ๋๋ค. ์ด๋ Kolesnikov ๋ฑ์ ์ ๊ทผ ๋ฐฉ์์ ๋ฐ๋ฆ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ ์์ ์ ์ ์ดํฉ๋๋ค. ๋ฒค์น๋งํฌ ์์ ์๋ ImageNet (์๋์ ๊ฒ์ฆ ๋ ์ด๋ธ๊ณผ ์ ์ ๋ ReaL ๋ ์ด๋ธ), CIFAR-10/100, Oxford-IIIT Pets, Oxford Flowers-102๊ฐ ํฌํจ๋ฉ๋๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ์ ์ ๋ํ ์ฌ์ ์ฒ๋ฆฌ ๋จ๊ณ๋ Kolesnikov ๋ฑ์ ๋ฐฉ๋ฒ๋ก ์ ๋ฐ๋ฆ ๋๋ค.
๋ํ, VTAB ๋ถ๋ฅ ์ค์ํธ์์๋ ๋ชจ๋ธ์ ํ๊ฐํฉ๋๋ค. VTAB๋ 19๊ฐ์ ์์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ ์์ ์๋ 1,000๊ฐ์ ํ๋ จ ์์ ๋ง ์ฌ์ฉ๋ฉ๋๋ค. ์ด ์์ ๋ค์ ์ธ ๊ฐ์ง ๊ทธ๋ฃน์ผ๋ก ๋๋์ด ์์ต๋๋ค. Natural ๊ทธ๋ฃน์๋ Pets, CIFAR ๋ฑ๊ณผ ๊ฐ์ ์์ ์ด ํฌํจ๋์ด ์์ผ๋ฉฐ, Specialized ๊ทธ๋ฃน์๋ ์๋ฃ ๋ฐ ์์ฑ ์ด๋ฏธ์ง ์์ ์ด ํฌํจ๋์ด ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ Structured ๊ทธ๋ฃน์๋ ์ง์ค๋ฉํธ๋ฆฌ ์ดํด์ ๋ก์ปฌ๋ผ์ด์ ์ด์ ์ด ํ์ํ ์์ ์ด ํฌํจ๋์ด ์์ต๋๋ค.
Model Variants. We base ViT configurations on those used for BERT (Devlin et al., 2019), as summarized in Table 1. The “Base” and “Large” models are directly adopted from BERT and we add the larger “Huge” model. In what follows we use brief notation to indicate the model size and the input patch size: for instance, ViT-L/16 means the “Large” variant with 16×16 input patch size. Note that the Transformer’s sequence length is inversely proportional to the square of the patch size, thus models with smaller patch size are computationally more expensive. For the baseline CNNs, we use ResNet (He et al., 2016), but replace the Batch Normalization layers (Ioffe & Szegedy, 2015) with Group Normalization (Wu & He, 2018), and used standardized convolutions (Qiao et al., 2019). These modifications improve transfer (Kolesnikov et al., 2020), and we denote the modified model “ResNet (BiT)”. For the hybrids, we feed the intermediate feature maps into ViT with patch size of one “pixel”. To experiment with different sequence lengths, we either (i) take the output of stage 4 of a regular ResNet50 or (ii) remove stage 4, place the same number of layers in stage 3 (keeping the total number of layers), and take the output of this extended stage 3. Option (ii) results in a 4x longer sequence length, and a more expensive ViT model.
ViT ๊ตฌ์ฑ์ BERT์ ์ฌ์ฉ๋ ๊ตฌ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ด๋ Table 1์ ์์ฝ๋์ด ์์ต๋๋ค. "Base"์ "Large" ๋ชจ๋ธ์ BERT์์ ์ง์ ์ฑ์ฉ๋์์ผ๋ฉฐ, ์ฐ๋ฆฌ๋ ๋ ํฐ "Huge" ๋ชจ๋ธ์ ์ถ๊ฐํฉ๋๋ค. ์ดํ์๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ ๋ ฅ ํจ์น ํฌ๊ธฐ๋ฅผ ๊ฐ๋จํ๊ฒ ํ๊ธฐํ์ฌ ์ฌ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ViT-L/16์ 16x16 ์ ๋ ฅ ํจ์น ํฌ๊ธฐ๋ฅผ ๊ฐ์ง "Large" ๋ณํ ๋ชจ๋ธ์ ์๋ฏธํฉ๋๋ค. ํจ์น ํฌ๊ธฐ์ ์ ๊ณฑ์ ๋ฐ๋น๋กํ๋ ํธ๋์คํฌ๋จธ์ ์ํ์ค ๊ธธ์ด๋ฅผ ์ ์ํด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ ํจ์น ํฌ๊ธฐ๊ฐ ์์ ๋ชจ๋ธ์ผ์๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋ ๋ง์ด ๋ญ๋๋ค.
๊ธฐ์ค์ด ๋๋ CNN์ผ๋ก๋ ResNet (He ๋ฑ, 2016)์ ์ฌ์ฉํ์ง๋ง, Batch Normalization ๋ ์ด์ด(Ioffe & Szegedy, 2015)๋ฅผ Group Normalization (Wu & He, 2018)์ผ๋ก ๋์ฒดํ๊ณ , ํ์คํ๋ ํฉ์ฑ๊ณฑ(Qiao ๋ฑ, 2019)์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ์์ ์ฌํญ์ ์ ์ด ํ์ต์ ๊ฐ์ ํ๋ฉฐ, ์์ ๋ ๋ชจ๋ธ์ "ResNet (BiT)"๋ผ๊ณ ํ๊ธฐํฉ๋๋ค. ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ค๊ฐ ํน์ฑ ๋งต์ ํ ๊ฐ์ "ํฝ์ " ํฌ๊ธฐ์ ํจ์น๋ก ViT์ ์ ๋ฌํฉ๋๋ค. ๋ค๋ฅธ ์ํ์ค ๊ธธ์ด๋ฅผ ์คํํ๊ธฐ ์ํด, (i) ์ผ๋ฐ์ ์ธ ResNet50์ stage 4์ ์ถ๋ ฅ์ ์ฌ์ฉํ๊ฑฐ๋ (ii) stage 4๋ฅผ ์ ๊ฑฐํ๊ณ ๋์ผํ ์์ ๋ ์ด์ด๋ฅผ stage 3์ ๋ฐฐ์นํ๊ณ ์ด ํ์ฅ๋ stage 3์ ์ถ๋ ฅ์ ์ฌ์ฉํฉ๋๋ค. (ii) ์ต์ ์ 4๋ฐฐ ๋ ๊ธด ์ํ์ค ๊ธธ์ด์ ๋ ๋น์ผ ViT ๋ชจ๋ธ์ ๋ง๋ค์ด๋ ๋๋ค.
Training & Fine-tuning. We train all models, including ResNets, using Adam (Kingma & Ba, 2015) with β1 = 0.9, β2 = 0.999, a batch size of 4096 and apply a high weight decay of 0.1, which we found to be useful for transfer of all models (Appendix D.1 shows that, in contrast to common practices, Adam works slightly better than SGD for ResNets in our setting). We use a linear learning rate warmup and decay, see Appendix B.1 for details. For fine-tuning we use SGD with momentum, batch size 512, for all models, see Appendix B.1.1. For ImageNet results in Table 2, we fine-tuned at higher resolution: 512 for ViT-L/16 and 518 for ViT-H/14, and also used Polyak & Juditsky (1992) averaging with a factor of 0.9999 (Ramachandran et al., 2019; Wang et al., 2020b).
ํ๋ จ ๋ฐ ํ์ธํ๋. ์ฐ๋ฆฌ๋ ResNet์ ํฌํจํ ๋ชจ๋ ๋ชจ๋ธ์ Adam (Kingma & Ba, 2015)์ ์ฌ์ฉํ์ฌ ํ๋ จํฉ๋๋ค. ์ด๋ β1 = 0.9, β2 = 0.999, ๋ฐฐ์น ํฌ๊ธฐ๋ 4096์ด๋ฉฐ, ๊ฐ์ค์น ๊ฐ์ (weight decay)๋ก๋ 0.1์ ์ ์ฉํฉ๋๋ค. ์ด๋ ๋ชจ๋ ๋ชจ๋ธ์ ์ ์ด ํ์ต์ ์ ์ฉํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์์ต๋๋ค (๋ถ๋ก D.1์์๋ ์ผ๋ฐ์ ์ธ ๊ดํ๊ณผ๋ ๋ค๋ฅด๊ฒ, Adam์ด ์ฐ๋ฆฌ์ ์ค์ ์์ ResNet์ ๋ํด SGD๋ณด๋ค ์ฝ๊ฐ ๋ ์ ์๋ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค). ์ ํ ํ์ต๋ฅ ์์ ๊ณผ ๊ฐ์๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์์ธํ ๋ด์ฉ์ ๋ถ๋ก B.1์ ์ฐธ์กฐํ์ญ์์ค. ํ์ธํ๋์๋ SGD์ ๋ชจ๋ฉํ ์ ์ฌ์ฉํ๋ฉฐ, ๋ชจ๋ ๋ชจ๋ธ์ ๋ํด ๋ฐฐ์น ํฌ๊ธฐ๋ 512๋ก ์ค์ ํฉ๋๋ค. ์์ธํ ๋ด์ฉ์ ๋ถ๋ก B.1.1์ ์ฐธ์กฐํ์ญ์์ค. Table 2์ ImageNet ๊ฒฐ๊ณผ์์๋ ๋ ๋์ ํด์๋์์ ํ์ธํ๋์ ์งํํ์์ต๋๋ค. ViT-L/16์ ๊ฒฝ์ฐ 512, ViT-H/14์ ๊ฒฝ์ฐ 518๋ก ์ค์ ํ์์ผ๋ฉฐ, Polyak & Juditsky (1992) ํ๊ท ํ๋ฅผ 0.9999์ ๋น์จ๋ก ์ฌ์ฉํ์์ต๋๋ค (Ramachandran et al., 2019; Wang et al., 2020b).
Metrics. We report results on downstream datasets either through few-shot or fine-tuning accuracy. Fine-tuning accuracies capture the performance of each model after fine-tuning it on the respective dataset. Few-shot accuracies are obtained by solving a regularized least-squares regression problem that maps the (frozen) representation of a subset of training images to {−1, 1} K target vectors. This formulation allows us to recover the exact solution in closed form. Though we mainly focus on fine-tuning performance, we sometimes use linear few-shot accuracies for fast on-the-fly evaluation where fine-tuning would be too costly.
์ฐ๋ฆฌ๋ ๋ค์ด์คํธ๋ฆผ ๋ฐ์ดํฐ์ ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ํ์ํ ๋ ์ ์ ๋ฐ์ดํฐ์ (few-shot) ๋๋ ํ์ธํ๋ ์ ํ๋๋ฅผ ์ฌ์ฉํฉ๋๋ค. ํ์ธํ๋ ์ ํ๋๋ ๊ฐ ๋ชจ๋ธ์ ํด๋น ๋ฐ์ดํฐ์ ์ ํ์ธํ๋ํ ํ์ ์ฑ๋ฅ์ ์ธก์ ํฉ๋๋ค. ์ ์ ๋ฐ์ดํฐ์ ์ ํ๋๋ (๊ณ ์ ๋) ์ผ๋ถ ํ๋ จ ์ด๋ฏธ์ง์ ํํ์ {−1, 1} K์ ๋ชฉํ ๋ฒกํฐ์ ๋งคํํ๋ ์ ๊ทํ๋ ์ต์์ ๊ณฑ ํ๊ท ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ์ป์ต๋๋ค. ์ด๋ฌํ ์์์ ๋ซํ ํํ๋ก ์ ํํ ์๋ฃจ์ ์ ๋ณต๊ตฌํ ์ ์๊ฒ ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ฃผ๋ก ํ์ธํ๋ ์ฑ๋ฅ์ ์ด์ ์ ๋์ง๋ง, ํ์ธํ๋์ด ๋๋ฌด ๋น์ฉ์ด ๋ง์ด ๋๋ ๊ฒฝ์ฐ์๋ ์ ํ์ ์ธ ์ ์ ๋ฐ์ดํฐ์ ์ ํ๋๋ฅผ ์ฌ์ฉํ์ฌ ๋น ๋ฅด๊ฒ ์ค์๊ฐ์ผ๋ก ํ๊ฐํฉ๋๋ค.
4.2 COMPARISON TO STATE OF THE ART We first compare our largest models – ViT-H/14 and ViT-L/16 – to state-of-the-art CNNs from the literature. The first comparison point is Big Transfer (BiT) (Kolesnikov et al., 2020), which performs supervised transfer learning with large ResNets. The second is Noisy Student (Xie et al., 2020), which is a large EfficientNet trained using semi-supervised learning on ImageNet and JFT300M with the labels removed. Currently, Noisy Student is the state of the art on ImageNet and BiT-L on the other datasets reported here. All models were trained on TPUv3 hardware, and we report the number of TPUv3-core-days taken to pre-train each of them, that is, the number of TPU v3 cores (2 per chip) used for training multiplied by the training time in days. Table 2 shows the results. The smaller ViT-L/16 model pre-trained on JFT-300M outperforms BiT-L (which is pre-trained on the same dataset) on all tasks, while requiring substantially less computational resources to train. The larger model, ViT-H/14, further improves the performance, especially on the more challenging datasets – ImageNet, CIFAR-100, and the VTAB suite. Interestingly, this model still took substantially less compute to pre-train than prior state of the art. However, we note that pre-training efficiency may be affected not only by the architecture choice, but also other parameters, such as training schedule, optimizer, weight decay, etc. We provide a controlled study of performance vs. compute for different architectures in Section 4.4. Finally, the ViT-L/16 model pre-trained on the public ImageNet-21k dataset performs well on most datasets too, while taking fewer resources to pre-train: it could be trained using a standard cloud TPUv3 with 8 cores in approximately 30 days.
4.2 ์ต์ ๊ธฐ์ ๊ณผ์ ๋น๊ต ์ฐ์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ธ ViT-H/14์ ViT-L/16์ ๋ฌธํ์์ ์ ์๋ ์ต์ CNN๊ณผ ๋น๊ตํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋น๊ต ๋์์ Big Transfer (BiT) (Kolesnikov et al., 2020)์ ๋๋ค. BiT๋ ํฐ ResNet์ ์ฌ์ฉํ ์ง๋ ์ ์ด ํ์ต์ ์ํํฉ๋๋ค. ๋ ๋ฒ์งธ๋ Noisy Student (Xie et al., 2020)๋ก, ์ด๋ ImageNet ๋ฐ JFT300M์์ ๋ผ๋ฒจ์ ์ ๊ฑฐํ ์ํ๋ก ์ค์ง๋ ํ์ต์ ์ํํ๋ ํฐ EfficientNet์ ๋๋ค. ํ์ฌ, Noisy Student๋ ImageNet์์ ์ต์ ๊ธฐ์ ์ด๋ฉฐ, ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ BiT-L์ด ์ต์ ๊ธฐ์ ์ ๋๋ค. ๋ชจ๋ ๋ชจ๋ธ์ TPUv3 ํ๋์จ์ด์์ ํ๋ จ๋์์ผ๋ฉฐ, ๊ฐ๊ฐ์ ์ฌ์ ํ๋ จ์ ์์๋ TPUv3 ์ฝ์ด-์ผ ์๋ฅผ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ ํ๋ จ์ ์ฌ์ฉ๋ TPU v3 ์ฝ์ด(์นฉ๋น 2๊ฐ)์ ๊ฐ์๋ฅผ ํ๋ จ ๊ธฐ๊ฐ(์ผ)์ผ๋ก ๊ณฑํ ๊ฐ์ ๋๋ค. Table 2๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. JFT-300M์์ ์ฌ์ ํ๋ จ๋ ์์ ViT-L/16 ๋ชจ๋ธ์ ๋ชจ๋ ์์ ์์ ๋์ผํ ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ๋ จ๋ BiT-L๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ํ๋ จ์ ํ์ํ ๊ณ์ฐ ์์์ ํจ์ฌ ์ ์ต๋๋ค. ๋ ํฐ ๋ชจ๋ธ์ธ ViT-H/14์ ํนํ ImageNet, CIFAR-100 ๋ฐ VTAB ์ค์ํธ์ ๊ฐ์ ๋ ๋์ ์ ์ธ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํต๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ์ด ๋ชจ๋ธ์ ์ฌ์ ํ ์ฌ์ ํ๋ จ์ ์ด์ ์ ์ต์ ๊ธฐ์ ๋ณด๋ค ํจ์ฌ ์ ์ ๊ณ์ฐ ๋ฆฌ์์ค๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ๋ จ ํจ์จ์ฑ์ ์ํคํ ์ฒ ์ ํ๋ฟ๋ง ์๋๋ผ ํ๋ จ ์ผ์ , ์ตํฐ๋ง์ด์ , ๊ฐ์ค์น ๊ฐ์ ๋ฑ ๋ค๋ฅธ ๋งค๊ฐ๋ณ์์๋ ์ํฅ์ ๋ฐ์ ์ ์์์ ์ฐธ๊ณ ํด์ผ ํฉ๋๋ค. ์๋ก ๋ค๋ฅธ ์ํคํ ์ฒ์ ๋ํ ์ฑ๋ฅ ๋ ๊ณ์ฐ ๋น๊ต์ ๋ํ ์ ์ด๋ ์ฐ๊ตฌ๋ฅผ 4.4์ ์์ ์ ๊ณตํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ณต๊ฐ๋ ImageNet-21k ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ๋ จ๋ ViT-L/16 ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์๋ ์ ์ํ๋๋ฉฐ, ์ฌ์ ํ๋ จ์ ํ์ํ ์์์ ์ ์ต๋๋ค. ์ผ๋ฐ์ ์ธ ํด๋ผ์ฐ๋ TPUv3 (8๊ฐ ์ฝ์ด)๋ฅผ ์ฌ์ฉํ์ฌ ์ฝ 30์ผ ๋์ ํ๋ จํ ์ ์์์ต๋๋ค.
Figure 2 decomposes the VTAB tasks into their respective groups, and compares to previous SOTA methods on this benchmark: BiT, VIVI – a ResNet co-trained on ImageNet and Youtube (Tschannen et al., 2020), and S4L – supervised plus semi-supervised learning on ImageNet (Zhai et al., 2019a). ViT-H/14 outperforms BiT-R152x4, and other methods, on the Natural and Structured tasks. On the Specialized the performance of the top two models is similar.
Figure 2 ๋ถํด VTAB ์์ ์ ํด๋น ๊ทธ๋ฃน์ผ๋ก ๋๋๊ณ ์ด ๋ฒค์น๋งํฌ์ ๋ํ ์ด์ SOTA ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํฉ๋๋ค: BiT, VIVI - ImageNet๊ณผ Youtube์์ ๊ณต๋์ผ๋ก ํ๋ จ๋ ResNet (Tschannen et al., 2020) ๋ฐ S4L - ImageNet์์ ์ง๋ ๋ฐ ์ค์ง๋ ํ์ต (Zhai et al., 2019a). ViT-H/14๋ BiT-R152x4 ๋ฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ๋นํด Natural ๋ฐ Structured ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. Specialized ์์ ์์ ์์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ์ฌํฉ๋๋ค.
4.3 PRE-TRAINING DATA REQUIREMENTS The Vision Transformer performs well when pre-trained on a large JFT-300M dataset. With fewer inductive biases for vision than ResNets, how crucial is the dataset size? We perform two series of experiments. First, we pre-train ViT models on datasets of increasing size: ImageNet, ImageNet-21k, and JFT300M. To boost the performance on the smaller datasets, we optimize three basic regularization parameters – weight decay, dropout, and label smoothing. Figure 3 shows the results after finetuning to ImageNet (results on other datasets are shown in Table 5)2 . When pre-trained on the smallest dataset, ImageNet, ViT-Large models underperform compared to ViT-Base models, despite (moderate) regularization. With ImageNet-21k pre-training, their performances are similar. Only with JFT-300M, do we see the full benefit of larger models. Figure 3 also shows the performance region spanned by BiT models of different sizes. The BiT CNNs outperform ViT on ImageNet, but with the larger datasets, ViT overtakes. Second, we train our models on random subsets of 9M, 30M, and 90M as well as the full JFT300M dataset. We do not perform additional regularization on the smaller subsets and use the same hyper-parameters for all settings. This way, we assess the intrinsic model properties, and not the effect of regularization. We do, however, use early-stopping, and report the best validation accuracy achieved during training. To save compute, we report few-shot linear accuracy instead of full finetuning accuracy. Figure 4 contains the results. Vision Transformers overfit more than ResNets with comparable computational cost on smaller datasets. For example, ViT-B/32 is slightly faster than ResNet50; it performs much worse on the 9M subset, but better on 90M+ subsets. The same is true for ResNet152x2 and ViT-L/16. This result reinforces the intuition that the convolutional inductive bias is useful for smaller datasets, but for larger ones, learning the relevant patterns directly from data is sufficient, even beneficial. Overall, the few-shot results on ImageNet (Figure 4), as well as the low-data results on VTAB (Table 2) seem promising for very low-data transfer. Further analysis of few-shot properties of ViT is an exciting direction of future work.
๋น์ ํธ๋์คํฌ๋จธ(Vision Transformer)๋ ๋์ฉ๋ JFT-300M ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต ์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ResNet๊ณผ ๋น๊ตํ์ฌ ๋น์ ์ ๋ํ ๊ท๋ฉ์ ํธํฅ์ด ์ ์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์์ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ ์ผ๋ง๋ ์ค์ํ์ง ์์๋ณด๊ธฐ ์ํด ๋ ๊ฐ์ง ์คํ์ ์ํํฉ๋๋ค.
์ฒซ ๋ฒ์งธ๋ก, ViT ๋ชจ๋ธ์ ImageNet, ImageNet-21k ๋ฐ JFT300M๊ณผ ๊ฐ์ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ์ตํฉ๋๋ค. ์์ ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๊ฐ์ค์น ๊ฐ์(weight decay), ๋๋กญ์์(dropout), ๋ผ๋ฒจ ์ค๋ฌด๋ฉ(label smoothing)๊ณผ ๊ฐ์ ์ธ ๊ฐ์ง ๊ธฐ๋ณธ์ ์ธ ์ ๊ทํ ๋งค๊ฐ๋ณ์๋ฅผ ์ต์ ํํฉ๋๋ค. Figure 3์ ImageNet์ผ๋ก์ ํ์ธํ๋ ์ดํ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค(๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ๊ฒฐ๊ณผ๋ ํ ์ด๋ธ 5์ ํ์๋ฉ๋๋ค). ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ์ ์ธ ImageNet์ผ๋ก ์ฌ์ ํ์ตํ ๋, ViT-Large ๋ชจ๋ธ์ (์ ๋นํ ์ ๊ทํ์๋ ๋ถ๊ตฌํ๊ณ ) ViT-Base ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋๋ค. ImageNet-21k ์ฌ์ ํ์ต ์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ ์ฌํด์ง๋๋ค. ๊ทธ๋ฌ๋ JFT-300M ์ฌ์ ํ์ต ์์๋ง ํฐ ๋ชจ๋ธ์ ๋ชจ๋ ์ด์ ์ ํ์ธํ ์ ์์ต๋๋ค. Figure 3์ ๋ค์ํ ํฌ๊ธฐ์ BiT ๋ชจ๋ธ์ ๋ํ ์ฑ๋ฅ ๋ฒ์๋ ๋ณด์ฌ์ค๋๋ค. BiT CNN์ ImageNet์์ ViT๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ViT๊ฐ BiT ๋ชจ๋ธ์ ์์ง๋ฅผ ์ ์์ต๋๋ค.
๋ ๋ฒ์งธ๋ก, 9M, 30M, 90M ๋ฐ JFT300M์ ๋ฌด์์ ํ์ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค. ์์ ํ์ ๋ฐ์ดํฐ์ ์ ๋ํด์๋ ์ถ๊ฐ์ ์ธ ์ ๊ทํ๋ฅผ ์ํํ์ง ์์ผ๋ฉฐ, ๋ชจ๋ ์ค์ ์ ๋์ผํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๋ณธ์ง์ ์ธ ํน์ฑ์ ํ๊ฐํ๊ณ , ์ ๊ทํ์ ์ํฅ์ด ์๋ ๋ชจ๋ธ์ ํน์ฑ์ ์์๋ณผ ์ ์์ต๋๋ค. ํ๋ จ ์ค์ ์ต์์ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๊ธฐ๋กํ๊ธฐ ์ํด ์กฐ๊ธฐ ์ข ๋ฃ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ณ์ฐ๋์ ์ค์ด๊ธฐ ์ํด ์์ ํ ํ์ธํ๋ ์ ํ๋ ๋์ few-shot ์ ํ ์ ํ๋๋ฅผ ๋ณด๊ณ ํฉ๋๋ค. Figure 4๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ณ ์์ต๋๋ค. ๋น์ ํธ๋์คํฌ๋จธ๋ ๋น์ทํ ๊ณ์ฐ ๋น์ฉ์ ๊ฐ๋ ResNet๊ณผ ๋น๊ตํ์ฌ ์์ ๋ฐ์ดํฐ์ ์์ ๊ณผ์ ํฉ ํ์์ด ๋ ๋ง์ด ๋ฐ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ViT-B/32๋ ResNet50๋ณด๋ค ์ฝ๊ฐ ๋ ๋น ๋ฅด์ง๋ง 9M ํ์ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๊ณ 90M ์ด์์ ํ์ ๋ฐ์ดํฐ์ ์์๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ResNet152x2์ ViT-L/16์ ๋ํด์๋ ๋์ผํ ๊ฒฝํฅ์ด ๋ํ๋ฉ๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ํฉ์ฑ๊ณฑ์ ํธํฅ์ด ์์ ๋ฐ์ดํฐ์ ์ ์ ์ฉํ์ง๋ง, ํฐ ๋ฐ์ดํฐ์ ์ ๋ํด์๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ง์ ๊ด๋ จ ํจํด์ ํ์ตํ๋ ๊ฒ์ด ์ถฉ๋ถํ๋ฉฐ ์ฌ์ง์ด ์ด์ ์ด ์๋ค๋ ์ง๊ด์ ๊ฐํ์ํต๋๋ค.
Overall, the few-shot results on ImageNet (Figure 4), as well as the low-data results on VTAB (Table 2) seem promising for very low-data transfer. Further analysis of few-shot properties of ViT is an exciting direction of future work.
์ ๋ฐ์ ์ผ๋ก, ImageNet์์์ ์์์ท ๊ฒฐ๊ณผ (Figure 4) ๋ฐ VTAB์์์ ์ ๋ ๋ฐ์ดํฐ ๊ฒฐ๊ณผ (Table 2)๋ ๋งค์ฐ ์ ์ ๋ฐ์ดํฐ ์ ์ด์ ๋ํ ์ ๋งํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ViT์ ์์์ท ํน์ฑ์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ถ์์ ํฅํ ์ฐ๊ตฌ์ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ ๋๋ค.
4.4 SCALING STUDY We perform a controlled scaling study of different models by evaluating transfer performance from JFT-300M. In this setting data size does not bottleneck the models’ performances, and we assess performance versus pre-training cost of each model. The model set includes: 7 ResNets, R50x1, R50x2 R101x1, R152x1, R152x2, pre-trained for 7 epochs, plus R152x2 and R200x3 pre-trained for 14 epochs; 6 Vision Transformers, ViT-B/32, B/16, L/32, L/16, pre-trained for 7 epochs, plus L/16 and H/14 pre-trained for 14 epochs; and 5 hybrids, R50+ViT-B/32, B/16, L/32, L/16 pretrained for 7 epochs, plus R50+ViT-L/16 pre-trained for 14 epochs (for hybrids, the number at the end of the model name stands not for the patch size, but for the total dowsampling ratio in the ResNet backbone). Figure 5 contains the transfer performance versus total pre-training compute (see Appendix D.5 for details on computational costs). Detailed results per model are provided in Table 6 in the Appendix. A few patterns can be observed. First, Vision Transformers dominate ResNets on the performance/compute trade-off. ViT uses approximately 2 − 4× less compute to attain the same performance (average over 5 datasets). Second, hybrids slightly outperform ViT at small computational budgets, but the difference vanishes for larger models. This result is somewhat surprising, since one might expect convolutional local feature processing to assist ViT at any size. Third, Vision Transformers appear not to saturate within the range tried, motivating future scaling efforts.
4.4 ์ค์ผ์ผ๋ง ์ฐ๊ตฌ ์ฐ๋ฆฌ๋ JFT-300M์ผ๋ก๋ถํฐ์ ์ ์ด ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ๋ค์ํ ๋ชจ๋ธ์ ์ ์ด๋ ์ค์ผ์ผ๋ง ์ฐ๊ตฌ๋ฅผ ์ํํฉ๋๋ค. ์ด ์ค์ ์์๋ ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น์ง ์์ผ๋ฉฐ, ๊ฐ ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ ๋น์ฉ ๋๋น ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. ๋ชจ๋ธ ์ธํธ์๋ ๋ค์์ด ํฌํจ๋ฉ๋๋ค. 7๊ฐ์ ResNet ๋ชจ๋ธ์ธ R50x1, R50x2, R101x1, R152x1, R152x2, ๊ฐ๊ฐ 7๊ฐ์ epoch์ ๋ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ๊ณผ R152x2์ R200x3๋ 14๊ฐ์ epoch์ ๋ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ; 6๊ฐ์ Vision Transformer ๋ชจ๋ธ์ธ ViT-B/32, B/16, L/32, L/16, ๊ฐ๊ฐ 7๊ฐ์ epoch์ ๋ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ๊ณผ L/16 ๋ฐ H/14๋ 14๊ฐ์ epoch์ ๋ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ; ๊ทธ๋ฆฌ๊ณ 5๊ฐ์ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ธ R50+ViT-B/32, B/16, L/32, L/16์ ๊ฐ๊ฐ 7๊ฐ์ epoch์ ๋ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ๊ณผ R50+ViT-L/16์ 14๊ฐ์ epoch์ ๋ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๋๋ค (ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ด๋ฆ ๋์ ์ซ์๋ ํจ์น ํฌ๊ธฐ๊ฐ ์๋ ResNet ๋ฐฑ๋ณธ์ ์ ์ฒด ๋ค์ด์ํ๋ง ๋น์จ์ ๋ํ๋ ๋๋ค).
Figure 5์๋ ์ ์ด ์ฑ๋ฅ ๋๋น ์ด ์ฌ์ ํ๋ จ ์ปดํจํธ(์ปดํจํ ๋น์ฉ์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ถ๋ก D.5๋ฅผ ์ฐธ์กฐ)๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. ๋ชจ๋ธ๋ณ ์์ธํ ๊ฒฐ๊ณผ๋ ๋ถ๋ก์ Table 6์์ ์ ๊ณต๋ฉ๋๋ค. ๋ช ๊ฐ์ง ํจํด์ ๊ด์ฐฐํ ์ ์์ต๋๋ค. ์ฒซ์งธ, ๋น์ ํธ๋์คํฌ๋จธ๋ ์ฑ๋ฅ/์ปดํจํธ ๊ตํ์์ ResNet์ ์๋ํฉ๋๋ค. ViT๋ ๋์ผํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ฝ 2~4๋ฐฐ ๋ ์ ์ ์ปดํจํธ๋ฅผ ์ฌ์ฉํฉ๋๋ค(5๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํ ํ๊ท ). ๋์งธ, ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ์์ ์ปดํจํ ์์ฐ์์ ViT๋ณด๋ค ์ฝ๊ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋ ํฐ ๋ชจ๋ธ์ ๋ํด์๋ ์ฐจ์ด๊ฐ ์ฌ๋ผ์ง๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ํํธ์ผ๋ก๋ ์ปจ๋ณผ๋ฃจ์ ์ง์ญ ํน์ง ์ฒ๋ฆฌ๊ฐ ์ด๋ค ํฌ๊ธฐ์์๋ ViT๋ฅผ ์ง์ํ ๊ฒ์ผ๋ก ์์ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค์ ๋๋ผ์ด ๊ฒ์ ๋๋ค. ์ ์งธ, Vision Transformer๋ ์๋ํ ๋ฒ์ ๋ด์์ ํฌํ๋์ง ์๋ ๊ฒ์ผ๋ก ๋ํ๋๋ฉฐ, ํฅํ ์ค์ผ์ผ๋ง ์ฐ๊ตฌ๋ฅผ ๋ ๋ คํฉ๋๋ค.
4.5 INSPECTING VISION TRANSFORMER To begin to understand how the Vision Transformer processes image data, we analyze its internal representations. The first layer of the Vision Transformer linearly projects the flattened patches into a lower-dimensional space (Eq. 1). Figure 7 (left) shows the top principal components of the the learned embedding filters. The components resemble plausible basis functions for a low-dimensional representation of the fine structure within each patch. After the projection, a learned position embedding is added to the patch representations. Figure 7 (center) shows that the model learns to encode distance within the image in the similarity of position embeddings, i.e. closer patches tend to have more similar position embeddings. Further, the row-column structure appears; patches in the same row/column have similar embeddings. Finally, a sinusoidal structure is sometimes apparent for larger grids (Appendix D). That the position embeddings learn to represent 2D image topology explains why hand-crafted 2D-aware embedding variants do not yield improvements (Appendix D.4). Self-attention allows ViT to integrate information across the entire image even in the lowest layers. We investigate to what degree the network makes use of this capability. Specifically, we compute the average distance in image space across which information is integrated, based on the attention weights (Figure 7, right). This “attention distance” is analogous to receptive field size in CNNs. We find that some heads attend to most of the image already in the lowest layers, showing that the ability to integrate information globally is indeed used by the model. Other attention heads have consistently small attention distances in the low layers. This highly localized attention is less pronounced in hybrid models that apply a ResNet before the Transformer (Figure 7, right), suggesting that it may serve a similar function as early convolutional layers in CNNs. Further, the attention distance increases with network depth. Globally, we find that the model attends to image regions that are semantically relevant for classification (Figure 6).
4.5 ๋น์ ํธ๋์คํฌ๋จธ์ ๋ด๋ถ ํํ ๋ถ์ ๋น์ ํธ๋์คํฌ๋จธ๊ฐ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ์ดํดํ๊ธฐ ์ํด ๋ด๋ถ ํํ์ ๋ถ์ํฉ๋๋ค. ๋น์ ํธ๋์คํฌ๋จธ์ ์ฒซ ๋ฒ์งธ ๋ ์ด์ด๋ ํจ์น๋ค์ ๋ฎ์ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ์ ํ ํฌ์ํฉ๋๋ค (์ 1). Figure 7 (์ผ์ชฝ)์ ํ์ต๋ ์๋ฒ ๋ฉ ํํฐ์ ์์ ์ฃผ์ฑ๋ถ์ ๋ณด์ฌ์ค๋๋ค. ์ด ์ฃผ์ฑ๋ถ๋ค์ ๊ฐ ํจ์น ๋ด์ ์ธ๋ถ ๊ตฌ์กฐ์ ์ ์ฐจ์ ํํ์ ์ํ ํ๋นํ ๊ธฐ์ ํจ์์ ์ ์ฌํฉ๋๋ค. ํฌ์ ์ดํ, ํ์ต๋ ์์น ์๋ฒ ๋ฉ์ด ํจ์น ํํ์ ์ถ๊ฐ๋ฉ๋๋ค. Figure 7 (๊ฐ์ด๋ฐ)์ ๋ชจ๋ธ์ด ์์น ์๋ฒ ๋ฉ์ ์ ์ฌ์ฑ์ ํตํด ์ด๋ฏธ์ง ๋ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธ์ฝ๋ฉํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ฆ, ๋ ๊ฐ๊น์ด ํจ์น๋ ๋ณด๋ค ์ ์ฌํ ์์น ์๋ฒ ๋ฉ์ ๊ฐ์ต๋๋ค. ๋ํ ํ-์ด ๊ตฌ์กฐ๊ฐ ๋ํ๋ฉ๋๋ค. ๊ฐ์ ํ/์ด์ ์๋ ํจ์น๋ค์ ์ ์ฌํ ์๋ฒ ๋ฉ์ ๊ฐ์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ ํฐ ๊ทธ๋ฆฌ๋์ ๋ํด์๋ ๋๋ก ์ฌ์ธ ํจ์ ๊ตฌ์กฐ๊ฐ ํ์ธ๋ฉ๋๋ค (๋ถ๋ก D ์ฐธ์กฐ). ์์น ์๋ฒ ๋ฉ์ด 2D ์ด๋ฏธ์ง ํ ํด๋ก์ง๋ฅผ ํํํ๋ ๋ฐฉ์์ ํ์ตํ๋ค๋ ๊ฒ์ ์๋์ผ๋ก ๋ง๋ 2D-aware ์๋ฒ ๋ฉ ๋ณํ์ด ๊ฐ์ ๋์ง ์๋ ์ด์ ๋ฅผ ์ค๋ช ํฉ๋๋ค (๋ถ๋ก D.4). ์ ํ ์ดํ ์ ์ ViT๊ฐ ์ตํ์ ๋ ์ด์ด์์๋ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ํตํฉํ๋ ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋คํธ์ํฌ๊ฐ ์ด ๋ฅ๋ ฅ์ ์ด๋ ์ ๋ ํ์ฉํ๋์ง ์กฐ์ฌํฉ๋๋ค. ํนํ, ์ดํ ์ ๊ฐ์ค์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฏธ์ง ๊ณต๊ฐ์์ ์ ๋ณด๊ฐ ํตํฉ๋๋ ํ๊ท ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํฉ๋๋ค (Figure 7, ์ค๋ฅธ์ชฝ). ์ด "์ดํ ์ ๊ฑฐ๋ฆฌ"๋ CNN์์์ ์์ฉ์ฅ ํฌ๊ธฐ์ ํด๋นํฉ๋๋ค. ์ผ๋ถ ํค๋๋ ์ด๋ฏธ ์ตํ์ ๋ ์ด์ด์์ ์ด๋ฏธ์ง์ ๋๋ถ๋ถ์ ์ดํ ์ ์ ์ฃผ๋ ๊ฒ์ผ๋ก ๋ํ๋ฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์ค์ ๋ก ์ ๋ณด๋ฅผ ์ ์ญ์ ์ผ๋ก ํตํฉํ๋ ๋ฅ๋ ฅ์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋ค๋ฅธ ์ดํ ์ ํค๋๋ ์ตํ์ ๋ ์ด์ด์์ ์ผ๊ด๋๊ฒ ์์ ์ดํ ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๊ณ ๋๋ก ๊ตญ๋ถํ๋ ์ดํ ์ ์ ํธ๋์คํฌ๋จธ ์ด์ ์ ResNet์ ์ ์ฉํ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์์๋ ๊ทธ ์ ๋๊ฐ ๋ํ ๊ฒ์ผ๋ก ๋ํ๋ฉ๋๋ค (Figure 7, ์ค๋ฅธ์ชฝ), ์ด๋ ์ด๋ฌํ ์ดํ ์ ๊ฑฐ๋ฆฌ๊ฐ CNN์ ์ด๊ธฐ ํฉ์ฑ๊ณฑ ๋ ์ด์ด์ ์ ์ฌํ ๊ธฐ๋ฅ์ ์ํํ ์๋ ์๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค. ๋ ๋์๊ฐ, ์ดํ ์ ๊ฑฐ๋ฆฌ๋ ๋คํธ์ํฌ์ ๊น์ด์ ํจ๊ป ์ฆ๊ฐํฉ๋๋ค. ์ ์ฒด์ ์ผ๋ก ๋ชจ๋ธ์ ๋ถ๋ฅ์ ์๋ฏธ ์๋ ์๋งจํฑํ ์ด๋ฏธ์ง ์์ญ์ ์ดํ ์ ์ ์ง์คํฉ๋๋ค (Figure 6).
4.6 SELF-SUPERVISION
Transformers show impressive performance on NLP tasks. However, much of their success stems not only from their excellent scalability but also from large scale self-supervised pre-training (Devlinet al., 2019; Radford et al., 2018). We also perform a preliminary exploration on masked patch prediction for self-supervision, mimicking the masked language modeling task used in BERT. With self-supervised pre-training, our smaller ViT-B/16 model achieves 79.9% accuracy on ImageNet, a significant improvement of 2% to training from scratch, but still 4% behind supervised pre-training. Appendix B.1.2 contains further details. We leave exploration of contrastive pre-training (Chen et al., 2020b; He et al., 2020; Bachman et al., 2019; Henaff et al., 2020) to future work.
4.6 ์๊ธฐ-๊ฐ๋ ํ์ต ํธ๋์คํฌ๋จธ๋ NLP ์์ ์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๊ทธ๋ฌ๋ ๊ทธ๋ค์ ์ฑ๊ณต์ ์ฐ์ํ ํ์ฅ์ฑ ๋ฟ๋ง ์๋๋ผ ๋๊ท๋ชจ ์๊ธฐ-๊ฐ๋ ์ฌ์ ํ์ต (Devlin et al., 2019; Radford et al., 2018) ์์๋ ๊ธฐ์ธํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์๊ธฐ-๊ฐ๋ ํ์ต์ ์ํด ๋ง์คํฌ๋ ํจ์น ์์ธก์ ๋ํ ์๋น์ ์ธ ํ์์ ์ํํฉ๋๋ค. ์ด๋ BERT์์ ์ฌ์ฉ๋๋ ๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์ ๋ชจ๋ฐฉํ ๊ฒ์ ๋๋ค. ์๊ธฐ-๊ฐ๋ ์ฌ์ ํ์ต์ ํตํด ์์ ViT-B/16 ๋ชจ๋ธ์ ImageNet์์ 79.9%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์ฒ์๋ถํฐ ํ์ตํ๋ ๊ฒ๋ณด๋ค 2%์ ์๋นํ ๊ฐ์ ์ ๋ณด์ ๋๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ ์ง๋ ํ์ต ์ฌ์ ํ์ต๋ณด๋ค 4% ๋ค์ณ์ง๋๋ค. ๋ถ๋ก B.1.2์๋ ๋ ์์ธํ ๋ด์ฉ์ด ํฌํจ๋์ด ์์ต๋๋ค. ๋์กฐ์ ์ฌ์ ํ์ต (Chen et al., 2020b; He et al., 2020; Bachman et al., 2019; Henaff et al., 2020)์ ํ๊ตฌ๋ ํฅํ ์ฐ๊ตฌ๋ก ๋จ๊ฒจ๋ก๋๋ค.
5. Conclusion
We have explored the direct application of Transformers to image recognition. Unlike prior works using self-attention in computer vision, we do not introduce image-specific inductive biases into the architecture apart from the initial patch extraction step. Instead, we interpret an image as a sequence of patches and process it by a standard Transformer encoder as used in NLP. This simple, yet scalable, strategy works surprisingly well when coupled with pre-training on large datasets. Thus, Vision Transformer matches or exceeds the state of the art on many image classification datasets, whilst being relatively cheap to pre-train.
While these initial results are encouraging, many challenges remain. One is to apply ViT to other computer vision tasks, such as detection and segmentation. Our results, coupled with those in Carion et al. (2020), indicate the promise of this approach. Another challenge is to continue exploring selfsupervised pre-training methods. Our initial experiments show improvement from self-supervised pre-training, but there is still large gap between self-supervised and large-scale supervised pretraining. Finally, further scaling of ViT would likely lead to improved performance.
์ ํฌ๋ Transformer๋ฅผ ์ง์ ์ ์ผ๋ก ์ด๋ฏธ์ง ์ธ์์ ์ ์ฉํด ๋ณด์์ต๋๋ค. ์ด์ ์ฐ๊ตฌ๋ค๊ณผ๋ ๋ฌ๋ฆฌ, ์ด๋ฏธ์ง ํน์ ์ ๊ท๋ฉ์ ํธํฅ์ ์ด๊ธฐ ํจ์น ์ถ์ถ ๋จ๊ณ๋ฅผ ์ ์ธํ๊ณ ์ํคํ ์ฒ์ ๋์ ํ์ง ์์์ต๋๋ค. ๋์ , ์ด๋ฏธ์ง๋ฅผ ํจ์น์ ์ํ์ค๋ก ํด์ํ๊ณ NLP์์ ์ฌ์ฉ๋๋ ํ์ค Transformer ์ธ์ฝ๋๋ก ์ฒ๋ฆฌํ์ต๋๋ค. ์ด๋ฌํ ๊ฐ๋จํ๋ฉด์๋ ํ์ฅ ๊ฐ๋ฅํ ์ ๋ต์ ๋์ฉ๋ ๋ฐ์ดํฐ์ ์์์ ์ฌ์ ํ์ต๊ณผ ๊ฒฐํฉํ ๋ ๋๋๋๋ก ์ ์๋ํฉ๋๋ค. ๋ฐ๋ผ์ Vision Transformer๋ ๋ง์ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฐ์ดํฐ์ ์์ ์ต์ ๊ธฐ์ ์์ค์ ๋ฌ์ฑํ๊ฑฐ๋ ๋ฐ์ด๋์ผ๋ฉฐ, ์๋์ ์ผ๋ก ์ฌ์ ํ์ต ๋น์ฉ์ด ์ ๋ ดํฉ๋๋ค.
์ด ์ด๊ธฐ ๊ฒฐ๊ณผ๋ ๊ฒฉ๋ ค๋๋ ๊ฒฐ๊ณผ์ด์ง๋ง, ๋ง์ ๋์ ๊ณผ์ ๋ค์ด ๋จ์ ์์ต๋๋ค. ํ๋๋ ViT๋ฅผ ํ์ง ๋ฐ ์ธ๊ทธ๋ฉํ ์ด์ ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์ปดํจํฐ ๋น์ ์์ ์ ์ ์ฉํ๋ ๊ฒ์ ๋๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ์ Carion et al. (2020)์ ๊ฒฐ๊ณผ๋ ์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ ๋ค๋ฅธ ๋์ ์ ์๊ธฐ-๊ฐ๋ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ ๊ณ์ ํ๊ตฌํ๋ ๊ฒ์ ๋๋ค. ์ด๊ธฐ ์คํ ๊ฒฐ๊ณผ๋ ์๊ธฐ-๊ฐ๋ ์ฌ์ ํ์ต์์์ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์๊ธฐ-๊ฐ๋ ์ฌ์ ํ์ต๊ณผ ๋๊ท๋ชจ ์ง๋ ํ์ต ์ฌ์ ํ์ต ์ฌ์ด์๋ ์ฌ์ ํ ํฐ ๊ฒฉ์ฐจ๊ฐ ๋จ์ ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ViT์ ์ถ๊ฐ์ ์ธ ํ์ฅ์ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
1. Intro
- Transformer ๊ตฌ์กฐ์ NLP task์์์ ์ฑ๊ณต
- ํ์ง๋ง, Computer Vision Task์์๋ ์ ๋๋ก ์ ์ฉ์ด ์ด๋ฃจ์ด์ง์ง ์์.
- Self-Attention์ ์ถ๊ฐํ CNN ๊ณ์ด ๋ชจ๋ธ ๊ตฌ์กฐ์ ์์ convolution์ attention์ผ๋ก ๋์ฒดํ ๊ตฌ์กฐ๋ค์ด ์ ์๋จ. ๊ทธ๋ฌ๋, ์ด๋ก ์ ์ผ๋ก๋ ํจ์จ์ฑ์ด ๋ณด์ฅ๋์์ง๋ง ์ค์ ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ํธํ์ฑ์ด ๋จ์ด์ง.
⇒ ์ด๋ฏธ์ง๋ฅผ ํจ์น(patch)๋ก ๋ถํ ํ๊ณ , ์ด๋ฌํ ํจ์น๋ค์ ์ ํ ์๋ฒ ๋ฉ(sequence of linear embeddings)์ Transformer์ ์ ๋ ฅ์ผ๋ก ์ ๊ณต. ์ด๋ฏธ์ง ํจ์น๋ NLP ์์ฉํ๋ก๊ทธ๋จ์์์ ํ ํฐ(๋จ์ด)๊ณผ ๋์ผํ๊ฒ ์ฒ๋ฆฌ์ํค๊ณ ์ ํจ.
๐ Inductive bias
: ํ์ต ์ ๋ง๋๋ณด์ง ๋ชปํ๋ ์ํฉ์ ๋ํด ์ ํํ ์์ธก์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ์ถ๊ฐ์ ์ธ ๊ฐ์ ์ ์๋ฏธํจ (์ฌ์ ์ ๋ณด๋ฅผ ํตํด ์ถ๊ฐ๋ ๊ฐ์ )
- CNN: Vision ์ ๋ณด๋ ์ธ์ ํฝ์ ๊ฐ์ locality(๊ทผ์ ํฝ์ ๋ผ๋ฆฌ์ ์ข ์์ฑ)๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ ๋ฏธ๋ฆฌ ์๊ณ ์๊ธฐ ๋๋ฌธ์ Conv๋ ์ธ์ ํฝ์ ๊ฐ์ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก ์ค๊ณ๋์ด Conv์ inductive bias๊ฐ local ์์ญ์์ spatial ์ ๋ณด๋ฅผ ์ ๋ฝ์๋.+ transitional Invariance(์ฌ๋ฌผ ์์น๊ฐ ๋ฐ๋์ด๋ ๋์ผ ์ฌ๋ฌผ ์ธ์)๋ฑ์ ํน์ฑ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ํฉํ ๋ชจ๋ธ์
- ๋ฐ๋ฉด, MLP์ ๊ฒฝ์ฐ, all(input)-to-all (output) ๊ด๊ณ๋ก ๋ชจ๋ weight๊ฐ ๋ ๋ฆฝ์ ์ด๋ฉฐ ๊ณต์ ๋์ง ์์ inductive bias๊ฐ ๋งค์ฐ ์ฝํจ.
- Transformer๋ attention์ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ชจ๋ ์์๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ๋ฏ๋ก CNN๋ณด๋ค๋ Inductive Bias๊ฐ ์๋ค๋ผ๊ณ ํ ์ ์์.
→ CNN > Transformer > Fully Connected
→ inductive bias๊ฐ ์ปค์ง์๋ก generalizaion์ด ๋จ์ด์ง (๋์ trade off ๊ด๊ณ)
2. Related Work
1. NLP
- Vaswani et al. (2017): Transformer ๊ตฌ์กฐ๋ฅผ ๊ธฐ๊ณ ๋ฒ์ญ ๋ชจ๋ธ๋ก ์ฒ์ ์ ์. ํ์ฌ ๋ง์ NLP Task์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ตฌ์กฐ
- Devlin et al. (2019): BERT๋ฅผ ์ ์. ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ์๊ธฐ์ง๋ ์ฌ์ ํ์ต์ ์ํ.
- GPT ๊ณ์ด (2018, 2019, 2020): ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ต ํ์คํฌ๋ก ์ ์ ํ์ฌ ์ํ.
2. Computer Vision
- self-attention์ ์ด๋ฏธ์ง์ ๋จ์ ์ ์ฉํ๋ ๋ฐฉ์์ ํด๋น ํฝ์ ๊ณผ ๋ชจ๋ ํฝ์ ๊ฐ์ attention weight์ ๊ตฌํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ๋น์ฉ์ด pixel ๊ฐ์ n์ ๋ํ์ฌ O(n2)์ ๋ณต์ก๋๋ฅผ ๊ฐ์ง.
- Parmar et al. (2018): local neighborhood์๋ง self-attention์ ์ ์ฉ.
- Sparse Transformers (2019), Weissenborn et al. (2019): attention์ ๋ฒ์๋ฅผ scalingํ๋ ๋ฐฉ์์ผ๋ก self-attention์ ์ ์ฉํ๊ณ ์ ํจ.
→ ์ด๋ฌํ ํน๋ณํ ๋ฐฉ์์ attention์ ๊ฒฝ์ฐ์๋ ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ์ฐ์ฐ์ ํจ์จ์ ์ผ๋ก ์ํํ๊ธฐ์๋ ๋ค์ ๋ฒ๊ฑฐ๋ก์ด ์์ ์ด ํฌํจ๋์ด ์๋ ๊ฒฝ์ฐ๊ฐ ๋ค์.
- Cordonnier et al. (2020): ์ด๋ฏธ์ง๋ฅผ 2x2์ ํจ์น๋ก ์ชผ๊ฐ ํ, ์ด์ self-attention์ ์ ์ฉํจ. ์์ ๊ฐ์ ์ ์์ ViT์ ๋งค์ฐ ์ ์ฌํ๋, ์ด๋ฏธ์ง ํจ์น๊ฐ ๋งค์ฐ ์์ผ๋ฏ๋ก ์ ํด์๋ ์ ๋ ฅ ์ด๋ฏธ์ง์๋ง ์ ์ฉ์ด ๊ฐ๋ฅํ๋ค๋ ๋จ์ ์ด ์์. ViT์ ๊ฒฝ์ฐ์๋ ์คํด์๋ ์ด๋ฏธ์ง๋ฅผ ๋ค๋ฃฐ ์ ์๋ค๋ ์ , Vanilla Transformer ๊ตฌ์กฐ๋ฅผ ์ฐจ์ฉํด ๊ธฐ์กด์ SOTA CNN๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ์ฆ๋ช ํด๋๋ค๋ ์ ์์ ํด๋น ์ฐ๊ตฌ๋ณด๋ค ์ฐ์๋ฅผ ๊ฐ์ง.
- image GPT (Chen et al., 2020): ์ด๋ฏธ์ง ํด์๋์ color space๋ฅผ ์ค์ธ ํ, image pixel ๋จ์๋ก Transformer๋ฅผ ์ ์ฉํ ์์ฑ ๋ชจ๋ธ.
⇒ ๊ธฐ์กด ์ฐ๊ตฌ ๋๋น ViT์ ์ฐจ๋ณ์
- ํ์ค ImageNet ๋ฐ์ดํฐ์ ๋ณด๋ค ๋ ํฐ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์ image recognition ์คํ์ ์งํ.
- ๋ ํฐ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์ ํ์ต์ํด์ผ๋ก์จ ๊ธฐ์กด์ ResNet ๊ธฐ๋ฐ CNN๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์์.
3. Method
- ๋ชจ๋ธ์์๋ ์๋์ transformer์ ๋ฐ๋ฅด๋๋ก ๋ ธ๋ ฅํ๊ณ ์ ํ์.→ ์ด์ ๋ํ ์ฅ์ : NLP transformer ์ํคํ ์ฒ์ ํจ์จ์ ์ธ ๊ตฌํ์ด ๊ฑฐ์ ๊ทธ๋๋ก ์ฌ์ฉ๋ ์ ์์.
3.1) VISION TRANSFORMER (VIT)
1) Step 1.- Transformer์ input ๊ฐ์ 1์ฐจ์ ์ํ์ค.
- ๋ฐ๋ผ์ ๊ณ ์ ๋ ํฌ๊ธฐ์ patch๋ก ๋๋ ์ค ์ด๋ฏธ์ง๋ฅผ 1์ฐจ์ ์ํ์ค๋ก flatten ํด์ค์ผ ํจ
⇒ H*W*C → N*(P*P*C)๋ก ๋ณํex) 256*256*3 ⇒ ((256*256)/9^2)* (9*9*3)
- โป N(์ํ์ค ์) = H*W/(P^2) , P= ํจ์น ๊ฐ์
2) Step 2.
- 1์ฐจ์ ์ด๋ฏธ์ง๋ฅผ Transformer์ ์ฌ์ฉํ ์ ์๋ D์ฐจ์์ ๋ฒกํฐ๋ก ๋ฐ๊ฟ์ค.→ ์ด ๋ณํ์ ์ถ๋ ฅ์ ํจ์น ์๋ฒ ๋ฉ์ด๋ผ๊ณ ํจ
3) Step 3.
- ( Learnable class embedding + ํจ์น embedding ) + position embedding
- learnable class embedding⇒ ์๋ฒ ๋ฉ๋ ํจ์น ์ํ์ค์
ํ์ต๊ฐ๋ฅํ ์๋ฒ ๋ฉ์ ์์ ์ถ๊ฐ์ํด→ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ก์จ ๋ฐ์ดํฐ์ ํน์ฑ๊ณผ ์์ ์ ๋ง๊ฒ ์ต์ ํ๋๋ ๊ฐ. ํ์ต ๊ณผ์ ์์ ์ ๋ฐ์ดํธ๋๋ ๊ฐ์ค์น๋ฅผ ์๋ฏธ → (์ด๋ ์ถํ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ ํํ์ ๋ํ๋ด๊ฒ ๋จ)
- โป ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ํจํด๊ณผ ํน์ง์ ์ง์ ํ์ตํ์ฌ ๋ฐ์ดํฐ์ ๋ง๋ ํจ๊ณผ์ ์ธ ์๋ฒ ๋ฉ์ ์์ฑํ ์ ์์.
- position embedding→ 1D positional embedding: ์ผ์ชฝ ์๋ถํฐ ์ค๋ฅธ์ชฝ ์๋์ ๊ฐ์ด ์ฐจ๋ก๋ก ์์๋ฅผ ๋งค๊ธฐ๋ ๊ฒ์ ์๋ฏธ → relative positional embedding: ํจ์น๋ค ์ฌ์ด์ ์๋์ ๊ฑฐ๋ฆฌ๋ฅผ ํ์ฉํ positional embedding
- → 2D positional embedding: 2์ฐจ์์ ๋ํด x,y์ถ์ ๋ํ ์ขํ๊ฐ ์๋ positional embedding
4) Step 4.
- ์๋ฒ ๋ฉ์ transformer encoder์ input์ผ๋ก ๋ฃ์ด ๋ง์ง๋ง layer์์ class embedding์ ๋ํ output์ธ image representation์ ๋์ถํจ
5) Step 5.
- MLP์ image representation์ input์ผ๋ก ๋ฃ์ด ์ด๋ฏธ์ง์ class๋ฅผ ๋ถ๋ฅ
- MLP: ๋ ๊ฐ์ fully connected ์ธต์ผ๋ก ๊ตฌ์ฑ, GELU ๋น์ ํ ํจ์ ๋์ .
+ VIT ์์ ver
→ z0: patch์ ๋ํ ์ ๋ณด + position embedding์ ํฉ
→ z’l: normalization์ ์งํํ๊ณ , multi-head self- attention ์ํํ ํ, ์์ฐจ ๋ํด์ค
→ zl: normalization ํ ๋ฒ ๋ ์ํ ํ, MLP ์ ์ฉ ํ, ์์ฐจ ๋ํด์ค
→ y: ๋ง์ง๋ง ์์ธก๊ฐ์ normalization ํ ๋ฒ ๋ ์ ์ฉ
3.2) Inductive Bias
- VIT์์์ MLP๋ ์ด๋ฏธ input์์ ํจ์น ๋จ์๋ก ์ ๋ ฅ๊ฐ์ ๋ฐ๊ธฐ์ ์ ๋ณด๊ฐ ์กด์ฌํจ. (locality + translation equivariance o)
- self attention ๋ ์ด์ด๋ ์ ๋ ฅ ์ํ์ค์ ๋ชจ๋ ์์น ๊ฐ์ ์ํธ์์ฉ์ ์ํํจ. (x)โป Self-attention์ ์ ๋ ฅ ์ํ์ค ๋ด์ ๊ฐ ์์น๊ฐ ๋ค๋ฅธ ์์น์ ์ผ๋ง๋ ๊ด๋ จ๋์ด ์๋์ง๋ฅผ ๊ณ์ฐํ์ฌ ์ค์๋๋ฅผ ๋ถ์ฌํจ. ์ด๋ฅผ ํตํด ์ํ์ค ๋ด์ ์์์ ์์น๊ฐ ์ ์ฒด ์ํ์ค์ ๋ค๋ฅธ ์์น์ ์ํธ์์ฉํ ์ ์์. ๋ฐ๋ผ์ self-attention์ ์ ๋ ฅ ์ํ์ค์ ๊ธธ์ด๋ ์์น์ ๋ํด ์๊ด์์ด ๋ชจ๋ ์์น ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ ์ญ์ ์ธ ์ ๋ณด๋ฅผ ์ ์ฅํ ์ ์์.
- โป ๋ฐ๋ฉด์ MLP ๋ ์ด์ด๋ ์ ๋ ฅ ์์น์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์์ผ๋ฉฐ, ์ง์ญ์ ์ธ ํน์ง์ ๋ชจ๋ธ๋งํจ. ์ด ๋ ์ด์ด๋ ์ ๋ ฅ ์์น์ ๋ํ ํน์ง ๋ณํ์ ์ํํ๋ฏ๋ก, ์ด๋ ๋ถ๋ณ์ฑ์ ๊ฐ์ง๊ฒ ๋จ. MLP๋ ์ ๋ ฅ ์์น์ ๋ํด ๋ ๋ฆฝ์ ์ผ๋ก ์๋ํ๋ฉฐ, ์ ๋ ฅ์ ์์๋ ์์น์ ์ํฅ์ ๋ฐ์ง ์์.
→ ViT์์๋ ๋ชจ๋ธ์ ์๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋์ ํด, inductive bias์ ์ฃผ์ ์ ์๋ํ๊ณ ์ ํจ.
1) Patch extraction:ํจ์น ๋จ์๋ก ๋ถํ ํ์ฌ, ์์๊ฐ ์กด์ฌํ๋ ํํ๋ก ์ ๋ ฅ์ ๋ฃ์
→ ์ด๋ฅผ ํตํด ๊ธฐ์กด MLP์๋ ๋ค๋ฅด๊ฒ, locality์ translation equivariance๊ฐ ๋ด์ฌ๋จ.
2) Resolution adjustment:fine tuning ์์ ์งํ๋จ. ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ๋ฌ๋ผ์ง ๊ฒฝ์ฐ, ํจ์น ํฌ๊ธฐ๋ ๋์ผํ์ง๋ง, ์์ฑ๋๋ ํจ์น ๊ฐ์๊ฐ ๋ฌ๋ผ์ง๊ธฐ์, positional embedding์ ์กฐ์ ํด์ผ ๋จ → ์ด๋ฅผ ํตํด inductive bias๊ฐ ์ฃผ์ .
3.3) Hybrid Architecture
- VIT๋ raw image๊ฐ ์๋ CNN์ผ๋ก ์ถ์ถํ raw image์ feature map์ ํ์ฉํ๋ hybrid architecture๋ก๋ ์ฌ์ฉํ ์ ์์
- feature map์ ๊ฒฝ์ฐ, ์ด๋ฏธ raw image์ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์๊ธฐ์ hybrid architecture๋ ํจ์น ํฌ๊ธฐ๋ฅผ 1x1๋ก ์ค์ ํด๋ ๋จ
- 1x1 ํจ์น๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ํผ์ฒ๋งต์ ๊ณต๊ฐ ์ฐจ์์ flattenํ์ฌ ๊ฐ ๋ฒกํฐ์ linear projection ์ ์ฉํ๋ฉด ๋จ
3.4) FINE-TUNING AND HIGHER RESOLUTION
- transformer encoder๋ ๊ทธ๋๋ก ์ฌ์ฉํ๋, MLP head (MLP์ ์ถ๋ ฅ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ต์ข ์์ธก๊ฐ ๋ง๋๋ ์ญํ )์ 0์ผ๋ก ์ด๊ธฐํ. (์ด๊ธฐํ ๋ฐฉ๋ฒ์ผ๋ก ์๊ฐํ๋ฉด ๋ ๋ฏ)โป pre-trained prediction head: ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์์๋ ์์ธก ํค๋๊ฐ ํด๋์ค ์์ ํด๋นํ๋ ์ถ๋ ฅ ๋ ธ๋๋ฅผ ๊ฐ์ง๊ณ , ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ์ ์์ธกํจ.→ ViT๋ ๊ฐ๋ณ์ ํจ์น๋ค์ ์ฒ๋ฆฌํ ์ ์์ง๋ง, pre-trained position embedding์ ์๋ฏธ๊ฐ ์ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์, pretrained position embedding์ ์๋ณธ ์ด๋ฏธ์ง ์์น์ ๋ฐ๋ผ 2D ๋ณด๊ฐ(interpolation) ์ฌ์ฉ
- → ViT๋ฅผ fine tuning ํ ๋, pre-training๊ณผ ๋์ผํ ํจ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ก fine-tuning์ ํ ๊ฒฝ์ฐ, sequence์ ๊ธธ์ด๊ฐ ๋ ๊ธธ์ด์ง.
4. Experiments
- ViT๋ class์ ์ด๋ฏธ์ง ๊ฐ์๊ฐ ๊ฐ๊ฐ ๋ค๋ฅธ 3๊ฐ์ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก pre-train ๋จ
- ์๋์ benchmark tasks๋ฅผ downstream tast๋ก ํ์ฌ pre-trained ViT์ representation ์ฑ๋ฅ์ ๊ฒ์ฆํจ
- ์ผ์ชฝ: embedding filter์ ์๊ฐํํ ๊ฒฐ๊ณผ→ ๋ง์ ๋ฐ์ดํฐ๋ฅผ pre-trainingํ๋ฉด, embedding filter๊ฐ CNN filter์ ๋น์ทํ ๊ธฐ๋ฅ์ ๋ณด์
- ๊ฐ์ด๋ฐ: position embedding์ ์๊ฐํํ ๊ฒฐ๊ณผ→ ๊ฐ๊ฐ์ ์์น๋ฅผ ์ ํ์ตํจ (๋ ธ๋์ ๋ถ๋ถ ํ์ธ ex ๊ฐ์ด๋ฐ ๋ถ๋ถ์ ๊ฐ์ด๋ฐ์ ๋ ธ๋์์ผ๋ก, ์๋์ชฝ์ผ๋ก ๊ฐ์๋ก ์๋์ ๋ ธ๋์์ด ์กด์ฌ)
- ์ค๋ฅธ์ชฝ: ๋ฎ์ layer์์๋ CNN์ ๋ฎ์ layer์ฒ๋ผ ๊ฐ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ํ๋→ ๋ง์ง๋ง์ผ๋ก ๊ฐ์๋ก ์ด๋ฏธ์ง์ ํตํฉ์ ์ธ ๋ชจ์ต์ ๋ํ๋
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
U-Net (0) | 2023.07.05 |
---|---|
Bert (0) | 2023.07.05 |
RetinaNet (0) | 2023.07.05 |
GPT-1 (0) | 2023.07.05 |
DeepLab V2: Semantic Image Segmentation with Convolutional Nets, Atrous Convolution and Fully Connected CRFs (0) | 2023.07.05 |