본문 바로가기
728x90
반응형

objectdetection7

DETR: End-to-End Object Detection with Transformers 📝 본 논문에서는 object detection을 direct set prediction(일대일대응)으로 정의, transformer와 bipartite matching loss를 사용한 DETR(DEtection TRansformer)을 제안함. DETR은 COCO dataset에 대하여 Faster R-CNN과 비슷한 수준의 성능을 보임 추가적으로, self-attention을 통한 global information(전역 정보)를 활용함으로써 크기가 큰 객체를 Faster R-CNN보다 훨씬 잘 포착. 📝 1. Backbone(ResNet)을 입력해서 피처맵을 추출 2. 피처맵을 1x1 conv에 입력해서 flatten한 피처맵에 대해 positional encoding 구해서 더함 ※ spatial.. 2023. 7. 23.
R-CNN 1. Intro R-CNN 'Rich feature hierarchies for accurate object detection and semantic segmentation'. R-CNN은 region proposals와 CNN이 결합된 Regions with CNN의 약자로 지칭 (1) region proposals로 object 위치를 알아내고, 이를 CNN에 입력하여 class를 분류. (2) Larger data set으로 학습된 pre-trained CNN을 fine-tunning. 2. Overall architecture 입력 이미지에 Selective Search 알고리즘을 적용하여 bounding box(region proposal) 2000개를 추출. 추출된 bounding box를 w.. 2023. 7. 6.
SPPNet 1. Intro 기존에서는 고정된 크기의 이미지를 input으로 받았음 왜? : FC layer에서 고정길이 벡터만 받을 수 있기 때문 문제점? : 크기가 다 다른 이미지를 한 사이즈로 통일해버리기 때문에 이미지의 왜곡이나, 아래 사진과 같이 잘리거나 이미지가 고장남. 하지만? : 사실 FC layer에 들어가기 전까지는 사이즈가 제각각 이어도 괜찮음 그래서? : 이번 논문에서는 이러한 문제점을 보완한 “Saptial Pyramid Pooling layer”를 설명. ※ CNN이 고정된 입력 크기를 필요로 하는 이유 CNN은 Convolutional layer + fc layer로 이루어져 있음 이때 conv의 경우, sliding window 방식으로 이동하기 때문에 이미지 크기를 신경쓰지 않아도 모든.. 2023. 7. 6.
Faster R-CNN 0. R-CNN 입력 이미지에 Selective Search 알고리즘을 적용하여 bounding box(region proposal) 2000개를 추출. 추출된 bounding box를 warp(resize)하여 CNN에 입력. fine tunning 되어 있는 pre-trained CNN을 사용하여 bounding box의 4096차원의 특징 벡터를 추출. 추출된 특징 벡터를 SVM을 이용하여 class를 분류. bounding box regression을 적용하여 bounding box의 위치를 조정. non maximum supression을 진행 ⇒ 이 친구의 문제점: 1) 개느림 2) 들어갈 때 이미지 크기를 고정시키기 때문에 이미지 왜곡됨 0. SPPNet R-CNN의 단점을 해결하기 위해 나.. 2023. 7. 6.
YOLO: You Only Look Once: Unified, Real-Time Object Detection 1. Intro What is objection Detection? object classification: 하나의 이미지를 보고 그것이 개인지 고양인지를 판단 object localization: 하나의 이미지 내에서 개는 어디에 위치하는지 판단 → output: x,y,w,h object detection: 하나의 이미지 내에서 서로 다른 object를 각각 찾아내는 것 ex) DPM, R-CNN one-stage vs two-stage detector one stage: localization+classification을 동시에 수행ex) conv를 통과한 후, 각 grid cell 마다 classification결과와 bounding box regression을 통해 결과 도출 two stage:.. 2023. 7. 6.
Fast R-CNN 0. Fast R-CNN 그래서 나온 친구가 fast R-CNN Selective Search input image를 가지고 selective search 진행 image 안에 객체가 있을법한 후보군들을 최대 ex) 2000개 선정함 ROI 영역 추출⇒ 이 때 2000개의 영역을 다 사용하지 않음(Hierarohical sampling)이라고 함ex) input image가 2개고, region이 128로 잡았다면 64개의 영역만 후보 영역으로 가져감 ⇒ 한 미니 배치 당의 이미지만큼 나눠준 애들만 사용한다 CNN input image 한 장을 그냥 CNN 구조에 넣어버림 (conv+pooling의 반복 구간) CNN 계층 반복하다가 마지막 부분에서의 풀링을 ROI pooling으로 진행함 ROI poo.. 2023. 7. 6.
728x90
반응형