728x90
반응형
0. Fast R-CNN


- 그래서 나온 친구가 fast R-CNN
- Selective Search
- input image를 가지고 selective search 진행
- image 안에 객체가 있을법한 후보군들을 최대 ex) 2000개 선정함
- ROI 영역 추출⇒ 이 때 2000개의 영역을 다 사용하지 않음(Hierarohical sampling)이라고 함ex) input image가 2개고, region이 128로 잡았다면 64개의 영역만 후보 영역으로 가져감
- ⇒ 한 미니 배치 당의 이미지만큼 나눠준 애들만 사용한다
- CNN
- input image 한 장을 그냥 CNN 구조에 넣어버림 (conv+pooling의 반복 구간)
- CNN 계층 반복하다가 마지막 부분에서의 풀링을 ROI pooling으로 진행함
- ROI pooling⇒ SPP pooling을 단순화 시킨 방법⇒ max pooling을 사용해 7x7 feature map 추출해서 고정 크기 벡터로 만듬
그걸 감안해서라도 진행 (시간 단축) - ** add) ROI의 후보 영역 크기들이 다 다양하기 때문에, 예를 들어 nxm 와 같이 정사각형이 아닌애들의 경우 7x7의 영역으로 쪼개는 과정에서 크기가 다를 수도 있음
- ⇒ SPP의 경우, 4x4 2x2 1x1과 같이 3개의 pooling 방법을 사용했다면, 이 친구는 한 번만 진행했음
- FC Layers
- 이후, FC layer을 한 번 거치고, 두 개의 갈래로 나눔
- 각각 FC layer을 두 번 더 거치고 1) classification 2) Boundary boxes regression 진행
- Loss Function
- 이 친구의 경우, classification loss와 bbox regressor loss를 섞어서 종합적인 loss를 구함
- 이 loss값을 이용해 역전파를 진행함** classification: softmax로 얻어낸 확률값과 정답값에 대한 loss
⇒ smooth L1은 빠른 속도로 loss를 0으로 수렴한다는 특징을 지님 (속도 빠르게)
- ** localization loss는 x,y,w,h에 대한 예측값과 groundtruth(실제 정답값)의 조절을 통해 계산해서 smooth L1 함수를 통과한 값이라고.
→ 이 친구의 문제점:
R-CNN과 SPPNet보다는 성능이 좋으나, test 결과를 봤을 때, region proposal 과 selective search를 진행할 때 시간 비중이 큼 (시간 오래 걸림)
728x90
반응형
'Deep Learning > [논문] Paper Review' 카테고리의 다른 글
Faster R-CNN (0) | 2023.07.06 |
---|---|
YOLO: You Only Look Once: Unified, Real-Time Object Detection (1) | 2023.07.06 |
Transformer (0) | 2023.07.06 |
Inception V2/3 (0) | 2023.07.06 |
ELMO (0) | 2023.07.06 |