본문 바로가기
Deep Learning/[논문] Paper Review

R-CNN

by 제룽 2023. 7. 6.
728x90
반응형

 

 

1. Intro
  • R-CNN 'Rich feature hierarchies for accurate object detection and semantic segmentation'.
  • R-CNN은 region proposals와 CNN이 결합된 Regions with CNN의 약자로 지칭
  • (1) region proposals로 object 위치를 알아내고, 이를 CNN에 입력하여 class를 분류.
  • (2) Larger data set으로 학습된 pre-trained CNN을 fine-tunning.
2. Overall architecture

 

  1. 입력 이미지에 Selective Search 알고리즘을 적용하여 bounding box(region proposal) 2000개를 추출.
  1. 추출된 bounding box를 warp(resize)하여 CNN에 입력.
  1. fine tunning 되어 있는 pre-trained CNN을 사용하여 bounding box의 4096차원의 특징 벡터를 추출.
  1. 추출된 특징 벡터를 SVM을 이용하여 class를 분류.
  1. bounding box regression을 적용하여 bounding box의 위치를 조정.
  1. non maximum supression을 진행
3. Characters
1. Region proposal
  • selective search 기법 활용
  • 이미지에서 객체의 위치를 추출함
  1. 엄청 많은 영역을 생성함
  1. 이후, 각 region을 기준으로 주변 유사 영역을 merge 함
  1. 이를 바탕으로 ROI(Regions of Interest)라는 영역을 제안하는 Region Proposal 형식으로 진행 (2000개 추출)
  1. 이렇게 해서 나온 애들(2000개)의 사이즈를 다시 조정함.( 227*227)로 통일시킴

++ 다 제각기였던 bounding box를 같은 크기의 정사각형으로 자르고 줄임

2. CNN
  • 5개 Conv + 2개 FC 형태 사용

++ SVM을 사용했기에 FC는 두개 사용했다고 함

  • ILSVRC 2012 데이터 셋으로 미리 학습된 pre-trained CNN 모델을 사용함
  • 재학습 시킴
3. SVM classifier
  • 객체가 있나 없나 분류
4. Bounding box regression
  • 실제 위치와 예측한 box 위치 간의 차이를 좁혀주는 역할
  • 즉, predicted box가 ground truth box와 유사하도록 학습 시키는 역할
  • G의 경우, 학습 데이터에서 가져온 이미지
5. Non maximum Supression

selective search로 검출된 2000개의 bounding box에 모두 적용하는 것이 아니라, ground-truth box와 IoU(Intersection over Union)가 가장 높은 bounding box를 선택하여 bounding box regression을 적용했음

즉, 아래 사진과 같이 여러개 객체가 겹쳐있는 영역을 제거해서 적용

왜?: 2000개의 bounding box를 전부 다 표시할 경우, 하나의 객체에 대해서 많은 bounding box가 겹칠 수 있음. 따라서 가장 적합한 box를 선택하는 알고리즘 진행.

  1. bounding box별로 지정한 confidence score threshold 이하의 box를 제거
  1. 남은 bounding box를 confidence score에 따라 내림차순으로 정렬한다. 그 다음 confidence score가 높은 순의 bounding box부터 다른 box와의 IoU값을 조사하여 IoU threshold 이상인 box를 모두 제거함
  1. 2의 과정을 반복하여 남아있는 box만 선택.
4. 단점
  • 개느림(cpu 기반 selective search 진행)
  • 복잡함
  • end to end 방식으로 학습x (잘 모르겟쉐)⇒ 역전파가 가능한 애들을 의미하는건지?⇒ CNN은 고정되므로 SVM과 Bounding Box Regression 결과로 CNN을 업데이트 할 수 x
  • ⇒ SVM, Regressor 모듈이 CNN과 분리되어 있음
5. Reference
728x90
반응형

'Deep Learning > [논문] Paper Review' 카테고리의 다른 글

EfficientNet  (0) 2023.07.07
cGAN/Pix2Pix  (0) 2023.07.07
GAN: Generative Adversarial Nets  (0) 2023.07.06
AE  (0) 2023.07.06
SPPNet  (0) 2023.07.06