본문 바로가기

728x90

CV15

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization CAM(Class Activation Maps) 이란? Global Max Pooling(GMP) vs Global Average Pooling(GAP) : 전체 영역 내에서 가장 큰 값을 사용하는 방법을 Global Max Pooling(GMP)라고 함 : 반면, 모든 값을 고려하여 평균값을 사용하는 방법을 Global Average Pooling(GAP)이라고 함 : 보통 CNN의 구조에서는마지막 feature map을 flatten하여 1차원 벡터로 만든 뒤 이를 Fully Connected Netowork를 통과하여 softmax로 classification을 했었음. : 이 FC layer는 parameter의 개수를 매우 커지도록 만들기 때문에 overfitting 위험이 증가할 수 있고, F.. 2023. 8. 13.

DINO: Emerging Properties in Self-Supervised Vision Transformers (2021) Self Supervised learning https://brunch.co.kr/@b047a588c11b462/45 : 비지도 학습 방식의 일종으로서 라벨링되지 않은 데이터셋을 활용하여 인공지능이 스스로 분류작업을 수행하도록 함 : 스스로 태스크를 설정하여 모델을 학습한다는 점에서 기존의 비지도 학습 방식과 차이가 존재하며, 인터넷상 크롤링을 통해 수집할 수 있는 텍스트, 이미지, 비디오 등 다양한 종류의 데이터셋을 활용할 수도 있음 : 모델이 확장되기 위해서는 대량의 데이터를 필요로 하지만, 라벨링된 데이터를 지속적으로 확보하기 위해서는 많은 비용이 요구된다는 단점이 존재 : 자기 지도 학습은 라벨링되지 않은 학습 데이터만 확보하더라도 모델의 규모를 증가시킬 수 있으며 이에 따라 정확도 역시 향상시킬.. 2023. 8. 10.

[3주차] 건물 3D화 모델 찾기 GitHub - chrise96/3D_building_reconstruction: MSc Computer Science project. Automatically enhance CityGML LOD2 buildings with facade details, by using a panoramic image sequence and building footprint data. NOTE: Amsterdam Panorama API is currently offline. MSc Computer Science project. Automatically enhance CityGML LOD2 buildings with facade details, by using a panoramic image sequence and buil.. 2023. 7. 28.

DETR: End-to-End Object Detection with Transformers 📝 본 논문에서는 object detection을 direct set prediction(일대일대응)으로 정의, transformer와 bipartite matching loss를 사용한 DETR(DEtection TRansformer)을 제안함. DETR은 COCO dataset에 대하여 Faster R-CNN과 비슷한 수준의 성능을 보임 추가적으로, self-attention을 통한 global information(전역 정보)를 활용함으로써 크기가 큰 객체를 Faster R-CNN보다 훨씬 잘 포착. 📝 1. Backbone(ResNet)을 입력해서 피처맵을 추출 2. 피처맵을 1x1 conv에 입력해서 flatten한 피처맵에 대해 positional encoding 구해서 더함 ※ spatial.. 2023. 7. 23.

Taskonomy: Disentangling Task Transfer Learning 💡 가 뭐냐? Taskonomy는 컴퓨터 비전 분야에서 다양한 작업 간의 상호 의존성을 탐구하고, 이를 통해 범용 비전 시스템을 구축하는 연구. Taskonomy는 다양한 작업들을 수행하기 위해 필요한 시각적 특징들이 서로 공유될 수 있는지를 조사하고, 이를 통해 모델의 학습 효율성과 성능을 향상시킬 수 있는 전이 학습 방법을 탐구. Taskonomy의 목표는 다양한 작업들 간에 공유 가능한 시각적 특징을 탐색하여, 작업 간의 학습과 일반화를 개선하고 작업 전환에 따른 비용과 노력을 최소화하는 것. 🍀 논문 요약: 여러 작업들 간에 공유 가능한 특징들을 발견하고 이를 활용하여 한 모델이 다양한 작업(객체 검출, 이미지 분류, 세그멘테이션)을 수행할 수 있도록 함. 이를 위해 다양한 작업들을 수행하며 수집.. 2023. 7. 16.

Noisy Student: Self-training with Noisy Student improves ImageNet classification(2019) 리뷰는 아래쪽에 있습니당 ! ! 번역 ver 0. Abstract 우리는 Noisy Student Training을 제안합니다. 이는 레이블이 풍부한 경우에도 잘 작동하는 준지도 학습 방법입니다. Noisy Student Training은 ImageNet에서 88.4%의 top-1 정확도를 달성합니다. 이는 35억 개의 약한 레이블이 부착된 Instagram 이미지가 필요한 최첨단 모델보다 2.0% 더 높은 성능입니다. 강건성 테스트 세트에서는 ImageNet-A의 top-1 정확도를 61.0%에서 83.7%로 향상시키며, ImageNet-C의 평균 손상 오차를 45.7에서 28.3으로 줄이고, ImageNet-P의 평균 뒤집기 비율을 27.8에서 12.2로 줄입니다. Noisy Student Train.. 2023. 7. 14.

이전 1 2 3 다음

728x90

티스토리툴바