본문 바로가기

728x90

Deep Learning/[논문] Paper Review38

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization CAM(Class Activation Maps) 이란? Global Max Pooling(GMP) vs Global Average Pooling(GAP) : 전체 영역 내에서 가장 큰 값을 사용하는 방법을 Global Max Pooling(GMP)라고 함 : 반면, 모든 값을 고려하여 평균값을 사용하는 방법을 Global Average Pooling(GAP)이라고 함 : 보통 CNN의 구조에서는마지막 feature map을 flatten하여 1차원 벡터로 만든 뒤 이를 Fully Connected Netowork를 통과하여 softmax로 classification을 했었음. : 이 FC layer는 parameter의 개수를 매우 커지도록 만들기 때문에 overfitting 위험이 증가할 수 있고, F.. 2023. 8. 13.

STAR: Sparse Trained Articulated Human Body Regressor(2020) 0. ABSTRACT 1. 훨씬 간결한 모델 (매개변수의 수 감소) : SMPL보다 80% 더 작은 매개변수만을 사용 2. 체형에 따라 변하는 형태 및 포즈를 학습시킴 (체형 및 BMI 활용) : SMPL의 경우, 체형에 따른 다양한 형태의 변형을 고려하지 않았음 (체형에 상관없이 다 동일한 근육 형태로 표현) ex) 누군가 팔을 구부렸을 때, 각 체형마다 팔꿈치 주변의 피부나 근육의 형태가 더 다르게 변형함(골격이 더 큰 사람, 근육이 더 많거나 적은 사람..) 3. 학습 데이터를 늘림 :일반화 성능 개선 결론: 소형 모델이며, 새로운 체형에 대해 더 잘 일반화됨, SMPL 대체 모델로 사용 가능 1 INTRODUCTION 해당 관절(무릎이면 무릎까지만) 주위 부분까지만 학습시킴 : 기존 SMPL 같은.. 2023. 8. 10.

DINO: Emerging Properties in Self-Supervised Vision Transformers (2021) Self Supervised learning https://brunch.co.kr/@b047a588c11b462/45 : 비지도 학습 방식의 일종으로서 라벨링되지 않은 데이터셋을 활용하여 인공지능이 스스로 분류작업을 수행하도록 함 : 스스로 태스크를 설정하여 모델을 학습한다는 점에서 기존의 비지도 학습 방식과 차이가 존재하며, 인터넷상 크롤링을 통해 수집할 수 있는 텍스트, 이미지, 비디오 등 다양한 종류의 데이터셋을 활용할 수도 있음 : 모델이 확장되기 위해서는 대량의 데이터를 필요로 하지만, 라벨링된 데이터를 지속적으로 확보하기 위해서는 많은 비용이 요구된다는 단점이 존재 : 자기 지도 학습은 라벨링되지 않은 학습 데이터만 확보하더라도 모델의 규모를 증가시킬 수 있으며 이에 따라 정확도 역시 향상시킬.. 2023. 8. 10.

Expressive Body Capture: 3D Hands, Face, and Body from a Single Image SMPL-X란? : 단일 이미지로부터, 신체뿐만 아니라, 손과 얼굴을 통합적으로 3D 형태의 신체로 표현하는 모델 좌: SMPL, 중간: SMPL+H, 우: SMPL-X 0. ABSTRACT : 3D 스캔을 사용하여 인간의 몸체에 대한 새로운 통합된 3D 모델인 SMPL-X를 훈련 : SMPL을 확장해서 손과 표정까지 구현하고자 함 : SMPL-X는 얼굴, 손, 목, 신체 등 다양한 인체 형태와 자세를 포함하는 많은 매개변수를 가지고 있는데, 이를 정확하게 추정하기 위해서는 각 매개변수에 대한 이미지 정보와 관절 정보를 결합해서 최적화를 수행해야 한다는 문제점 존재 : 따라서 기존 SMPLify 알고리즘(2D에서 관절정보 추출해서 학습시키는)을 활용해서 SMPL-X 모델을 최적화해서 적합시키는 방법을 제.. 2023. 8. 4.

BodyNet: Volumetric Inference of 3D Human Body Shapes BodyNet이란? : 단일 이미지로부터 2D pose, segmentation 추출, 두 개의 정보를 활용해 3D pose를 학습, 이후, 3가지 정보에 RGB 정보까지 활용해 3D의 부피 기반 체형을 구성하는 Network를 말함 : end to end 형식 1. 입력 RGB 이미지는 먼저 2D 포즈 추정과 2D 신체 부위 세그멘테이션을 위한 하위 네트워크를 통과 2. 2D pose와 segmentation을 훈련 3. 학습된 2D pose와 Segmentation 가중치를 고정해서 3D pose를 훈련시킴 4. 이후, 이전의 모든 네트워크 가중치를 고정하고 3D 형태 network를 훈련 5. 추가 재프로젝션 손실로 형태 네트워크 훈련해서 부피 기반 형태 추정 작업에 대해 세밀 조정 6. 결합된 손.. 2023. 8. 3.

mixup: Beyond Emprical Risk Minimization Mixup이 뭐야? : Beyond Emprical Risk Minimization - 경험적 위험 최소화를 넘어? 이게 도대체 뭔말인가 : mixup ⇒ data augmentaion 기법 :두 데이터를 선형적으로 결합해서 새로운 샘플을 생성 : 정말 쉽게 말하자면, 우리가 일반적으로 훈련, 예측과 같은 방법을 쓰면 과적합이 발생하기 마련임. : 왜냐? 훈련데이터만 보고 학습을 시키기 때문에, 당연히 학습한 모델은 학습 데이터셋에 편향됨. : 즉, 과적합이 난다는 말. 결국, 다른 조금만 다른 분포를 가지는 데이터셋에 적용만 해(Out of Distribution) 모델이 취약할 수 밖에 없음 : 따라서, 훈련 데이터셋만 학습 시키는게 아니라, 훈련 데이터셋의 근방 분포도 함께 학습을 시켜서 보다 더 .. 2023. 8. 3.

이전 1 2 3 4 ··· 7 다음

728x90

티스토리툴바