728x90 반응형 Deep Learning78 SRNet: Editing Text in the Wild Review 0. Abstract 본 논문에서는 자연 이미지의 텍스트 편집에 관심이 있으며, 원본 이미지의 단어를 다른 단어로 교체하거나 수정하여 원본 이미지와 시각적으로 구별하기 어려운 편집된 이미지를 유지하는 작업을 목표로 함 세 가지 모듈로 구성된 end-to-end 학습 가능한 스타일 보존 네트워크 (SRNet)를 제안 텍스트 변환 모듈: 원본 이미지의 텍스트 내용을 대상 텍스트로 변경하면서 원래의 텍스트 스타일을 유지합니다. 배경 인페인팅 모듈: 원본 텍스트를 지우고 적절한 텍스처로 텍스트 영역을 채웁니다. 퓨전 모듈: 두 모듈의 정보를 결합하여 수정된 텍스트 이미지를 생성 💡 1. Text Editing(텍스트 편집) 2. Text Synthesis(텍스트 합성) 3. Text Erasure(텍스트 삭제).. 2023. 7. 17. [2주차] 3D Generation Model Github 탐색 💡 2주차 과제: 3D 생성하는 모델 깃헙 → 만약 학습이 필요한 모델이면 어떤 데이터고, 데이터 AI허브같은 데 있는지 1. CIPS-3D (21년도 10월) 이미지를 3D화 시키려고 하는, 저번에 의견 나왔던 영화 포스터 혹은, 해리포터 신문?, 그림 명화 등이 가능할 수도 있지 않을까 💻 https://github.com/PeterouZh/CIPS-3D 📚 https://arxiv.org/abs/2110.09788 🧪 https://huggingface.co/spaces/hysts/Shap-E 특징 : NeRF 기반 : 한계점은 NeRF 마냥 앞에서만 빙빙대는 것만 가능 → 우리가 어떤 주제로 할거냐에 따라서 choice 될 수도 안될 수도 : 데이터셋: 이미지…? 2. FastGANFit (21년.. 2023. 7. 17. Taskonomy: Disentangling Task Transfer Learning 💡 가 뭐냐? Taskonomy는 컴퓨터 비전 분야에서 다양한 작업 간의 상호 의존성을 탐구하고, 이를 통해 범용 비전 시스템을 구축하는 연구. Taskonomy는 다양한 작업들을 수행하기 위해 필요한 시각적 특징들이 서로 공유될 수 있는지를 조사하고, 이를 통해 모델의 학습 효율성과 성능을 향상시킬 수 있는 전이 학습 방법을 탐구. Taskonomy의 목표는 다양한 작업들 간에 공유 가능한 시각적 특징을 탐색하여, 작업 간의 학습과 일반화를 개선하고 작업 전환에 따른 비용과 노력을 최소화하는 것. 🍀 논문 요약: 여러 작업들 간에 공유 가능한 특징들을 발견하고 이를 활용하여 한 모델이 다양한 작업(객체 검출, 이미지 분류, 세그멘테이션)을 수행할 수 있도록 함. 이를 위해 다양한 작업들을 수행하며 수집.. 2023. 7. 16. Noisy Student: Self-training with Noisy Student improves ImageNet classification(2019) 리뷰는 아래쪽에 있습니당 ! ! 번역 ver 0. Abstract 우리는 Noisy Student Training을 제안합니다. 이는 레이블이 풍부한 경우에도 잘 작동하는 준지도 학습 방법입니다. Noisy Student Training은 ImageNet에서 88.4%의 top-1 정확도를 달성합니다. 이는 35억 개의 약한 레이블이 부착된 Instagram 이미지가 필요한 최첨단 모델보다 2.0% 더 높은 성능입니다. 강건성 테스트 세트에서는 ImageNet-A의 top-1 정확도를 61.0%에서 83.7%로 향상시키며, ImageNet-C의 평균 손상 오차를 45.7에서 28.3으로 줄이고, ImageNet-P의 평균 뒤집기 비율을 27.8에서 12.2로 줄입니다. Noisy Student Train.. 2023. 7. 14. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 💡 0. Abstract 우리는 드문 입력 뷰 세트를 사용하여 연속적인 부피 장면 함수를 최적화하여 복잡한 장면의 새로운 시점을 합성하는 최첨단 결과를 달성하는 방법을 제시합니다. 우리의 알고리즘은 완전히 연결된 (비선형) 심층 네트워크를 사용하여 장면을 표현하며, 입력은 단일 연속적인 5D 좌표 (공간 위치 (x, y, z) 및 시청 방향 (θ, φ))이고 출력은 해당 공간 위치에서의 부피 밀도와 시점에 의존하는 방출 래디언스입니다. 우리는 카메라 광선을 따라 5D 좌표를 쿼리하여 뷰를 합성하고, 전통적인 부피 렌더링 기술을 사용하여 출력 색상과 밀도를 이미지로 투영합니다. 부피 렌더링은 자연스럽게 미분 가능하기 때문에, 우리의 표현을 최적화하기 위해 필요한 유일한 입력은 알려진 카메라 포즈를 가진 이.. 2023. 7. 13. [1주차] NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis 💡 0. Abstract 우리는 드문 입력 뷰 세트를 사용하여 연속적인 부피 장면 함수를 최적화하여 복잡한 장면의 새로운 시점을 합성하는 최첨단 결과를 달성하는 방법을 제시합니다. 우리의 알고리즘은 완전히 연결된 (비선형) 심층 네트워크를 사용하여 장면을 표현하며, 입력은 단일 연속적인 5D 좌표 (공간 위치 (x, y, z) 및 시청 방향 (θ, φ))이고 출력은 해당 공간 위치에서의 부피 밀도와 시점에 의존하는 방출 래디언스입니다. 우리는 카메라 광선을 따라 5D 좌표를 쿼리하여 뷰를 합성하고, 전통적인 부피 렌더링 기술을 사용하여 출력 색상과 밀도를 이미지로 투영합니다. 부피 렌더링은 자연스럽게 미분 가능하기 때문에, 우리의 표현을 최적화하기 위해 필요한 유일한 입력은 알려진 카메라 포즈를 가진 이.. 2023. 7. 13. 이전 1 2 3 4 5 6 7 ··· 13 다음 728x90 반응형