본문 바로가기
728x90
반응형

nlp12

[Transformer] train.py, dataset.py, config.py, Mask 구현하기 - 2 (Pytorch) 지난 시간에 이어, 오늘은 나머지 train.py, config.py, dataset.py 파일을 구현했다. https://www.youtube.com/watch?v=ISNdQcPhsts 이 분 코드를 바탕으로 구현하였습니다. 1. Dataset.py 구현 1-1. Bilingual Dataset 사용한 데이터셋은 Hugging Face에서 제공하는 opus_books Dataset을 활용하였다. https://huggingface.co/datasets/opus_books/viewer/en-it opus_books · Datasets at Hugging Face { "en": "Nor could I pass unnoticed the suggestion of the bleak shores of Laplan.. 2024. 2. 21.
DETR: End-to-End Object Detection with Transformers 📝 본 논문에서는 object detection을 direct set prediction(일대일대응)으로 정의, transformer와 bipartite matching loss를 사용한 DETR(DEtection TRansformer)을 제안함. DETR은 COCO dataset에 대하여 Faster R-CNN과 비슷한 수준의 성능을 보임 추가적으로, self-attention을 통한 global information(전역 정보)를 활용함으로써 크기가 큰 객체를 Faster R-CNN보다 훨씬 잘 포착. 📝 1. Backbone(ResNet)을 입력해서 피처맵을 추출 2. 피처맵을 1x1 conv에 입력해서 flatten한 피처맵에 대해 positional encoding 구해서 더함 ※ spatial.. 2023. 7. 23.
[2주차] SRNet: Editing Text in the Wild Review 0. Abstract 본 논문에서는 자연 이미지의 텍스트 편집에 관심이 있으며, 원본 이미지의 단어를 다른 단어로 교체하거나 수정하여 원본 이미지와 시각적으로 구별하기 어려운 편집된 이미지를 유지하는 작업을 목표로 함 세 가지 모듈로 구성된 end-to-end 학습 가능한 스타일 보존 네트워크 (SRNet)를 제안 텍스트 변환 모듈: 원본 이미지의 텍스트 내용을 대상 텍스트로 변경하면서 원래의 텍스트 스타일을 유지합니다. 배경 인페인팅 모듈: 원본 텍스트를 지우고 적절한 텍스처로 텍스트 영역을 채웁니다. 퓨전 모듈: 두 모듈의 정보를 결합하여 수정된 텍스트 이미지를 생성 💡 1. Text Editing(텍스트 편집) 2. Text Synthesis(텍스트 합성) 3. Text Erasure(텍스트 삭제).. 2023. 7. 17.
SRNet: Editing Text in the Wild Review 0. Abstract 본 논문에서는 자연 이미지의 텍스트 편집에 관심이 있으며, 원본 이미지의 단어를 다른 단어로 교체하거나 수정하여 원본 이미지와 시각적으로 구별하기 어려운 편집된 이미지를 유지하는 작업을 목표로 함 세 가지 모듈로 구성된 end-to-end 학습 가능한 스타일 보존 네트워크 (SRNet)를 제안 텍스트 변환 모듈: 원본 이미지의 텍스트 내용을 대상 텍스트로 변경하면서 원래의 텍스트 스타일을 유지합니다. 배경 인페인팅 모듈: 원본 텍스트를 지우고 적절한 텍스처로 텍스트 영역을 채웁니다. 퓨전 모듈: 두 모듈의 정보를 결합하여 수정된 텍스트 이미지를 생성 💡 1. Text Editing(텍스트 편집) 2. Text Synthesis(텍스트 합성) 3. Text Erasure(텍스트 삭제).. 2023. 7. 17.
XLM: Cross-lingual Language Model Pretraining 💡 0. Abstract 최근 연구들은 영어 자연어 이해에 대한 생성 사전 훈련의 효율성을 입증하였습니다. 본 연구에서는 이 접근법을 다국어로 확장하여 교차 언어 사전 훈련의 효과를 보여줍니다. 우리는 교차 언어 언어 모델 (XLM)을 학습하기 위해 두 가지 방법을 제안합니다. 하나는 단일 언어 데이터에만 의존하는 비지도 학습 방법이고, 다른 하나는 병렬 데이터를 활용하는 감독 학습 방법입니다. 우리는 교차 언어 분류, 비지도 및 감독 기계 번역에서 최고 수준의 결과를 얻었습니다. XNLI에서 우리의 접근법은 4.9%의 절대적인 정확도 향상을 이끌어냈습니다. 비지도 기계 번역에서는 WMT'16 독일어-영어에서 34.3 BLEU를 달성하여 이전 최고 수준보다 9 BLEU 이상 향상되었습니다. 감독 기계 번.. 2023. 7. 9.
Transformer 1. overall architecture 2. overall procedure encoder의 경우 input 문장을 넣고 embedding 벡터로 바꿔줌 positional encoding을 더해주어 각 단어의 순서에 대한 정보를 부여함. 더해서 multi-head attention을 수행 이 때, 같은 embedding의 값을 Q,K,V로 분배. (Q,K,V)는 서로 같은 값. ex) head가 3개면, 각 Q,K,V에 해당하는 가중치 3개씩 존재함 (Linear) ⇒ 총 9개의 다른 값이 생기게 됨 이때, V는 encoding의 embedding에서 나온 값에 가중치 곱한 것을 의미. 하나의 head당 Q와 K를 곱해서 softmax 함수를 거친 후, V값과 곱함 이 각각 곱한 3개의 head 값.. 2023. 7. 6.
728x90
반응형