본문 바로가기
728x90
반응형
XLM: Cross-lingual Language Model Pretraining 💡 0. Abstract 최근 연구들은 영어 자연어 이해에 대한 생성 사전 훈련의 효율성을 입증하였습니다. 본 연구에서는 이 접근법을 다국어로 확장하여 교차 언어 사전 훈련의 효과를 보여줍니다. 우리는 교차 언어 언어 모델 (XLM)을 학습하기 위해 두 가지 방법을 제안합니다. 하나는 단일 언어 데이터에만 의존하는 비지도 학습 방법이고, 다른 하나는 병렬 데이터를 활용하는 감독 학습 방법입니다. 우리는 교차 언어 분류, 비지도 및 감독 기계 번역에서 최고 수준의 결과를 얻었습니다. XNLI에서 우리의 접근법은 4.9%의 절대적인 정확도 향상을 이끌어냈습니다. 비지도 기계 번역에서는 WMT'16 독일어-영어에서 34.3 BLEU를 달성하여 이전 최고 수준보다 9 BLEU 이상 향상되었습니다. 감독 기계 번.. 2023. 7. 9.
[자료구조] 그래프 탐색 알고리즘: DFS/BFS 1. 탐색 많은 양의 데이터 중에서 원하는 데이터를 찾는 과정을 일컫음 대표적인 그래프 탐색 알고리즘 : DFS , BFS 2. DFS(Depth-First Search) 깊이 우선 탐색 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘을 의미함 스택 자료구조 or 재귀함수 활용 꼭 이진트리일 필요가 없음! 탐색 시작 노드를 스택에 삽입 후, 방문 처리 스택의 최상단 노드에 방문하지 않은 인접한 노드가 하나라도 있으면 그 노드를 스택에 넣고 방문 처리. 방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼냄 더 이상 2번의 과정을 수행할 수 없을 때까지 반복 def dfs(graph, v, visited): visited[v] =True print(v, end=' ') for i in graph.. 2023. 7. 9.
[모두를 위한 딥러닝 시즌 2] lab-10-1~2 lab-10-1~2 2023. 7. 9.
[모두를 위한 딥러닝 시즌 2] lab-09-1~4 lab-09-1~4 09-1 ReLU sigmoid의 경우, 미분값이 거의 0이기에 역전파를 할 경우, 앞 단에서는 거의 0에 수렴하게 됨. 따라서 ReLU가 나오게 됨. 09-2 Weight initialization RBM은 두 개의 층(입력층 1개, 은닉층 1개)으로 구성되어있기 때문에 심층 신경망은 아님 다만 RBM은 심층 신뢰 신경망(DBN:Deep Belief Network)을 구성하는 요소로 사용 X→Y 출력, 반대로 Y-X’로도 복원 가능 레이어 안에 있는 노드끼리는 서로 연결 x 다른 layer 사이에는 서로 연결 o 두 분포가 얼마나 유사한지 측정하는 방법 (forward ↔ backprop을 반복하면서 bias와 weight 조정) RBM을 여러번 학습 하는 것: DBM pre-tra.. 2023. 7. 9.
[모두를 위한 딥러닝 시즌 2] lab-01-1~08-2 lab-01-1~08-2 01-1~2 Tensor Manipulation 1~2 1차원: 벡터 2차원: 행렬 3차원: 텐서(배열을 의미) 4차원: 텐서를 위로 쌓은 것 5차원: 텐서를 옆으로 쌓은 것 6차원: 5차원을 뒤로 쌓은 것 batch size=64 dim=256 *가장 전형적인 2차원 텐서 가로: 너비(width) 세로: 높이(height) length: 문장길이 dim: 단어 벡터의 차원 ex)['나는 사과를 좋아해'] 문장길이(length=3) '나는'=[0.1,0.2,0.9] '사과를'=[0.3,0.5,0.1] '좋아해'=[0.5,0.6,0.7] => [[0.1,0.2,0.9], [0.3,0.5,0.1], [0.5,0.6,0.7]] 파이토치의 경우, 자동적으로 행렬 차원의 사이즈를 맞춰준다.. 2023. 7. 9.
[밑바닥부터 시작하는 딥러닝 2] chap1(신경망 복습) 1-3) 신경망의 학습 계산그래프 1. 덧셈 노드 2. 곱셈 노드 3. 분기 노드 복제 노드라고도 함. 4. Repeat 노드 분기 노드가 N개로 일반화(확장된 경우) 5. Sum 노드 Repeat 노드와 반대인 경우 6. MatMul 노드 affine 계층과 같다고 보면 됨 ( 행렬의 곱셈을 MatMul 노드라고 함) 2023. 7. 9.
728x90
반응형