0. Abstract
- ๋ณธ ๋ ผ๋ฌธ์์๋ ์์ฐ ์ด๋ฏธ์ง์ ํ ์คํธ ํธ์ง์ ๊ด์ฌ์ด ์์ผ๋ฉฐ, ์๋ณธ ์ด๋ฏธ์ง์ ๋จ์ด๋ฅผ ๋ค๋ฅธ ๋จ์ด๋ก ๊ต์ฒดํ๊ฑฐ๋ ์์ ํ์ฌ ์๋ณธ ์ด๋ฏธ์ง์ ์๊ฐ์ ์ผ๋ก ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด ํธ์ง๋ ์ด๋ฏธ์ง๋ฅผ ์ ์งํ๋ ์์ ์ ๋ชฉํ๋ก ํจ
- ์ธ ๊ฐ์ง ๋ชจ๋๋ก ๊ตฌ์ฑ๋ end-to-end ํ์ต ๊ฐ๋ฅํ ์คํ์ผ ๋ณด์กด ๋คํธ์ํฌ (SRNet)๋ฅผ ์ ์
- ํ ์คํธ ๋ณํ ๋ชจ๋: ์๋ณธ ์ด๋ฏธ์ง์ ํ ์คํธ ๋ด์ฉ์ ๋์ ํ ์คํธ๋ก ๋ณ๊ฒฝํ๋ฉด์ ์๋์ ํ ์คํธ ์คํ์ผ์ ์ ์งํฉ๋๋ค.
- ๋ฐฐ๊ฒฝ ์ธํ์ธํ ๋ชจ๋: ์๋ณธ ํ ์คํธ๋ฅผ ์ง์ฐ๊ณ ์ ์ ํ ํ ์ค์ฒ๋ก ํ ์คํธ ์์ญ์ ์ฑ์๋๋ค.
- ํจ์ ๋ชจ๋: ๋ ๋ชจ๋์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์์ ๋ ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ์์ฑ
1. Introduction
- ์ด ๋ ผ๋ฌธ์์๋ ์ฅ๋ฉด ํ ์คํธ์ ๊ด๋ จ๋ ์๋ก์ด ์์ ์ธ ์ฅ๋ฉด ํ ์คํธ ํธ์ง์ ์ด์ ์ ๋ง์ถ๊ณ ์์
- ์ฃผ์ด์ง ํ ์คํธ ์ด๋ฏธ์ง์์ ์๋ณธ ํ ์คํธ๋ฅผ ์์์ํค์ง ์๊ณ ๋์ฒดํ๋ ๊ฒ์ด ๋ชฉํ

- ๊ทธ๋ฆผ 1 (a)์ ์ค๋ช
๋ ๋๋ก ์ ์๋ ์ฅ๋ฉด ํ
์คํธ ํธ์ง๊ธฐ๋ ์์ค ์ด๋ฏธ์ง์ ๊ฐ ๋จ์ด๋ฅผ ํธ์งํ์ฌ ํ์ค์ ์ธ ํ
์คํธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํจ⇒ ์ฅ๋ฉด ํ
์คํธ ํธ์ง์๋ ๋ ๊ฐ์ง ์ฃผ์ ๋์ ๊ณผ์ ๊ฐ ์กด์ฌ
- ํ ์คํธ ์คํ์ผ ์ ์ด
- ๋ฐฐ๊ฒฝ ์ง๊ฐ ๋ณด์กด
- โก๏ธ ๋ฒ์ญ ๋์ ๊ธธ์ด์ ์์ดํจ: ๋์ ํ ์คํธ๊ฐ ์๋ณธ ํ ์คํธ๋ณด๋ค ์งง์ ๊ฒฝ์ฐ, ๋ฌธ์ ์์ญ์ ์ด๊ณผ ์์ญ์ ์ญ์ ํ๊ณ ์ ์ ํ ์ง๊ฐ์ผ๋ก ์ฑ์์ผ ํ๋ค.
- โก๏ธ ์ผ๊ด์ฑ ์ ์ง์ ์ด๋ ค์: ํ ์คํธ๊ฐ ๋ฉ๋ด๋ ๊ฐ๋ก๋ฑ ํ์งํ๊ณผ ๊ฐ์ ๋ณต์กํ ์ฅ๋ฉด์ ๋ํ๋ ๋๋ ์์ ๋ ๋ฐฐ๊ฒฝ์ ์ผ๊ด์ฑ ์ ์ง๊ฐ ์ด๋ ต๋ค.
SRNet์ ํต์ฌ ์์ด๋์ด๋ ๋ณต์กํ ์์ ์ ์ฌ๋ฌ ๊ฐ์ ๋ ๋จ์ํ๊ณ ๋ชจ๋์์ธ ์๋ธ ๋คํธ์ํฌ๋ก ๋ถํดํ๋ ๊ฒ โป ์๋ธ ๋คํธ์ํฌ: ํ ์คํธ ๋ณํ ๋ชจ๋, ๋ฐฐ๊ฒฝ ๋ณด์ ๋ชจ๋ ๋ฐ ํจ์ ๋ชจ๋

: ์์ค ์ด๋ฏธ์ง์ ํ ์คํธ ๋ด์ฉ์ ๋์ ํ ์คํธ๋ก ๋ณ๊ฒฝํ๋ฉด์ ์๋ณธ ํ ์คํธ ์คํ์ผ์ ์ ์ง
2. BIM (๋ฐฐ๊ฒฝ ๋ณด์ ๋ชจ๋)
:์๋ณธ ํ ์คํธ ์คํธ๋กํฌ ํฝ์ ์ ์ญ์ ํ๊ณ ํํฅ์ ํน์ง ์ตํฉ ๋ฐฉ์์ผ๋ก ํด๋น ์์ญ์ ์ ์ ํ ์ง๊ฐ์ผ๋ก ์ฑ์
3. FM (ํจ์ ๋ชจ๋) : ํฌ๊ทธ๋ผ์ด๋ ์ ๋ณด์ ๋ฐฐ๊ฒฝ ์ง๊ฐ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํจ์ ํ์ฌ ์์ ๋ ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ์์ฑ
<GAN VS SRNet>
- GAN์ ์ด๋ฏธ์ง ๊ฐ ๋ณํ, ์คํ์ผ ์ ์ด ๋ฑ ์ผ๋ถ ์์ ์์ ํฐ ์ง์ ์ ์ด๋ฃจ์์ง๋ง, ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์ ๋ ฅ์ ์๋ฒ ๋ฉํ๊ณ ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด ์๋ฒ ๋ฉ๋ ๊ณต๊ฐ์ผ๋ก ๋์ฝ๋ฉํ๋ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ ์ฉ.
- SRNet์ ์ด์ ๋ฌ๋ฆฌ ๋คํธ์ํฌ๋ฅผ ๋ชจ๋์ ์๋ธ ๋คํธ์ํฌ๋ก ๋ถํดํ๊ณ , ๋ณต์กํ ์์ ์ ๋ช ๊ฐ์ง ์ฌ์ด ํ์ต ์์ ์ผ๋ก ๋ถํดํจ
<์ฅ์ ์ ์>
- ๋จ์ด ๋๋ ํ ์คํธ ๋ผ์ธ ์์ค์ ์ฅ๋ฉด ํ ์คํธ ํธ์ง ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ์ฒซ ๋ฒ์งธ ํ์ต ๊ฐ๋ฅํ ๋คํธ์ํฌ๋ก ์๋ ค์ ธ ์๋ค.
- ์ฐ๋ฆฌ๋ ํ ์คํธ ๋ณํ ๋ชจ๋, ๋ฐฐ๊ฒฝ ๋ณด์ ๋ชจ๋ ๋ฐ ์ต์ข ํจ์ ๋ชจ๋์ ํฌํจํ SRNet์ ์ฌ๋ฌ ๊ฐ์ ๋จ์ํ๊ณ ๋ชจ๋์์ธ ํ์ต ๊ฐ๋ฅํ ๋ชจ๋๋ก ๋ถํดํ์ฌ ๋๋ถ๋ถ์ ์ด๋ฏธ์ง ๊ฐ ๋ณํ GAN ๋ชจ๋ธ๋ณด๋ค ๋ ํ์ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์๊ฒ ํ๋ค.
- Stroke Skeleton์ ์๋ด๋ก, ์ ์๋ ๋คํธ์ํฌ๋ ๊ฐ๋ฅํ ํ ๋ง์ ์๋ฏธ ์ ๋ณด๋ฅผ ์ ์งํ ์ ์๋ค.
Stroke Skeleton
โป stroke(ํ ์คํธ ๊ฐ๊ฐ์ ์ ), skeleton(์ ๋ค์ ์ค์ฌ์ ) ์ ์ฃผ๋ก ์ด๋ฏธ์ง ์ฒ๋ฆฌ ๊ธฐ๋ฒ ์ค ํ๋์ธ "์ ๊ฒ์ถ"์ด๋ "์ ์ถ์ถ" ์๊ณ ๋ฆฌ์ฆ์ ์๋ฏธํจ
โป ํ ์คํธ์ ๊ตฌ์กฐ์ ํน์ง์ ๊ฐ์กฐํ๊ณ , ํ ์คํธ์ ํํ์ ๋ชจ์์ ํ์ ํ๋ ๋ฐ ์ฌ์ฉ
- ์ ์๋ ๋ฐฉ๋ฒ์ ์ธ์ด ๋ด์ ํ ์คํธ ์ด๋ฏธ์ง ํธ์ง๋ฟ๋ง ์๋๋ผ ํฌ๋ก์ค ์ธ์ด ํ ์คํธ ํธ์ง ๋ฐ ์ ๋ณด ์จ๊น(์: ๋จ์ด ์์ค์ ํ ์คํธ ์ญ์ )๊ณผ ๊ฐ์ ์ฌ๋ฌ ์ฅ๋ฉด ํ ์คํธ ํธ์ง ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
2. Related Work
2.1 GAN
- GAN: ์์ฑ์์ ํ๋ณ์๋ก ๊ตฌ์ฑ, ์ ์๋ ์ค์ ๋ถํฌ์ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ , ํ์๋ ์ค์ ๋ฐ์ดํฐ์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ณํ๋ ๋ฐฉ๋ฒ์ ํ์ต
- DCGAN: ์์ฑ์์ ํ๋ณ์๋ก์ ์ปจ๋ณผ๋ฃจ์ ์ ๊ฒฝ๋ง (CNN)์ ์ฌ์ฉํ์ฌ GAN์ ํ๋ จ ์์ ์ฑ์ ๊ฐ์
- Conditional-GAN: ์ฃผ์ด์ง ์กฐ๊ฑด์ ๋ฐ๋ผ ํ์ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ฉฐ, ํฝ์ ์์ค์ ์ ๋ ฌ ์ด๋ฏธ์ง ์์ฑ ์์ ์์ ์ค์ํ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋
- Pix2pix: ์ด๋ฏธ์ง ๊ฐ์ ๋งคํ ์์ ์ ๊ตฌํํ์์ผ๋ฉฐ, ์ ๋ ฅ ๋๋ฉ์ธ๊ณผ ์ถ๋ ฅ ๋๋ฉ์ธ ๊ฐ์ ๋งคํ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์
- Cycle-GAN: ์๋ก ์ง์ง์ด์ง์ง ์์ ์คํ์ผ ์ด๋ฏธ์ง์์ ๊ต์ฐจ ๋๋ฉ์ธ ๋ณํ ์์ ์ ์ํํ๋ฉฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑ
โก๏ธ ๊ธฐ์กด์ GAN์ ํ ์คํธ ํธ์ง ์์ ์ ์ง์ ์ ์ผ๋ก ์ ์ฉํ๊ธฐ ์ด๋ ค์. ํ ์คํธ ๋ด์ฉ์ด ๋ณ๊ฒฝ๋๊ณ ํ ์คํธ์ ํํ๊ฐ ํฌ๊ฒ ๋ณํด์ผ ํ๋ฉฐ, ์ฅ๋ฉด ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ํธ์งํ ๋ ๋ณต์กํ ๋ฐฐ๊ฒฝ ์ง๊ฐ ์ ๋ณด๋ ์ ๋ณด์กด๋์ด์ผ ํ๊ธฐ ๋๋ฌธ
2.2 Text Style Transfer
- Lyu: ์๋ ์ธ์ฝ๋ ๊ฐ์ด๋ GAN์ ์ ์ํ์ฌ ํ์ค ์ค๊ตญ ํฐํธ ์ด๋ฏธ์ง์์ ์ง์ ๋ ์คํ์ผ์ ์นด๋ฆฌ๊ทธ๋ผํผ ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑ
- Sun: VAE ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์คํ์ผ์ด ์ ์ฉ๋ ์ค๊ตญ ๋ฌธ์ ์์ฑ๊ธฐ๋ฅผ ๊ตฌํ
- Zhang: ์ค๊ตญ ๋ฌธ์์ ํ ์์ค์์์ ์คํ์ผ ์ ์ด ๋ฅ๋ ฅ์ ํ์ตํ๋ ค๊ณ ์๋
- Yang: ํ ์ค์ฒ ํฉ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ์ฌ ๋ถ๋ถ ํจ๊ณผ ํจํด์ ํ ์คํธ ์ค์ผ๋ ํค์ ํด๋น ์์น๋ก ๋งคํํ์ฌ ์ด๋ฏธ์ง ๋ธ๋ก์ ์์ฑํ ์ ์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํต๊ณ ์ ๋ณด์ ๋ถ์์ ๊ธฐ๋ฐํ๊ณ ์์ผ๋ฉฐ ๊ธ์ ๊ฐ์ ์ฐจ์ด์ ๋ฏผ๊ฐํ ์ ์์ผ๋ฉฐ ๋ง์ ๊ณ์ฐ ๋ถ๋ด์ ์ ๋ฐํ ์ ์์ต๋๋ค.
- TET-GAN: ์ต๊ทผ์๋ ๊ฐ๋ณ๊ณ ํจ์จ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ค๊ณํ์ฌ ๋ค์ํ ํ ์คํธ ํจ๊ณผ์ ์คํ์ผํ์ ๋น์คํ์ผํ๋ฅผ ๋์์ ์ง์
- MC-GAN: ์์ด ์ํ๋ฒณ ๊ธ์ ์ ์ด์ ํจ๊ณผ ์ ์ด๋ฅผ ๊ฐ๊ฐ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๊ฐ์ ์๋ธ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ํ์์ท(font style transfer) ์์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ํ
โก๏ธ ์ด๋๊น์ง๋ ๋ฌธ์ ์์ค์์ ํด๊ฒฐํ๋ ค๊ณ ํ์ผ๋, ์ด ๋ ผ๋ฌธ์์๋ ๋จ์ด ํน์ ํ ์คํธ ์์ค์์ ํด๊ฒฐํ๋ ค๊ณ ์๋ํจ.
- ๋จ์ด ์์ค์ ์ฃผ์์ ์ป๋ ๊ฒ์ด ๋ฌธ์ ์์ค์ ์ฃผ์์ ์ป๋ ๊ฒ๋ณด๋ค ํจ์ฌ ์ฌ์
- ๋จ์ด๋ฅผ ํธ์งํ๋ ๊ฒ์ด ๋ฌธ์๋ฅผ ํธ์งํ๋ ๊ฒ๋ณด๋ค ํจ์จ์
- ๋จ์ด ์์ค์ ํธ์ง๊ธฐ๋ ๋จ์ด ์์ค์ ๋ ์ด์์ ์ผ๊ด์ฑ์ ์ฐ๋
- ๋จ์ด์ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ, ๋จ์ด ์์ค์ ํธ์ง๊ธฐ๋ ์ ๊ฒฝ ๋ฌธ์์ ๋ฐฐ์น๋ฅผ ์ ์์ ์ผ๋ก ์กฐ์ ํ ์ ์์ง๋ง, ๋ฌธ์ ์์ค์ ๋ฐฉ๋ฒ์ ์ด๋ฅผ ๊ณ ๋ คํ์ง ์์
2.3 Text Erasure ans Editing
- ํ ์คํธ ํธ์ง ๊ณผ์ ์์ ๋จ์ด ์์ค์์ ๋ฐฐ๊ฒฝ ์ง์์๋ง ๊ด์ฌ์ ๋๊ธฐ ๋๋ฌธ์ SRNet์ ๋ฐฐ๊ฒฝ ๋ณด์ ๋ชจ๋์ ๋ณด๋ค ๊ฐ๋ณ๊ฒ ์ค๊ณ๋ ์ ์์ผ๋ฉฐ ์ฌ์ ํ ์ข์ ์ง์ ์ฑ๋ฅ์ ๊ฐ์ง๊ณ ์์

- ์ง๊ธ๊น์ง๋ ํ ๋ฒ์ ํ๋์ ๋ฌธ์์ ์์๊ณผ ํฐํธ๋ง ์ ์ดํ ์ ์์ผ๋ฉฐ ๋ฐฐ๊ฒฝ ํ ์ค์ฒ์ ์ผ๊ด์ฑ์ ๊ณ ๋ คํ์ง ์์์
โก๏ธ ๋ ผ๋ฌธ์์๋ ํ ์คํธ ์คํ์ผ ์ ์ด์ ํ ์คํธ ์ง์ ์ ๊ทผ๋ฒ์ ์ฅ์ ์ ํตํฉ
3. Methodology

Input
: ์์ค ์คํ์ผ ์ด๋ฏธ์ง Is์ ๋์ ํ ์คํธ ์ด๋ฏธ์ง It์ผ๋ก ๊ตฌ์ฑ๋ ์ด๋ฏธ์ง ์ (Is, It)๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์
Output
: ((Tsk, Tt), Tb, Tf)
: Tsk๋ ๋์ ํ ์คํธ ์ค์ผ๋ ํค(์ ๋ค์ ์ค์ฌ์ )
: Tt๋ Is์ ๋์ผํ ํ ์คํธ ์คํ์ผ์ ๊ฐ์ง ์ ๊ฒฝ ์ด๋ฏธ์ง
: Tb๋ Is์ ๋ฐฐ๊ฒฝ
: Tf๋ ์ต์ข ๋์ ํ ์คํธ ์ด๋ฏธ์ง
3.1 ์์ค ์ด๋ฏธ์ง Is์ ํ ์คํธ ์คํ์ผ์ ์ค์ผ๋ ํค์ ๊ธฐ๋ฐ์ผ๋ก ํ ํ์ต ๋ฉ์ปค๋์ฆ์ ๋์์ผ๋ก ๋์ ํ ์คํธ๋ก ์ ์ด๋์ด ํ ์คํธ ์๋ฏธ๋ฅผ ๋ณด์กดํ๋๋ก ์ ํ๋จ.
3.2 ๋์์ ๋ฐฐ๊ฒฝ ์ ๋ณด๋ ์ง์ ๋๋ ๋ณด์ ์์ ์ ํ์ตํจ์ผ๋ก์จ ์ฑ์์ง.
3.3 ๋ง์ง๋ง์ผ๋ก, ์ ์ด๋ ๋์ ์ด๋ฏธ์ง์ ์์ฑ๋ ๋ฐฐ๊ฒฝ์ ํ ์คํธ ํจ์ ๋คํธ์ํฌ์ ์ํด ํจ์ ๋์ด ํธ์ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํจ
3.1 Text Conversion Module

<๋ฐฉ๋ฒ>
- ๋์ ํ ์คํธ๋ฅผ ๊ณ ์ ๋ ๊ธ๊ผด๊ณผ ๋ฐฐ๊ฒฝ ํฝ์ ๊ฐ ์ค์ ์ผ๋ก 127๋ก ๋ ๋๋งํ๊ณ , ๋ ๋๋ง๋ ์ด๋ฏธ์ง๋ฅผ ๋์ ํ ์คํธ ์ด๋ฏธ์ง It๋ก ํ์
- TCM(ํ๋์ ๋ถ๋ถ)์ ์์ค ์ด๋ฏธ์ง Is์ ๋์ ํ ์คํธ ์ด๋ฏธ์ง It๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์์ค ์ด๋ฏธ์ง Is์ ์ ๊ฒฝ ์คํ์ผ์ ์ถ์ถํ๊ณ ๋์ ํ ์คํธ ์ด๋ฏธ์ง It๋ก ์ ๋ฌํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจโป ์คํ์ผ์๋ ๊ธ๊ผด, ์์, ๊ธฐํํ์ ๋ณํ ๋ฑ์ ํ ์คํธ ์คํ์ผ์ด ํฌํจ๋จ
โก๏ธ ํ ์คํธ ๋ณํ ๋ชจ๋์ ๋์ ํ ์คํธ์ ์๋ฏธ์ ์์ค ์ด๋ฏธ์ง์ ํ ์คํธ ์คํ์ผ์ ๊ฐ์ง ์ด๋ฏธ์ง Ot์ ์ถ๋ ฅ
<๋ชจ๋ธ ์ฌ์ฉ ๋ถ๋ถ>
- ์ธ์ฝ๋-๋์ฝ๋ FCN ์ฌ์ฉ.
- ์ธ์ฝ๋ฉ์ ์ํด ์์ค ์ด๋ฏธ์ง Is๋ 3๊ฐ์ ๋ค์ด์ํ๋ง ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด์ 4๊ฐ์ ์์ฐจ ๋ธ๋ก [9]์ผ๋ก ์ธ์ฝ๋ฉ๋๋ฉฐ, ์ ๋ ฅ ํ ์คํธ ์ด๋ฏธ์ง It๋ ๋์ผํ ์ํคํ ์ฒ๋ก ์ธ์ฝ๋ฉ๋จ.
- ๊ทธ๋ฐ ๋ค์ ๋ ํน์ฑ์ ๊น์ด ์ถ์ ๋ฐ๋ผ ์ฐ๊ฒฐ๋จ. ๋์ฝ๋ฉ์ ์ํด 3๊ฐ์ ์ ์ํ๋ง ์ ์น ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด์ 1๊ฐ์ Convolution-BatchNorm-LeakyReLU ๋ธ๋ก์ด ์ฌ์ฉ๋์ด ์ถ๋ ฅ Ot์ ์์ฑ.
- ๋ํ, ๋ ๊ฒฌ๊ณ ํ ํ ์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด Skeleton-guided Learning Mechanism์ ๋์ ํจ
<Skeleton-guided Learning Mechanism>
์คํ์ผ ์ด๋ฏธ์ง Is์์ ํ ์คํธ ์คํ์ผ์ ์ ๋ฌํ ํ์๋ ๋์ ์ด๋ฏธ์ง It์์ ํ ์คํธ ์ค์ผ๋ ํค์ ์ ์งํ๋ ๊ฒ์ด ํ์
โก๏ธ ์ฆ, lt(ํ ์คํธ๋ง ๋ฝ์์ค๋) ์ ํํ๊ฐ ์์ด์ผ ํจ(b๋ฅผ ๊ฐ์ ธ์จ๋ค ์น๋ฉด b์ ์ ํํ๋ฅผ ์์์ผ ๊ฐ์ ธ์ฌ ์ ์๊ธฐ ๋๋ฌธ) ⇒ ๋ฌธ์์ ๊ฒ์ ๋ชจ์์ ๋ฐ์์ผ ๋๋ค ์ด๋ฐ ๋ง ๊ฐ์
<๋ชจ๋ธ ๊ตฌ์กฐ>
- 3๊ฐ์ ์ ์ํ๋ง ๋ ์ด์ด์ 1๊ฐ์ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋ ์ค์ผ๋ ํค ์๋ต ๋ธ๋ก์ ์ถ๊ฐ
- sigmoid ํ์ฑํ ํจ์๋ฅผ ๋ฐ๋ผ ๋จ์ผ ์ฑ๋ ์ค์ผ๋ ํค ๋งต์ ์์ธกํ ๋ค์, ์ค์ผ๋ ํค ํํธ๋งต๊ณผ ๋์ฝ๋ ์ถ๋ ฅ์ ๊น์ด ์ถ์ ๋ฐ๋ผ ์ฐ๊ฒฐ
- ์ค์ผ๋ ํค ์๋ต ๋งต์ ์ฌ๊ตฌ์ฑ ํ์ง์ ์ธก์ ํ๊ธฐ ์ํด ๊ต์ฐจ ์ํธ๋กํผ ์์ค ๋์ Dice ์์ค์ ์ฌ์ฉ
3.2 Background Inpainting Module3.1 Text Conversion Module
๋ชฉํ: ๋จ์ด ์์ค์ ์ง์ด ์์ ์ ํตํด ๋ฐฐ๊ฒฝ์ ์ป๋ ๊ฒ

<๋ฐฉ๋ฒ>
- input์ผ๋ก ์์ค ์ด๋ฏธ์ง Is๋ง์ ์ฌ์ฉ(๋ฐฐ๊ฒฝ, ๊ธ์จ์ฒด) ํ๊ณ , ๋ชจ๋ ํ ์คํธ stroke(์ ๋ค) ํฝ์ ์ด ์ง์์ง๊ณ ์ ์ ํ ํ ์ค์ฒ๋ก ์ฑ์์ง ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง Ob๋ฅผ ์ถ๋ ฅํจ
<๋ชจ๋ธ ์ฌ์ฉ ๋ถ๋ถ>
- ์ ๋ ฅ ์ด๋ฏธ์ง๋ ์คํธ๋ผ์ด๋ 2๋ก ๊ตฌ์ฑ๋ 3๊ฐ์ ๋ค์ด์ํ๋ง ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ก ์ธ์ฝ๋ฉ๋๊ณ , ์ดํ 4๊ฐ์ ์์ฐจ ๋ธ๋ก์ด ์ด์ด์ง๋ฉฐ, ๋์ฝ๋๋ 3๊ฐ์ ์ ์ํ๋ง ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ํตํด ์๋ ํฌ๊ธฐ์ ์ถ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์์ฑ.
- ๊ฐ ๋ ์ด์ด ํ์๋ leaky ReLU ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๊ณ , ์ถ๋ ฅ ๋ ์ด์ด์๋ tanh ํจ์๋ฅผ ์ฌ์ฉ.
- ๋ฐฐ๊ฒฝ ์์ฑ๊ธฐ๋ฅผ GB๋ก ํ์
<U-Net์ ๋ฉ์ปค๋์ฆ ํ์ฉ>
- ์๊ฐ์ ํจ๊ณผ๋ฅผ ๋ณด๋ค ํ์ค์ ์ผ๋ก ๋ง๋ค๊ธฐ ์ํด ๋ฐฐ๊ฒฝ์ ํ ์ค์ฒ๋ฅผ ์ต๋ํ ๋ณต์ํด์ผ ํจ
- U-Net์ ๊ฒฝ์ฐ, ๋ฏธ๋ฌ๋ง๋ ๋ ์ด์ด ๊ฐ์ ์คํต ์ฐ๊ฒฐ์ ์ถ๊ฐํ๋ ๊ฒ์ ์ ์ํ์ฌ ๊ฐ์ฒด ์ธ๋ถํ ๋ฐ ์ด๋ฏธ์ง ๊ฐ ๋ณํ ์์ ์ ํด๊ฒฐํ๋ ๋ฐ ๋งค์ฐ ํจ๊ณผ์ ์ด๊ณ ๊ฒฌ๊ณ ํจ์ด ์ ์ฆ๋์์
โก๏ธ ์ด๋ฌํ ๋ฉ์ปค๋์ฆ์ ์ ์ํ๋ง ๊ณผ์ ์์ ์ฑํํ๋ฉฐ, ์ด์ ์ ๋์ผํ ํฌ๊ธฐ์ ์ธ์ฝ๋ฉ ํผ์ฒ ๋งต์ด ํ ์ค์ฒ๋ฅผ ๋ณด๋ค ํ๋ถํ๊ฒ ๋ณด์กดํ๊ธฐ ์ํด ์ฐ๊ฒฐ๋จ. ๋ค์ด์ํ๋ง ๊ณผ์ ์์ ์์ค๋ ๋ฐฐ๊ฒฝ ์ ๋ณด๋ฅผ ๋ณต์ํ๋ ๋ฐ ๋์์ด ๋จ
<Image erase>
- ๋ค๋ฅธ image erase ๋ฐฉ๋ฒ๊ณผ๋ ๋ฌ๋ฆฌ ๋จ์ด ์์ค์ ์ด๋ฏธ์ง ์ธํ์ดํ ์์ ์ ๋ชฉํ๋ก ํจ
- ๋จ์ด ์์ค์ ์ด๋ฏธ์ง์ ๋ํ๋๋ ํ ์คํธ๋ ์๋์ ์ผ๋ก ๊ท๋ชจ๊ฐ ํ์ค์ ์ด์ด์, ๋จ์ํ ๋คํธ์ํฌ๋ฅผ ๊ฐ์ง
- ๋ ํ์ค์ ์ธ ์ธ๊ด์ ํ์ตํ๊ธฐ ์ํด Adversial ํ์ต์ด ์ถ๊ฐ๋จ

3.3 Fusion Module
๋ชฉํ: ๋์ ํ ์คํธ ์ด๋ฏธ์ง์ ๋ฐฐ๊ฒฝ ํ ์ค์ฒ ์ ๋ณด๋ฅผ ์กฐํ๋กญ๊ฒ ํจ์ ํ์ฌ ํธ์ง๋ ์ฌ ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ

<๋ชจ๋ธ ๊ตฌ์กฐ>
- ์ญ์ ํ Convolutional Neural Network (FCN) ๊ตฌ์กฐ
<๋ฐฉ๋ฒ>
- ํ ์คํธ ๋ณํ ๋ชจ๋์ ์ํด ์์ฑ๋ foreground ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋์ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ , ์ธ์ฝ๋๋ 3๊ฐ์ ๋ค์ด์ํ๋ง ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด์ ์์ฐจ ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ
- ๋์ฝ๋๋ 3๊ฐ์ ์ ์ํ๋ง ์ ์น ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด์ Convolution-BatchNorm-LeakyReLU ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋์ด ์ต์ข ํธ์ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํจ
- ํจ์ ๋์ฝ๋์ ์ ์ํ๋ง ๋จ๊ณ์์ ๋ฐฐ๊ฒฝ ์ธํ์ธํ ๋ชจ๋์ ๋์ฝ๋ฉ ํผ์ฒ ๋งต๊ณผ ๊ฐ์ ํด์๋์ ํด๋น ํผ์ฒ ๋งต๊ณผ ์ฐ๊ฒฐํจ
โก๏ธ ํจ์ ๋คํธ์ํฌ๋ ๋ฐฐ๊ฒฝ์ ์ธ๋ถ ์ฌํญ์ ๋ณต์ํ๊ณ , ํ ์คํธ ๊ฐ์ฒด์ ๋ฐฐ๊ฒฝ์ด ์ ์ตํฉ๋๋ฉด์ ์ธ๊ด์ ์ผ๋ก ํฉ์ฑ์ ์ธ ์ค๊ฐ์ ๋๋ ์ ์๋ ์ด๋ฏธ์ง๋ฅผ ์ถ๋ ฅํจ
<Loss>

- GF์ Of๋ก ํจ์ ์์ฑ์์ ๊ทธ ์ถ๋ ฅ์ ํ์
- Adversial ์ถ๊ฐ๋จ
- fusion module์ VGG ์์ค์ ๋์ ํจ์ผ๋ก์จ ์๊ณก์ ์ค์ด๊ณ ํ์ค์ ์ธ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ฌ (์ง๊ฐ์ ์์ค๊ณผ ์คํ์ผ ์์ค์ ํฌํจ)
โป ์ง๊ฐ์ ์์ค Lper
์ฌ์ ํ๋ จ๋ ๋คํธ์ํฌ์ ํ์ฑํ ๋งต๋ค ์ฌ์ด์ ๊ฑฐ๋ฆฌ ์ฒ๋๋ฅผ ์ ์ํ์ฌ ๋ ์ด๋ธ๊ณผ ์ง๊ฐ์ ์ผ๋ก ์ ์ฌํ์ง ์์ ๊ฒฐ๊ณผ๋ฅผ ๋ฒ์ ์ผ๋ก ํจ
3.4 Discriminators
- ๋ ๊ฐ์ ํ๋ณ์๋ PatchGAN [11]๊ณผ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉฐ ์ ์ฉ
- Background inpainting module์ ํ๋ณ์ DB: ์ด ํ๋ณ์๋ ๋ฐฐ๊ฒฝ ๋ณด์ ๋ชจ๋์ ์ํ๋ฉฐ, Is์ Ob ๋๋ Tb๋ฅผ ์ฐ๊ฒฐํ์ฌ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ. ์ด ํ๋ณ์๋ ์ญ์ ๋ ๊ฒฐ๊ณผ์ธ Ob์ ๋ชฉํ ๋ฐฐ๊ฒฝ์ธ Tb๊ฐ ์ ์ฌํ์ง๋ฅผ ํ๋จ. ์ฆ, Background inpainting module์ด ์ญ์ ๋ ํ ์คํธ์ ๋ฐฐ๊ฒฝ์ ์ ์ ํ๊ฒ ๋ณด์ ํ๊ณ ๋ชฉํ ๋ฐฐ๊ฒฝ๊ณผ ์ผ์น์ํค๋์ง๋ฅผ ํ๊ฐํ๋ ์ญํ ์ ํจ
- Fusion module์ ํ๋ณ์ DF: ์ด ํ๋ณ์๋ Fusion module ์ ์ํ๋ฉฐ, It๊ณผ Of ๋๋ Tf๋ฅผ ์ฐ๊ฒฐํ์ฌ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด ํ๋ณ์๋ ์ต์ข ์ถ๋ ฅ์ธ Of์ ๋์ ์ด๋ฏธ์ง์ธ Tf์ ์ผ๊ด์ฑ์ ์ธก์ ํฉ๋๋ค. ์ฆ, ํจ์ ๋ชจ๋์ด ํ ์คํธ ์คํ์ผ๊ณผ ๋ฐฐ๊ฒฝ์ ์กฐํฉํ์ฌ ์ต์ข ์ถ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ๋, ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ด ๋์ ์ด๋ฏธ์ง์ ์ผ์นํ๋์ง๋ฅผ ํ๊ฐํ๋ ์ญํ ์ ํจ
- ์ด๋ค์ ์ค๋ฆฌ์ง๋ ํฌ๊ธฐ์ 1/16๋ก ํฌ๊ธฐ๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ค์ฏ ๊ฐ์ ํฉ์ฑ๊ณฑ ๋ ์ด์ด๋ก ๊ตฌ์ฑ
โก๏ธ ๋ ํ๋ณ์๋ ๊ฐ๊ฐ ๋ค๋ฅธ ๋ชจ๋์์ ์๋ํ๋ฉฐ, DB๊ณผ DF์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ๋์์ ์ค.
3.5 Training and Inference
- ์ ์ฒด Loss
- end to end ๋ฐฉ์์ผ๋ก ํ๋ จ

- ์์ฑ์์ ํ๋ณ์๋ฅผ ๋ฒ๊ฐ์๊ฐ๋ฉฐ ํ๋ จ
- ํ ์คํธ๋ฅผ ์ ์ธํ ์ ์ฌํ ์คํ์ผ์ ๊ฐ์ง ์ด๋ฏธ์ง ์์ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ
- foreground, text skeleton, background image๋ text stroke segmentation์ ๋์์ผ๋ก ์ป์ ์ ์์.

- ์์ฑ์๋ It, Is๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ Tsk, Tt, Tb, Tf์ ์ง๋ ํ์ต์ ํตํด ํ ์คํธ๊ฐ ๋์ฒด๋ ์ด๋ฏธ์ง Ot์ ์ถ๋ ฅ. (ํด๋น text๋ฅผ ๋ฐ๊พธ๊ณ ์ ํ๋ ๊ธ์จ์ฒด๋ก ๋ฐ๊ฟ์ค ์ด๋ฏธ์ง - ํ์)
- Adversarial ํ๋ จ์ ์ํด (Is, Ob)์ (Is, Tb)๋ DB์ ์ ๋ ฅ๋์ด ๋ฐฑ๊ทธ๋ผ์ด๋์ ์ผ๊ด์ฑ์ ์ ์งํ๋๋ก ํ์ต๋๊ณ , (It, Of)์ (It, Tf)๋ DF์ ์ ๋ ฅ๋์ด ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฅํจ
- ์ถ๋ก ๋จ๊ณ์์๋ ํ์ค ํ ์คํธ ์ด๋ฏธ์ง์ ์คํ์ผ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด ์์ฑ์๋ ์คํ์ผ ์ด๋ฏธ์ง์ ์ง์์ง ๊ฒฐ๊ณผ์ ํธ์ง๋ ์ด๋ฏธ์ง๋ฅผ ์ถ๋ ฅํ ์ ์์
- ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํด์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ฃผ์์ ๊ธฐ์ค์ผ๋ก ๋์ ํจ์น๋ฅผ ์๋ผ๋ด์ด ๋คํธ์ํฌ์ ์ ๋ ฅํ ํ ๊ฒฐ๊ณผ๋ฅผ ์๋ ์์น์ ๋ถ์ฌ๋ฃ์ด ์ ์ฒด ์ด๋ฏธ์ง์ ์๊ฐํ๋ฅผ ์ป์ ์ ์์
4. Experiments

(Synthetic Data) ํฉ์ฑ ๋ฐ์ดํฐ: ์ฐ๋ฆฌ๋ ํ ์คํธ ํฉ์ฑ ๊ธฐ์ [8]์ ๊ฐ์ ํ์ฌ ์๋ก ๋ค๋ฅธ ํ ์คํธ๋ฅผ ๊ฐ์ง ์คํ์ผ ์์ ํฉ์ฑํฉ๋๋ค. ์ฃผ์ ์์ด๋์ด๋
- ํฐํธ, ์์, ๋ณํ ๋งค๊ฐ๋ณ์๋ฅผ ์์๋ก ์ ํํ์ฌ ์คํ์ผ์ด ์ ์ฉ๋ ํ ์คํธ๋ฅผ ์์ฑํ ๋ค์,
- ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง์ ๋ ๋๋งํ๊ณ
- ์ด๋ฏธ์ง์ ์ค์ผ๋ ํคํ [36]๋ฅผ ํตํด ํด๋นํ๋ ๋ฐฐ๊ฒฝ, ์ ๊ฒฝ ํ
์คํธ ๋ฐ ํ
์คํธ ์ค์ผ๋ ํค์ ์ป์ ์ ์์.
- ์คํ์์๋ ํ ์คํธ ์ด๋ฏธ์ง์ ๋์ด๋ฅผ 64๋ก ์กฐ์ ํ๊ณ ์ข ํก๋น๋ฅผ ์ ์ง. ํ๋ จ ์ธํธ๋ ์ด 50,000๊ฐ์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํ ์คํธ ์ธํธ๋ 500๊ฐ์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋จ.
https://paperswithcode.com/dataset/icdar-2013
(Real-world Dataset) ์ค์ ์ธ๊ณ ๋ฐ์ดํฐ์ : ICDAR 2013 [14]์ 2013๋ ๊ตญ์ ๋ฌธ์ ๋ถ์ ๋ฐ ์ธ์ ์ปจํผ๋ฐ์ค์์ ๋ํ๋ฅผ ์ํด ์กฐ์ง๋ ์์ฐ ์ฅ๋ฉด ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์์ฐ ์ฅ๋ฉด์์ ์ํ ์์ด ํ ์คํธ์ ํ์ง ๋ฐ ์ธ์์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, 229๊ฐ์ ํ๋ จ ์ด๋ฏธ์ง์ 233๊ฐ์ ํ ์คํธ ์ด๋ฏธ์ง๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. ๊ฐ ์ด๋ฏธ์ง์ ํ ์คํธ๋ ์์ธํ ๋ ์ด๋ธ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋ชจ๋ ํ ์คํธ๋ ์ํ ์ง์ฌ๊ฐํ์ผ๋ก ์ฃผ์์ด ๋ฌ๋ ค ์์ต๋๋ค. ๊ฐ ์ด๋ฏธ์ง์๋ ํ๋ ์ด์์ ํ ์คํธ ์์๊ฐ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๊ฒฝ๊ณ ์์์ ๋ฐ๋ผ ํ ์คํธ ์์ญ์ ์๋ผ๋ด๊ณ ์๋ผ๋ธ ์ด๋ฏธ์ง๋ฅผ ๋คํธ์ํฌ์ ์ ๋ ฅํ ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ์๋ ์์น์ ๋ถ์ฌ๋ฃ์ต๋๋ค.
ํ ์คํธ์๋ง ์ฌ์ฉ

'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
SMPL: A Skinned Multi-Person Linear Model (0) | 2023.07.28 |
---|---|
DETR: End-to-End Object Detection with Transformers (0) | 2023.07.23 |
Taskonomy: Disentangling Task Transfer Learning (0) | 2023.07.16 |
Noisy Student: Self-training with Noisy Student improves ImageNet classification(2019) (0) | 2023.07.14 |
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (1) | 2023.07.13 |