๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[๋…ผ๋ฌธ] Paper Review

SRNet: Editing Text in the Wild Review

by ์ œ๋ฃฝ 2023. 7. 17.
728x90
๋ฐ˜์‘ํ˜•

 

0. Abstract

  • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ž์—ฐ ์ด๋ฏธ์ง€์˜ ํ…์ŠคํŠธ ํŽธ์ง‘์— ๊ด€์‹ฌ์ด ์žˆ์œผ๋ฉฐ, ์›๋ณธ ์ด๋ฏธ์ง€์˜ ๋‹จ์–ด๋ฅผ ๋‹ค๋ฅธ ๋‹จ์–ด๋กœ ๊ต์ฒดํ•˜๊ฑฐ๋‚˜ ์ˆ˜์ •ํ•˜์—ฌ ์›๋ณธ ์ด๋ฏธ์ง€์™€ ์‹œ๊ฐ์ ์œผ๋กœ ๊ตฌ๋ณ„ํ•˜๊ธฐ ์–ด๋ ค์šด ํŽธ์ง‘๋œ ์ด๋ฏธ์ง€๋ฅผ ์œ ์ง€ํ•˜๋Š” ์ž‘์—…์„ ๋ชฉํ‘œ๋กœ ํ•จ
  • ์„ธ ๊ฐ€์ง€ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ๋œ end-to-end ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์Šคํƒ€์ผ ๋ณด์กด ๋„คํŠธ์›Œํฌ (SRNet)๋ฅผ ์ œ์•ˆ
  1. ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋“ˆ: ์›๋ณธ ์ด๋ฏธ์ง€์˜ ํ…์ŠคํŠธ ๋‚ด์šฉ์„ ๋Œ€์ƒ ํ…์ŠคํŠธ๋กœ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ ์›๋ž˜์˜ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  1. ๋ฐฐ๊ฒฝ ์ธํŽ˜์ธํŒ… ๋ชจ๋“ˆ: ์›๋ณธ ํ…์ŠคํŠธ๋ฅผ ์ง€์šฐ๊ณ  ์ ์ ˆํ•œ ํ…์Šค์ฒ˜๋กœ ํ…์ŠคํŠธ ์˜์—ญ์„ ์ฑ„์›๋‹ˆ๋‹ค.
  1. ํ“จ์ „ ๋ชจ๋“ˆ: ๋‘ ๋ชจ๋“ˆ์˜ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ˆ˜์ •๋œ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ
๐Ÿ’ก
<Keyword> 1. Text Editing(ํ…์ŠคํŠธ ํŽธ์ง‘) 2. Text Synthesis(ํ…์ŠคํŠธ ํ•ฉ์„ฑ) 3. Text Erasure(ํ…์ŠคํŠธ ์‚ญ์ œ) 4. GAN

1. Introduction

  • ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์žฅ๋ฉด ํ…์ŠคํŠธ์™€ ๊ด€๋ จ๋œ ์ƒˆ๋กœ์šด ์ž‘์—…์ธ ์žฅ๋ฉด ํ…์ŠคํŠธ ํŽธ์ง‘์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Œ
  • ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€์—์„œ ์›๋ณธ ํ…์ŠคํŠธ๋ฅผ ์†์ƒ์‹œํ‚ค์ง€ ์•Š๊ณ  ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ
  • ๊ทธ๋ฆผ 1 (a)์— ์„ค๋ช…๋œ ๋Œ€๋กœ ์ œ์•ˆ๋œ ์žฅ๋ฉด ํ…์ŠคํŠธ ํŽธ์ง‘๊ธฐ๋Š” ์†Œ์Šค ์ด๋ฏธ์ง€์˜ ๊ฐ ๋‹จ์–ด๋ฅผ ํŽธ์ง‘ํ•˜์—ฌ ํ˜„์‹ค์ ์ธ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•จ⇒ ์žฅ๋ฉด ํ…์ŠคํŠธ ํŽธ์ง‘์—๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋„์ „ ๊ณผ์ œ๊ฐ€ ์กด์žฌ
    1. ํ…์ŠคํŠธ ์Šคํƒ€์ผ ์ „์ด
    1. ๋ฐฐ๊ฒฝ ์งˆ๊ฐ ๋ณด์กด
    โžก๏ธ ๋‹ค์–‘ํ•œ ์š”์†Œ๋กœ ์ธํ•œ ์–ด๋ ค์›€: ์–ธ์–ด, ํฐํŠธ, ์ƒ‰์ƒ, ๋ฐฉํ–ฅ, ์„  ๊ตต๊ธฐ ๋ฐ ๊ณต๊ฐ„์ ์ธ ์‹œ๊ฐ์  ํšจ๊ณผ์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์–ด ์†Œ์Šค ์ด๋ฏธ์ง€์˜ ์ „์ฒด์ ์ธ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์„ ์ •ํ™•ํ•˜๊ฒŒ ํฌ์ฐฉํ•˜๊ณ  ๋Œ€์ƒ ํ…์ŠคํŠธ๋กœ ์ „๋‹ฌํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ค์›€
  • โžก๏ธ ๋ฒˆ์—ญ ๋Œ€์ƒ ๊ธธ์ด์˜ ์ƒ์ดํ•จ: ๋Œ€์ƒ ํ…์ŠคํŠธ๊ฐ€ ์›๋ณธ ํ…์ŠคํŠธ๋ณด๋‹ค ์งง์„ ๊ฒฝ์šฐ, ๋ฌธ์ž ์˜์—ญ์˜ ์ดˆ๊ณผ ์˜์—ญ์„ ์‚ญ์ œํ•˜๊ณ  ์ ์ ˆํ•œ ์งˆ๊ฐ์œผ๋กœ ์ฑ„์›Œ์•ผ ํ•œ๋‹ค.
  • โžก๏ธ ์ผ๊ด€์„ฑ ์œ ์ง€์˜ ์–ด๋ ค์›€: ํ…์ŠคํŠธ๊ฐ€ ๋ฉ”๋‰ด๋‚˜ ๊ฐ€๋กœ๋“ฑ ํ‘œ์ง€ํŒ๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์žฅ๋ฉด์— ๋‚˜ํƒ€๋‚  ๋•Œ๋Š” ์ˆ˜์ •๋œ ๋ฐฐ๊ฒฝ์˜ ์ผ๊ด€์„ฑ ์œ ์ง€๊ฐ€ ์–ด๋ ต๋‹ค.
SRNet์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋ณต์žกํ•œ ์ž‘์—…์„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋” ๋‹จ์ˆœํ•˜๊ณ  ๋ชจ๋“ˆ์‹์ธ ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๊ฒƒ โ€ป ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ: ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋“ˆ, ๋ฐฐ๊ฒฝ ๋ณด์ • ๋ชจ๋“ˆ ๋ฐ ํ“จ์ „ ๋ชจ๋“ˆ

 

 

๐Ÿ’ก
1. TCM (ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋“ˆ)

: ์†Œ์Šค ์ด๋ฏธ์ง€์˜ ํ…์ŠคํŠธ ๋‚ด์šฉ์„ ๋Œ€์ƒ ํ…์ŠคํŠธ๋กœ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ ์›๋ณธ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์„ ์œ ์ง€

2. BIM (๋ฐฐ๊ฒฝ ๋ณด์ • ๋ชจ๋“ˆ)

:์›๋ณธ ํ…์ŠคํŠธ ์ŠคํŠธ๋กœํฌ ํ”ฝ์…€์„ ์‚ญ์ œํ•˜๊ณ  ํ•˜ํ–ฅ์‹ ํŠน์ง• ์œตํ•ฉ ๋ฐฉ์‹์œผ๋กœ ํ•ด๋‹น ์˜์—ญ์„ ์ ์ ˆํ•œ ์งˆ๊ฐ์œผ๋กœ ์ฑ„์›€

 

3. FM (ํ“จ์ „ ๋ชจ๋“ˆ) : ํฌ๊ทธ๋ผ์šด๋“œ ์ •๋ณด์™€ ๋ฐฐ๊ฒฝ ์งˆ๊ฐ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ“จ์ „ํ•˜์—ฌ ์ˆ˜์ •๋œ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ

<GAN VS SRNet>

  • GAN์€ ์ด๋ฏธ์ง€ ๊ฐ„ ๋ณ€ํ™˜, ์Šคํƒ€์ผ ์ „์ด ๋“ฑ ์ผ๋ถ€ ์ž‘์—…์—์„œ ํฐ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ž…๋ ฅ์„ ์ž„๋ฒ ๋”ฉํ•˜๊ณ  ์›ํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ž„๋ฒ ๋”ฉ๋œ ๊ณต๊ฐ„์œผ๋กœ ๋””์ฝ”๋”ฉํ•˜๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ์ ์šฉ.
  • SRNet์€ ์ด์™€ ๋‹ฌ๋ฆฌ ๋„คํŠธ์›Œํฌ๋ฅผ ๋ชจ๋“ˆ์‹ ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ๋กœ ๋ถ„ํ•ดํ•˜๊ณ , ๋ณต์žกํ•œ ์ž‘์—…์„ ๋ช‡ ๊ฐ€์ง€ ์‰ฌ์šด ํ•™์Šต ์ž‘์—…์œผ๋กœ ๋ถ„ํ•ดํ•จ

 

 

<์žฅ์  ์ œ์‹œ>

  • ๋‹จ์–ด ๋˜๋Š” ํ…์ŠคํŠธ ๋ผ์ธ ์ˆ˜์ค€์˜ ์žฅ๋ฉด ํ…์ŠคํŠธ ํŽธ์ง‘ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ์ฒซ ๋ฒˆ์งธ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋„คํŠธ์›Œํฌ๋กœ ์•Œ๋ ค์ ธ ์žˆ๋‹ค.
  • ์šฐ๋ฆฌ๋Š” ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋“ˆ, ๋ฐฐ๊ฒฝ ๋ณด์ • ๋ชจ๋“ˆ ๋ฐ ์ตœ์ข… ํ“จ์ „ ๋ชจ๋“ˆ์„ ํฌํ•จํ•œ SRNet์„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‹จ์ˆœํ•˜๊ณ  ๋ชจ๋“ˆ์‹์ธ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ชจ๋“ˆ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๋Œ€๋ถ€๋ถ„์˜ ์ด๋ฏธ์ง€ ๊ฐ„ ๋ณ€ํ™˜ GAN ๋ชจ๋ธ๋ณด๋‹ค ๋” ํ˜„์‹ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.
  • Stroke Skeleton์˜ ์•ˆ๋‚ด๋กœ, ์ œ์•ˆ๋œ ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ€๋Šฅํ•œ ํ•œ ๋งŽ์€ ์˜๋ฏธ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • Stroke Skeleton

    โ€ป stroke(ํ…์ŠคํŠธ ๊ฐ๊ฐ์˜ ์„ ), skeleton(์„ ๋“ค์˜ ์ค‘์‹ฌ์„ ) ์€ ์ฃผ๋กœ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ธ "์„  ๊ฒ€์ถœ"์ด๋‚˜ "์„  ์ถ”์ถœ" ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์˜๋ฏธํ•จ

    โ€ป ํ…์ŠคํŠธ์˜ ๊ตฌ์กฐ์  ํŠน์ง•์„ ๊ฐ•์กฐํ•˜๊ณ , ํ…์ŠคํŠธ์˜ ํ˜•ํƒœ์™€ ๋ชจ์–‘์„ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ

  • ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ ์–ธ์–ด ๋‚ด์˜ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€ ํŽธ์ง‘๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํฌ๋กœ์Šค ์–ธ์–ด ํ…์ŠคํŠธ ํŽธ์ง‘ ๋ฐ ์ •๋ณด ์ˆจ๊น€(์˜ˆ: ๋‹จ์–ด ์ˆ˜์ค€์˜ ํ…์ŠคํŠธ ์‚ญ์ œ)๊ณผ ๊ฐ™์€ ์—ฌ๋Ÿฌ ์žฅ๋ฉด ํ…์ŠคํŠธ ํŽธ์ง‘ ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

 

 

2. Related Work

2.1 GAN

  1. GAN: ์ƒ์„ฑ์ž์™€ ํŒ๋ณ„์ž๋กœ ๊ตฌ์„ฑ, ์ „์ž๋Š” ์‹ค์ œ ๋ถ„ํฌ์™€ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ณ , ํ›„์ž๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€ ๊ฐ€์งœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šต
  1. DCGAN: ์ƒ์„ฑ์ž์™€ ํŒ๋ณ„์ž๋กœ์„œ ์ปจ๋ณผ๋ฃจ์…˜ ์‹ ๊ฒฝ๋ง (CNN)์„ ์‚ฌ์šฉํ•˜์—ฌ GAN์˜ ํ›ˆ๋ จ ์•ˆ์ •์„ฑ์„ ๊ฐœ์„ 
  1. Conditional-GAN: ์ฃผ์–ด์ง„ ์กฐ๊ฑด์— ๋”ฐ๋ผ ํ•„์š”ํ•œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, ํ”ฝ์…€ ์ˆ˜์ค€์˜ ์ •๋ ฌ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์ž‘์—…์—์„œ ์ค‘์š”ํ•œ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘ 
  1. Pix2pix: ์ด๋ฏธ์ง€ ๊ฐ„์˜ ๋งคํ•‘ ์ž‘์—…์„ ๊ตฌํ˜„ํ•˜์˜€์œผ๋ฉฐ, ์ž…๋ ฅ ๋„๋ฉ”์ธ๊ณผ ์ถœ๋ ฅ ๋„๋ฉ”์ธ ๊ฐ„์˜ ๋งคํ•‘ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ
  1. Cycle-GAN: ์„œ๋กœ ์ง์ง€์–ด์ง€์ง€ ์•Š์€ ์Šคํƒ€์ผ ์ด๋ฏธ์ง€์—์„œ ๊ต์ฐจ ๋„๋ฉ”์ธ ๋ณ€ํ™˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑ

โžก๏ธ ๊ธฐ์กด์˜ GAN์€ ํ…์ŠคํŠธ ํŽธ์ง‘ ์ž‘์—…์— ์ง์ ‘์ ์œผ๋กœ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ค์›€. ํ…์ŠคํŠธ ๋‚ด์šฉ์ด ๋ณ€๊ฒฝ๋˜๊ณ  ํ…์ŠคํŠธ์˜ ํ˜•ํƒœ๊ฐ€ ํฌ๊ฒŒ ๋ณ€ํ•ด์•ผ ํ•˜๋ฉฐ, ์žฅ๋ฉด ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ํŽธ์ง‘ํ•  ๋•Œ ๋ณต์žกํ•œ ๋ฐฐ๊ฒฝ ์งˆ๊ฐ ์ •๋ณด๋„ ์ž˜ ๋ณด์กด๋˜์–ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ

 

2.2 Text Style Transfer

  1. Lyu: ์ž๋™ ์ธ์ฝ”๋” ๊ฐ€์ด๋“œ GAN์„ ์ œ์•ˆํ•˜์—ฌ ํ‘œ์ค€ ์ค‘๊ตญ ํฐํŠธ ์ด๋ฏธ์ง€์—์„œ ์ง€์ •๋œ ์Šคํƒ€์ผ์˜ ์นด๋ฆฌ๊ทธ๋ผํ”ผ ์ด๋ฏธ์ง€๋ฅผ ํ•ฉ์„ฑ
  1. Sun: VAE ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์Šคํƒ€์ผ์ด ์ ์šฉ๋œ ์ค‘๊ตญ ๋ฌธ์ž ์ƒ์„ฑ๊ธฐ๋ฅผ ๊ตฌํ˜„
  1. Zhang: ์ค‘๊ตญ ๋ฌธ์ž์˜ ํš ์ˆ˜์ค€์—์„œ์˜ ์Šคํƒ€์ผ ์ „์ด ๋Šฅ๋ ฅ์„ ํ•™์Šตํ•˜๋ ค๊ณ  ์‹œ๋„
  1. Yang: ํ…์Šค์ฒ˜ ํ•ฉ์„ฑ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•˜์—ฌ ๋ถ€๋ถ„ ํšจ๊ณผ ํŒจํ„ด์„ ํ…์ŠคํŠธ ์Šค์ผˆ๋ ˆํ†ค์˜ ํ•ด๋‹น ์œ„์น˜๋กœ ๋งคํ•‘ํ•˜์—ฌ ์ด๋ฏธ์ง€ ๋ธ”๋ก์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํ†ต๊ณ„ ์ •๋ณด์˜ ๋ถ„์„์— ๊ธฐ๋ฐ˜ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ ๊ธ€์ž ๊ฐ„์˜ ์ฐจ์ด์— ๋ฏผ๊ฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋งŽ์€ ๊ณ„์‚ฐ ๋ถ€๋‹ด์„ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  1. TET-GAN: ์ตœ๊ทผ์—๋Š” ๊ฐ€๋ณ๊ณ  ํšจ์œจ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ํšจ๊ณผ์˜ ์Šคํƒ€์ผํ™”์™€ ๋น„์Šคํƒ€์ผํ™”๋ฅผ ๋™์‹œ์— ์ง€์›
  1. MC-GAN: ์˜์–ด ์•ŒํŒŒ๋ฒณ ๊ธ€์ž ์ „์ด์™€ ํšจ๊ณผ ์ „์ด๋ฅผ ๊ฐ๊ฐ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐœ์˜ ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ํŽ˜์›Œ์ƒท(font style transfer) ์ž‘์—…์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰
  2.  

โžก๏ธ ์ด๋•Œ๊นŒ์ง€๋Š” ๋ฌธ์ž ์ˆ˜์ค€์—์„œ ํ•ด๊ฒฐํ•˜๋ ค๊ณ  ํ–ˆ์œผ๋‚˜, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹จ์–ด ํ˜น์€ ํ…์ŠคํŠธ ์ˆ˜์ค€์—์„œ ํ•ด๊ฒฐํ•˜๋ ค๊ณ  ์‹œ๋„ํ•จ.

  1. ๋‹จ์–ด ์ˆ˜์ค€์˜ ์ฃผ์„์„ ์–ป๋Š” ๊ฒƒ์ด ๋ฌธ์ž ์ˆ˜์ค€์˜ ์ฃผ์„์„ ์–ป๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ์‰ฌ์›€
  1. ๋‹จ์–ด๋ฅผ ํŽธ์ง‘ํ•˜๋Š” ๊ฒƒ์ด ๋ฌธ์ž๋ฅผ ํŽธ์ง‘ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํšจ์œจ์ 
  1. ๋‹จ์–ด ์ˆ˜์ค€์˜ ํŽธ์ง‘๊ธฐ๋Š” ๋‹จ์–ด ์ˆ˜์ค€์˜ ๋ ˆ์ด์•„์›ƒ ์ผ๊ด€์„ฑ์„ ์šฐ๋Œ€
  1. ๋‹จ์–ด์˜ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅธ ๊ฒฝ์šฐ, ๋‹จ์–ด ์ˆ˜์ค€์˜ ํŽธ์ง‘๊ธฐ๋Š” ์ „๊ฒฝ ๋ฌธ์ž์˜ ๋ฐฐ์น˜๋ฅผ ์ ์‘์ ์œผ๋กœ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ฌธ์ž ์ˆ˜์ค€์˜ ๋ฐฉ๋ฒ•์€ ์ด๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ

2.3 Text Erasure ans Editing

  • ํ…์ŠคํŠธ ํŽธ์ง‘ ๊ณผ์ •์—์„œ ๋‹จ์–ด ์ˆ˜์ค€์—์„œ ๋ฐฐ๊ฒฝ ์ง€์›€์—๋งŒ ๊ด€์‹ฌ์„ ๋‘๊ธฐ ๋•Œ๋ฌธ์— SRNet์˜ ๋ฐฐ๊ฒฝ ๋ณด์™„ ๋ชจ๋“ˆ์€ ๋ณด๋‹ค ๊ฐ€๋ณ๊ฒŒ ์„ค๊ณ„๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์—ฌ์ „ํžˆ ์ข‹์€ ์ง€์›€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ
  • ์ง€๊ธˆ๊นŒ์ง€๋Š” ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ ๋ฌธ์ž์˜ ์ƒ‰์ƒ๊ณผ ํฐํŠธ๋งŒ ์ „์ดํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋ฐฐ๊ฒฝ ํ…์Šค์ฒ˜์˜ ์ผ๊ด€์„ฑ์„ ๊ณ ๋ คํ•˜์ง€ ์•Š์•˜์Œ

โžก๏ธ ๋…ผ๋ฌธ์—์„œ๋Š” ํ…์ŠคํŠธ ์Šคํƒ€์ผ ์ „์ด์™€ ํ…์ŠคํŠธ ์ง€์›€ ์ ‘๊ทผ๋ฒ•์˜ ์žฅ์ ์„ ํ†ตํ•ฉ

 

 

3. Methodology

Input

: ์†Œ์Šค ์Šคํƒ€์ผ ์ด๋ฏธ์ง€ Is์™€ ๋Œ€์ƒ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€ It์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ด๋ฏธ์ง€ ์Œ (Is, It)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Œ

Output

: ((Tsk, Tt), Tb, Tf)

: Tsk๋Š” ๋Œ€์ƒ ํ…์ŠคํŠธ ์Šค์ผˆ๋ ˆํ†ค(์„ ๋“ค์˜ ์ค‘์‹ฌ์„ )

: Tt๋Š” Is์™€ ๋™์ผํ•œ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์„ ๊ฐ€์ง„ ์ „๊ฒฝ ์ด๋ฏธ์ง€

: Tb๋Š” Is์˜ ๋ฐฐ๊ฒฝ

: Tf๋Š” ์ตœ์ข… ๋Œ€์ƒ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€

 

 

3.1 ์†Œ์Šค ์ด๋ฏธ์ง€ Is์˜ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์€ ์Šค์ผˆ๋ ˆํ†ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํ•™์Šต ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋„์›€์œผ๋กœ ๋Œ€์ƒ ํ…์ŠคํŠธ๋กœ ์ „์ด๋˜์–ด ํ…์ŠคํŠธ ์˜๋ฏธ๋ฅผ ๋ณด์กดํ•˜๋„๋ก ์ „ํ™˜๋จ.

3.2 ๋™์‹œ์— ๋ฐฐ๊ฒฝ ์ •๋ณด๋Š” ์ง€์›€ ๋˜๋Š” ๋ณด์™„ ์ž‘์—…์„ ํ•™์Šตํ•จ์œผ๋กœ์จ ์ฑ„์›Œ์ง.

3.3 ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ „์ด๋œ ๋Œ€์ƒ ์ด๋ฏธ์ง€์™€ ์™„์„ฑ๋œ ๋ฐฐ๊ฒฝ์€ ํ…์ŠคํŠธ ํ“จ์ „ ๋„คํŠธ์›Œํฌ์— ์˜ํ•ด ํ“จ์ „๋˜์–ด ํŽธ์ง‘๋œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•จ

 

 

3.1 Text Conversion Module

<๋ฐฉ๋ฒ•>

  1. ๋Œ€์ƒ ํ…์ŠคํŠธ๋ฅผ ๊ณ ์ •๋œ ๊ธ€๊ผด๊ณผ ๋ฐฐ๊ฒฝ ํ”ฝ์…€ ๊ฐ’ ์„ค์ •์œผ๋กœ 127๋กœ ๋ Œ๋”๋งํ•˜๊ณ , ๋ Œ๋”๋ง๋œ ์ด๋ฏธ์ง€๋ฅผ ๋Œ€์ƒ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€ It๋กœ ํ‘œ์‹œ
  1. TCM(ํŒŒ๋ž€์ƒ‰ ๋ถ€๋ถ„)์€ ์†Œ์Šค ์ด๋ฏธ์ง€ Is์™€ ๋Œ€์ƒ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€ It๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์†Œ์Šค ์ด๋ฏธ์ง€ Is์˜ ์ „๊ฒฝ ์Šคํƒ€์ผ์„ ์ถ”์ถœํ•˜๊ณ  ๋Œ€์ƒ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€ It๋กœ ์ „๋‹ฌํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•จโ€ป ์Šคํƒ€์ผ์—๋Š” ๊ธ€๊ผด, ์ƒ‰์ƒ, ๊ธฐํ•˜ํ•™์  ๋ณ€ํ˜• ๋“ฑ์˜ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์ด ํฌํ•จ๋จ

โžก๏ธ ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋“ˆ์€ ๋Œ€์ƒ ํ…์ŠคํŠธ์˜ ์˜๋ฏธ์™€ ์†Œ์Šค ์ด๋ฏธ์ง€์˜ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์„ ๊ฐ€์ง„ ์ด๋ฏธ์ง€ Ot์„ ์ถœ๋ ฅ

 

<๋ชจ๋ธ ์‚ฌ์šฉ ๋ถ€๋ถ„>

  • ์ธ์ฝ”๋”-๋””์ฝ”๋” FCN ์‚ฌ์šฉ.
  • ์ธ์ฝ”๋”ฉ์„ ์œ„ํ•ด ์†Œ์Šค ์ด๋ฏธ์ง€ Is๋Š” 3๊ฐœ์˜ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด์™€ 4๊ฐœ์˜ ์ž”์ฐจ ๋ธ”๋ก [9]์œผ๋กœ ์ธ์ฝ”๋”ฉ๋˜๋ฉฐ, ์ž…๋ ฅ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€ It๋„ ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋กœ ์ธ์ฝ”๋”ฉ๋จ.
  • ๊ทธ๋Ÿฐ ๋‹ค์Œ ๋‘ ํŠน์„ฑ์€ ๊นŠ์ด ์ถ•์„ ๋”ฐ๋ผ ์—ฐ๊ฒฐ๋จ. ๋””์ฝ”๋”ฉ์„ ์œ„ํ•ด 3๊ฐœ์˜ ์—…์ƒ˜ํ”Œ๋ง ์ „์น˜ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด์™€ 1๊ฐœ์˜ Convolution-BatchNorm-LeakyReLU ๋ธ”๋ก์ด ์‚ฌ์šฉ๋˜์–ด ์ถœ๋ ฅ Ot์„ ์ƒ์„ฑ.
  • ๋˜ํ•œ, ๋” ๊ฒฌ๊ณ ํ•œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด Skeleton-guided Learning Mechanism์„ ๋„์ž…ํ•จ

 

<Skeleton-guided Learning Mechanism>

์Šคํƒ€์ผ ์ด๋ฏธ์ง€ Is์—์„œ ํ…์ŠคํŠธ ์Šคํƒ€์ผ์„ ์ „๋‹ฌํ•œ ํ›„์—๋„ ๋Œ€์ƒ ์ด๋ฏธ์ง€ It์—์„œ ํ…์ŠคํŠธ ์Šค์ผˆ๋ ˆํ†ค์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”

โžก๏ธ ์ฆ‰, lt(ํ…์ŠคํŠธ๋งŒ ๋ฝ‘์•„์˜ค๋Š”) ์˜ ํ˜•ํƒœ๊ฐ€ ์žˆ์–ด์•ผ ํ•จ(b๋ฅผ ๊ฐ€์ ธ์˜จ๋‹ค ์น˜๋ฉด b์˜ ์„  ํ˜•ํƒœ๋ฅผ ์•Œ์•„์•ผ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ) ⇒ ๋ฌธ์ž์˜ ๊ฒ‰์˜ ๋ชจ์–‘์„ ๋”ฐ์™€์•ผ ๋œ๋‹ค ์ด๋Ÿฐ ๋ง ๊ฐ™์Œ

<๋ชจ๋ธ ๊ตฌ์กฐ>

  1. 3๊ฐœ์˜ ์—…์ƒ˜ํ”Œ๋ง ๋ ˆ์ด์–ด์™€ 1๊ฐœ์˜ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋œ ์Šค์ผˆ๋ ˆํ†ค ์‘๋‹ต ๋ธ”๋ก์„ ์ถ”๊ฐ€
  1. sigmoid ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ๋”ฐ๋ผ ๋‹จ์ผ ์ฑ„๋„ ์Šค์ผˆ๋ ˆํ†ค ๋งต์„ ์˜ˆ์ธกํ•œ ๋‹ค์Œ, ์Šค์ผˆ๋ ˆํ†ค ํžˆํŠธ๋งต๊ณผ ๋””์ฝ”๋” ์ถœ๋ ฅ์„ ๊นŠ์ด ์ถ•์„ ๋”ฐ๋ผ ์—ฐ๊ฒฐ
  1. ์Šค์ผˆ๋ ˆํ†ค ์‘๋‹ต ๋งต์˜ ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค ๋Œ€์‹  Dice ์†์‹ค์„ ์‚ฌ์šฉ

 

 

3.2 Background Inpainting Module3.1 Text Conversion Module

๋ชฉํ‘œ: ๋‹จ์–ด ์ˆ˜์ค€์˜ ์ง€์šด ์ž‘์—…์„ ํ†ตํ•ด ๋ฐฐ๊ฒฝ์„ ์–ป๋Š” ๊ฒƒ

 

<๋ฐฉ๋ฒ•>

  • input์œผ๋กœ ์†Œ์Šค ์ด๋ฏธ์ง€ Is๋งŒ์„ ์‚ฌ์šฉ(๋ฐฐ๊ฒฝ, ๊ธ€์”จ์ฒด) ํ•˜๊ณ , ๋ชจ๋“  ํ…์ŠคํŠธ stroke(์„ ๋“ค) ํ”ฝ์…€์ด ์ง€์›Œ์ง€๊ณ  ์ ์ ˆํ•œ ํ…์Šค์ฒ˜๋กœ ์ฑ„์›Œ์ง„ ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง€ Ob๋ฅผ ์ถœ๋ ฅํ•จ

 

 

<๋ชจ๋ธ ์‚ฌ์šฉ ๋ถ€๋ถ„>

  1. ์ž…๋ ฅ ์ด๋ฏธ์ง€๋Š” ์ŠคํŠธ๋ผ์ด๋“œ 2๋กœ ๊ตฌ์„ฑ๋œ 3๊ฐœ์˜ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋กœ ์ธ์ฝ”๋”ฉ๋˜๊ณ , ์ดํ›„ 4๊ฐœ์˜ ์ž”์ฐจ ๋ธ”๋ก์ด ์ด์–ด์ง€๋ฉฐ, ๋””์ฝ”๋”๋Š” 3๊ฐœ์˜ ์—…์ƒ˜ํ”Œ๋ง ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ์›๋ž˜ ํฌ๊ธฐ์˜ ์ถœ๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ.
  1. ๊ฐ ๋ ˆ์ด์–ด ํ›„์—๋Š” leaky ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ์ถœ๋ ฅ ๋ ˆ์ด์–ด์—๋Š” tanh ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉ.
  1. ๋ฐฐ๊ฒฝ ์ƒ์„ฑ๊ธฐ๋ฅผ GB๋กœ ํ‘œ์‹œ

 

<U-Net์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ™œ์šฉ>

  • ์‹œ๊ฐ์  ํšจ๊ณผ๋ฅผ ๋ณด๋‹ค ํ˜„์‹ค์ ์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๋ฐฐ๊ฒฝ์˜ ํ…์Šค์ฒ˜๋ฅผ ์ตœ๋Œ€ํ•œ ๋ณต์›ํ•ด์•ผ ํ•จ
  • U-Net์˜ ๊ฒฝ์šฐ, ๋ฏธ๋Ÿฌ๋ง๋œ ๋ ˆ์ด์–ด ๊ฐ„์— ์Šคํ‚ต ์—ฐ๊ฒฐ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ์ œ์•ˆํ•˜์—ฌ ๊ฐ์ฒด ์„ธ๋ถ„ํ™” ๋ฐ ์ด๋ฏธ์ง€ ๊ฐ„ ๋ณ€ํ™˜ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ๋งค์šฐ ํšจ๊ณผ์ ์ด๊ณ  ๊ฒฌ๊ณ ํ•จ์ด ์ž…์ฆ๋˜์—ˆ์Œ

โžก๏ธ ์ด๋Ÿฌํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์—…์ƒ˜ํ”Œ๋ง ๊ณผ์ •์—์„œ ์ฑ„ํƒํ•˜๋ฉฐ, ์ด์ „์˜ ๋™์ผํ•œ ํฌ๊ธฐ์˜ ์ธ์ฝ”๋”ฉ ํ”ผ์ฒ˜ ๋งต์ด ํ…์Šค์ฒ˜๋ฅผ ๋ณด๋‹ค ํ’๋ถ€ํ•˜๊ฒŒ ๋ณด์กดํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ฒฐ๋จ. ๋‹ค์šด์ƒ˜ํ”Œ๋ง ๊ณผ์ •์—์„œ ์†์‹ค๋œ ๋ฐฐ๊ฒฝ ์ •๋ณด๋ฅผ ๋ณต์›ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋จ

 

<Image erase>

  • ๋‹ค๋ฅธ image erase ๋ฐฉ๋ฒ•๊ณผ๋Š” ๋‹ฌ๋ฆฌ ๋‹จ์–ด ์ˆ˜์ค€์˜ ์ด๋ฏธ์ง€ ์ธํŽ˜์ดํŒ… ์ž‘์—…์„ ๋ชฉํ‘œ๋กœ ํ•จ
  • ๋‹จ์–ด ์ˆ˜์ค€์˜ ์ด๋ฏธ์ง€์— ๋‚˜ํƒ€๋‚˜๋Š” ํ…์ŠคํŠธ๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๊ทœ๋ชจ๊ฐ€ ํ‘œ์ค€์ ์ด์–ด์„œ, ๋‹จ์ˆœํ•œ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ฐ€์ง
  • ๋” ํ˜„์‹ค์ ์ธ ์™ธ๊ด€์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด Adversial ํ•™์Šต์ด ์ถ”๊ฐ€๋จ
Adversial Loss์™€ L1 Loss ๊ฒฐํ•ฉ

 

3.3 Fusion Module

๋ชฉํ‘œ: ๋Œ€์ƒ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€์™€ ๋ฐฐ๊ฒฝ ํ…์Šค์ฒ˜ ์ •๋ณด๋ฅผ ์กฐํ™”๋กญ๊ฒŒ ํ“จ์ „ํ•˜์—ฌ ํŽธ์ง‘๋œ ์”ฌ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•จ

<๋ชจ๋ธ ๊ตฌ์กฐ>

  • ์—ญ์ „ํŒŒ Convolutional Neural Network (FCN) ๊ตฌ์กฐ

 

<๋ฐฉ๋ฒ•>

  • ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋“ˆ์— ์˜ํ•ด ์ƒ์„ฑ๋œ foreground ์ด๋ฏธ์ง€๋ฅผ ์ธ์ฝ”๋”์— ์ž…๋ ฅ์œผ๋กœ ์ฃผ๊ณ , ์ธ์ฝ”๋”๋Š” 3๊ฐœ์˜ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด์™€ ์ž”์ฐจ ๋ธ”๋ก์œผ๋กœ ๊ตฌ์„ฑ
  • ๋””์ฝ”๋”๋Š” 3๊ฐœ์˜ ์—…์ƒ˜ํ”Œ๋ง ์ „์น˜ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด์™€ Convolution-BatchNorm-LeakyReLU ๋ธ”๋ก์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์ตœ์ข… ํŽธ์ง‘๋œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•จ
  • ํ“จ์ „ ๋””์ฝ”๋”์˜ ์—…์ƒ˜ํ”Œ๋ง ๋‹จ๊ณ„์—์„œ ๋ฐฐ๊ฒฝ ์ธํŽ˜์ธํŒ… ๋ชจ๋“ˆ์˜ ๋””์ฝ”๋”ฉ ํ”ผ์ฒ˜ ๋งต๊ณผ ๊ฐ™์€ ํ•ด์ƒ๋„์˜ ํ•ด๋‹น ํ”ผ์ฒ˜ ๋งต๊ณผ ์—ฐ๊ฒฐํ•จ

โžก๏ธ ํ“จ์ „ ๋„คํŠธ์›Œํฌ๋Š” ๋ฐฐ๊ฒฝ์˜ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋ณต์›ํ•˜๊ณ , ํ…์ŠคํŠธ ๊ฐ์ฒด์™€ ๋ฐฐ๊ฒฝ์ด ์ž˜ ์œตํ•ฉ๋˜๋ฉด์„œ ์™ธ๊ด€์ ์œผ๋กœ ํ•ฉ์„ฑ์ ์ธ ์‹ค๊ฐ์„ ๋Š๋‚„ ์ˆ˜ ์žˆ๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ถœ๋ ฅํ•จ

 

 

<Loss>

  • GF์™€ Of๋กœ ํ“จ์ „ ์ƒ์„ฑ์ž์™€ ๊ทธ ์ถœ๋ ฅ์„ ํ‘œ์‹œ
  • Adversial ์ถ”๊ฐ€๋จ
  • fusion module์— VGG ์†์‹ค์„ ๋„์ž…ํ•จ์œผ๋กœ์จ ์™œ๊ณก์„ ์ค„์ด๊ณ  ํ˜„์‹ค์ ์ธ ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ฌ (์ง€๊ฐ์  ์†์‹ค๊ณผ ์Šคํƒ€์ผ ์†์‹ค์„ ํฌํ•จ)
  • โ€ป ์ง€๊ฐ์  ์†์‹ค Lper

    ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋„คํŠธ์›Œํฌ์˜ ํ™œ์„ฑํ™” ๋งต๋“ค ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ ์ฒ™๋„๋ฅผ ์ •์˜ํ•˜์—ฌ ๋ ˆ์ด๋ธ”๊ณผ ์ง€๊ฐ์ ์œผ๋กœ ์œ ์‚ฌํ•˜์ง€ ์•Š์€ ๊ฒฐ๊ณผ๋ฅผ ๋ฒŒ์ ์œผ๋กœ ํ•จ

  • โ€ป ์Šคํƒ€์ผ ์†์‹ค Lstyle
    • ์Šคํƒ€์ผ์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•จ

 

3.4 Discriminators

  • ๋‘ ๊ฐœ์˜ ํŒ๋ณ„์ž๋Š” PatchGAN [11]๊ณผ ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๋ฉฐ ์ ์šฉ
  1. Background inpainting module์˜ ํŒ๋ณ„์ž DB: ์ด ํŒ๋ณ„์ž๋Š” ๋ฐฐ๊ฒฝ ๋ณด์ • ๋ชจ๋“ˆ์— ์†ํ•˜๋ฉฐ, Is์™€ Ob ๋˜๋Š” Tb๋ฅผ ์—ฐ๊ฒฐํ•˜์—ฌ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ. ์ด ํŒ๋ณ„์ž๋Š” ์‚ญ์ œ๋œ ๊ฒฐ๊ณผ์ธ Ob์™€ ๋ชฉํ‘œ ๋ฐฐ๊ฒฝ์ธ Tb๊ฐ€ ์œ ์‚ฌํ•œ์ง€๋ฅผ ํŒ๋‹จ. ์ฆ‰, Background inpainting module์ด ์‚ญ์ œ๋œ ํ…์ŠคํŠธ์˜ ๋ฐฐ๊ฒฝ์„ ์ ์ ˆํ•˜๊ฒŒ ๋ณด์ •ํ•˜๊ณ  ๋ชฉํ‘œ ๋ฐฐ๊ฒฝ๊ณผ ์ผ์น˜์‹œํ‚ค๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์—ญํ• ์„ ํ•จ
  1. Fusion module์˜ ํŒ๋ณ„์ž DF: ์ด ํŒ๋ณ„์ž๋Š” Fusion module ์— ์†ํ•˜๋ฉฐ, It๊ณผ Of ๋˜๋Š” Tf๋ฅผ ์—ฐ๊ฒฐํ•˜์—ฌ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ํŒ๋ณ„์ž๋Š” ์ตœ์ข… ์ถœ๋ ฅ์ธ Of์™€ ๋Œ€์ƒ ์ด๋ฏธ์ง€์ธ Tf์˜ ์ผ๊ด€์„ฑ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ“จ์ „ ๋ชจ๋“ˆ์ด ํ…์ŠคํŠธ ์Šคํƒ€์ผ๊ณผ ๋ฐฐ๊ฒฝ์„ ์กฐํ•ฉํ•˜์—ฌ ์ตœ์ข… ์ถœ๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ๋•Œ, ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ด ๋Œ€์ƒ ์ด๋ฏธ์ง€์™€ ์ผ์น˜ํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์—ญํ• ์„ ํ•จ
  • ์ด๋“ค์€ ์˜ค๋ฆฌ์ง€๋„ ํฌ๊ธฐ์˜ 1/16๋กœ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋‹ค์„ฏ ๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ

โžก๏ธ ๋‘ ํŒ๋ณ„์ž๋Š” ๊ฐ๊ฐ ๋‹ค๋ฅธ ๋ชจ๋“ˆ์—์„œ ์ž‘๋™ํ•˜๋ฉฐ, DB๊ณผ DF์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์คŒ.

 

3.5 Training and Inference

  • ์ „์ฒด Loss
  • end to end ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ
  • ์ƒ์„ฑ์ž์™€ ํŒ๋ณ„์ž๋ฅผ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉฐ ํ›ˆ๋ จ
  • ํ…์ŠคํŠธ๋ฅผ ์ œ์™ธํ•œ ์œ ์‚ฌํ•œ ์Šคํƒ€์ผ์„ ๊ฐ€์ง„ ์ด๋ฏธ์ง€ ์Œ์„ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์šฉ
  • foreground, text skeleton, background image๋Š” text stroke segmentation์˜ ๋„์›€์œผ๋กœ ์–ป์„ ์ˆ˜ ์žˆ์Œ.
  • ์ƒ์„ฑ์ž๋Š” It, Is๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ณ  Tsk, Tt, Tb, Tf์˜ ์ง€๋„ ํ•™์Šต์„ ํ†ตํ•ด ํ…์ŠคํŠธ๊ฐ€ ๋Œ€์ฒด๋œ ์ด๋ฏธ์ง€ Ot์„ ์ถœ๋ ฅ. (ํ•ด๋‹น text๋ฅผ ๋ฐ”๊พธ๊ณ ์ž ํ•˜๋Š” ๊ธ€์”จ์ฒด๋กœ ๋ฐ”๊ฟ”์ค€ ์ด๋ฏธ์ง€ - ํšŒ์ƒ‰)
  • Adversarial ํ›ˆ๋ จ์„ ์œ„ํ•ด (Is, Ob)์™€ (Is, Tb)๋Š” DB์— ์ž…๋ ฅ๋˜์–ด ๋ฐฑ๊ทธ๋ผ์šด๋“œ์˜ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋„๋ก ํ•™์Šต๋˜๊ณ , (It, Of)์™€ (It, Tf)๋Š” DF์— ์ž…๋ ฅ๋˜์–ด ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์žฅํ•จ
  • ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ํ‘œ์ค€ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€์™€ ์Šคํƒ€์ผ ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ์ƒ์„ฑ์ž๋Š” ์Šคํƒ€์ผ ์ด๋ฏธ์ง€์˜ ์ง€์›Œ์ง„ ๊ฒฐ๊ณผ์™€ ํŽธ์ง‘๋œ ์ด๋ฏธ์ง€๋ฅผ ์ถœ๋ ฅํ•  ์ˆ˜ ์žˆ์Œ
  • ์ „์ฒด ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ฃผ์„์„ ๊ธฐ์ค€์œผ๋กœ ๋Œ€์ƒ ํŒจ์น˜๋ฅผ ์ž˜๋ผ๋‚ด์–ด ๋„คํŠธ์›Œํฌ์— ์ž…๋ ฅํ•œ ํ›„ ๊ฒฐ๊ณผ๋ฅผ ์›๋ž˜ ์œ„์น˜์— ๋ถ™์—ฌ๋„ฃ์–ด ์ „์ฒด ์ด๋ฏธ์ง€์˜ ์‹œ๊ฐํ™”๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Œ

4. Experiments

(Synthetic Data) ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ: ์šฐ๋ฆฌ๋Š” ํ…์ŠคํŠธ ํ•ฉ์„ฑ ๊ธฐ์ˆ  [8]์„ ๊ฐœ์„ ํ•˜์—ฌ ์„œ๋กœ ๋‹ค๋ฅธ ํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ ์Šคํƒ€์ผ ์Œ์„ ํ•ฉ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์š” ์•„์ด๋””์–ด๋Š”

  1. ํฐํŠธ, ์ƒ‰์ƒ, ๋ณ€ํ˜• ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ž„์˜๋กœ ์„ ํƒํ•˜์—ฌ ์Šคํƒ€์ผ์ด ์ ์šฉ๋œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•œ ๋‹ค์Œ,
  1. ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง€์— ๋ Œ๋”๋งํ•˜๊ณ 
  1. ์ด๋ฏธ์ง€์˜ ์Šค์ผˆ๋ ˆํ†คํ™” [36]๋ฅผ ํ†ตํ•ด ํ•ด๋‹นํ•˜๋Š” ๋ฐฐ๊ฒฝ, ์ „๊ฒฝ ํ…์ŠคํŠธ ๋ฐ ํ…์ŠคํŠธ ์Šค์ผˆ๋ ˆํ†ค์„ ์–ป์„ ์ˆ˜ ์žˆ์Œ.
  1. ์‹คํ—˜์—์„œ๋Š” ํ…์ŠคํŠธ ์ด๋ฏธ์ง€์˜ ๋†’์ด๋ฅผ 64๋กœ ์กฐ์ •ํ•˜๊ณ  ์ข…ํšก๋น„๋ฅผ ์œ ์ง€. ํ›ˆ๋ จ ์„ธํŠธ๋Š” ์ด 50,000๊ฐœ์˜ ์ด๋ฏธ์ง€๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ…Œ์ŠคํŠธ ์„ธํŠธ๋Š” 500๊ฐœ์˜ ์ด๋ฏธ์ง€๋กœ ๊ตฌ์„ฑ๋จ.

 

https://paperswithcode.com/dataset/icdar-2013

(Real-world Dataset) ์‹ค์ œ ์„ธ๊ณ„ ๋ฐ์ดํ„ฐ์…‹: ICDAR 2013 [14]์€ 2013๋…„ ๊ตญ์ œ ๋ฌธ์„œ ๋ถ„์„ ๋ฐ ์ธ์‹ ์ปจํผ๋Ÿฐ์Šค์—์„œ ๋Œ€ํšŒ๋ฅผ ์œ„ํ•ด ์กฐ์ง๋œ ์ž์—ฐ ์žฅ๋ฉด ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ์ž์—ฐ ์žฅ๋ฉด์—์„œ ์ˆ˜ํ‰ ์˜์–ด ํ…์ŠคํŠธ์˜ ํƒ์ง€ ๋ฐ ์ธ์‹์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, 229๊ฐœ์˜ ํ›ˆ๋ จ ์ด๋ฏธ์ง€์™€ 233๊ฐœ์˜ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ด๋ฏธ์ง€์˜ ํ…์ŠคํŠธ๋Š” ์ž์„ธํ•œ ๋ ˆ์ด๋ธ”์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ๋ชจ๋“  ํ…์ŠคํŠธ๋Š” ์ˆ˜ํ‰ ์ง์‚ฌ๊ฐํ˜•์œผ๋กœ ์ฃผ์„์ด ๋‹ฌ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ด๋ฏธ์ง€์—๋Š” ํ•˜๋‚˜ ์ด์ƒ์˜ ํ…์ŠคํŠธ ์ƒ์ž๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฒฝ๊ณ„ ์ƒ์ž์— ๋”ฐ๋ผ ํ…์ŠคํŠธ ์˜์—ญ์„ ์ž˜๋ผ๋‚ด๊ณ  ์ž˜๋ผ๋‚ธ ์ด๋ฏธ์ง€๋ฅผ ๋„คํŠธ์›Œํฌ์— ์ž…๋ ฅํ•œ ๋‹ค์Œ ๊ฒฐ๊ณผ๋ฅผ ์›๋ž˜ ์œ„์น˜์— ๋ถ™์—ฌ๋„ฃ์Šต๋‹ˆ๋‹ค.

ํ…Œ์ŠคํŠธ์—๋งŒ ์‚ฌ์šฉ


728x90
๋ฐ˜์‘ํ˜•