๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[๋…ผ๋ฌธ] Paper Review

Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

by ์ œ๋ฃฝ 2023. 8. 4.
728x90
๋ฐ˜์‘ํ˜•

 

 

SMPL-X๋ž€?

: ๋‹จ์ผ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ, ์‹ ์ฒด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์†๊ณผ ์–ผ๊ตด์„ ํ†ตํ•ฉ์ ์œผ๋กœ 3D ํ˜•ํƒœ์˜ ์‹ ์ฒด๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ชจ๋ธ

์ขŒ: SMPL, ์ค‘๊ฐ„: SMPL+H, ์šฐ: SMPL-X

 

 

0. ABSTRACT

: 3D ์Šค์บ”์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธ๊ฐ„์˜ ๋ชธ์ฒด์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ํ†ตํ•ฉ๋œ 3D ๋ชจ๋ธ์ธ SMPL-X๋ฅผ ํ›ˆ๋ จ

: SMPL์„ ํ™•์žฅํ•ด์„œ ์†๊ณผ ํ‘œ์ •๊นŒ์ง€ ๊ตฌํ˜„ํ•˜๊ณ ์ž ํ•จ

: SMPL-X๋Š” ์–ผ๊ตด, ์†, ๋ชฉ, ์‹ ์ฒด ๋“ฑ ๋‹ค์–‘ํ•œ ์ธ์ฒด ํ˜•ํƒœ์™€ ์ž์„ธ๋ฅผ ํฌํ•จํ•˜๋Š” ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฐ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ด๋ฏธ์ง€ ์ •๋ณด์™€ ๊ด€์ ˆ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•ด์„œ ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๋ฌธ์ œ์  ์กด์žฌ

: ๋”ฐ๋ผ์„œ ๊ธฐ์กด SMPLify ์•Œ๊ณ ๋ฆฌ์ฆ˜(2D์—์„œ ๊ด€์ ˆ์ •๋ณด ์ถ”์ถœํ•ด์„œ ํ•™์Šต์‹œํ‚ค๋Š”)์„ ํ™œ์šฉํ•ด์„œ SMPL-X ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•ด์„œ ์ ํ•ฉ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•จ

 

โžก๏ธ SMPL-X๋Š” ์‹ ์ฒด+์†+์–ผ๊ตด์„ ํ†ตํ•ฉ์ ์œผ๋กœ ๊ตฌ์„ฑํ•ด์ฃผ๋Š” 3D ์ธ์ฒด ๋ชจ๋ธ์ธ๋ฐ, ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ๊ณ  ๋ณต์žกํ•ด์„œ, ๋‹จ์ผ ์ด๋ฏธ์ง€๋กœ ์ด๋ฏธ์ง€ ์ •๋ณด ๋ฐ ๊ด€์ ˆ ์ •๋ณด๋ฅผ ํ†ตํ•ด 3D ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ•ด์ฃผ๋Š” SMPLify๋ฅผ ํ™œ์šฉํ•ด์„œ SMPL-X ๋ชจ๋ธ์„ ์ตœ์ ํ™” ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ด ๋…ผ๋ฌธ์˜ ์ „๋ถ€

 

<SMPLify ๊ฐœ์„ >

(1) ์–ผ๊ตด, ์†, ๋ฐœ์— ํ•ด๋‹นํ•˜๋Š” 2D ํŠน์ง•์„ ๊ฐ์ง€ํ•˜๊ณ  ์ „์ฒด SMPL-X ๋ชจ๋ธ์„ ์ด๋Ÿฌํ•œ ํŠน์ง•์— ๋งž๊ฒŒ ์ ํ•ฉ์‹œํ‚ต๋‹ˆ๋‹ค.

(2) ๋Œ€๊ทœ๋ชจ MoCap ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์‹ ๊ฒฝ๋ง ์ž์„ธ ์‚ฌ์ „์„ ํ›ˆ๋ จ์‹œํ‚ต๋‹ˆ๋‹ค.

(3) ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ์ƒˆ๋กœ์šด ์ƒํ˜ธ ์นจํˆฌ ๋ฒŒ์น™(์ž์„ธ๊ฐ€ ์ด์ƒํ•œ ๊ฒฝ์šฐ ํŒจ๋„ํ‹ฐ ์ ์šฉ)์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

(4) ์ž๋™์œผ๋กœ ์„ฑ๋ณ„์„ ๊ฐ์ง€ํ•˜๊ณ  ์ ์ ˆํ•œ ๋ชธ์ฒด ๋ชจ๋ธ (๋‚จ์„ฑ, ์—ฌ์„ฑ ๋˜๋Š” ์ค‘์„ฑ)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

(5) ์šฐ๋ฆฌ์˜ PyTorch ๊ตฌํ˜„์€ Chumpy์— ๋น„ํ•ด 8๋ฐฐ ์ด์ƒ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค

โžก๏ธ SMPLify-X ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž„

 

1. INTRODUCTION

: ๋‹จ์ผ ์ด๋ฏธ์ง€์—์„œ ์ธ์ฒด์˜ ๋ชธ์ฒด, ์† ๋ชจ์Šต ๋ฐ ์–ผ๊ตด ํ‘œํ˜„์˜ 3D ๋ชจ๋ธ์„ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆ

: ๊ธฐ์กด์˜ 2D ์ธ๊ฐ„ "์ž์„ธ" ์ถ”์ • ๋ฐฉ๋ฒ•์€ ์ฃผ๋กœ ์ธ์ฒด์˜ ์ฃผ์š” ๊ด€์ ˆ๋งŒ์„ ์ถ”์ •ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ท„์—ˆ์Œ

: ํ•˜์ง€๋งŒ ์ธ๊ฐ„์˜ ํ–‰๋™์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ธ์ฒด์˜ ์ฃผ์š” ๊ด€์ ˆ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ „์ฒด ๋ชธ์ฒด, ์†, ์–ผ๊ตด์˜ 3D ํ‘œ๋ฉด ์ •๋ณด๊ฐ€ ํ•„์š”

: ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋Œ€๋Ÿ‰์˜ 3D ์Šค์บ” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ†ตํ•ฉ์ ์ธ ์ธ์ฒด ๋ชจ๋ธ์ธ SMPL-X๋ฅผ ํ•™์Šต

: ์ด ๋ชจ๋ธ์€ SMPL ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๋”์šฑ ํ‘œํ˜„๋ ฅ์ด ๊ฐ•ํ™”๋œ ๋ฒ„์ „์œผ๋กœ ์–ผ๊ตด๊ณผ ์†์„ ํฌํ•จํ•˜์—ฌ ์ธ์ฒด๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Œ.

: ์ด๋ฅผ ์œ„ํ•ด SMPL๊ณผ FLAME ํ—ค๋“œ ๋ชจ๋ธ, MANO ์† ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•˜๊ณ , ์ด๋ฅผ 5586๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ 3D ์Šค์บ”์œผ๋กœ ๋“ฑ๋กํ•จ

: ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ SMPL-X์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ง์ ‘ ํšŒ๊ท€ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉ

: ๊ธฐ์กด์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ค์› ๊ธฐ ๋•Œ๋ฌธ์— SMPLify ๋ฐฉ๋ฒ•์„ ๋”ฐ๋ฆ„ (๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ์…‹์€ ์†๊ณผ ํ‘œ์ •, ๋จธ๋ฆฌ์— ๋Œ€ํ•œ ๊ฒƒ์€ ์—†์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์• ์ดˆ์— ๋‹จ์ผ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ๋ฝ‘์•„๋‚ด๋Š” SMPLify๋ฅผ ์‚ฌ์šฉํ•˜์ž๊ณ  ์ œ์•ˆํ•œ ๊ฒƒ์œผ๋กœ ์ดํ•ดํ•จ)

 

โžก๏ธ OpenPose์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์œผ๋กœ ์ด๋ฏธ์ง€์˜ 2D ํŠน์ง•์„ ์ถ”์ •ํ•œ ๋‹ค์Œ, SMPL-X ๋ชจ๋ธ์„ ์ด๋Ÿฌํ•œ 2D ํŠน์ง•์— ๋งž๊ฒŒ ์ตœ์ ํ™”ํ•˜๋Š” SMPLify-X ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉ

 

: SMPLify-X ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž์„ธ์™€ ํ‘œํ˜„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์–ด, ์ธ์ฒด, ์†, ์–ผ๊ตด์˜ ํ†ตํ•ฉ์ ์ธ ๋ชจ๋ธ์˜ ์ •ํ™•์„ฑ์„ ํ‰๊ฐ€

 

 

2. RELATED WORK

2.1. Modeling the body

Bodies, Faces and Hands.

: 3D ์ธ์ฒด ๋ชจ๋ธ๋ง ๋ฌธ์ œ๋ฅผ ๋ชธํ†ต๊ณผ ์–ผ๊ตด, ์†์„ ์„œ๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค์ด ์‚ฌ์šฉ๋˜์—ˆ์Œ

: ์˜ˆ์ „์—๋Š” ๋™์ผํ•œ ํฌ์ฆˆ์˜ ์‚ฌ๋žŒ๋“ค์˜ ๋ฐ”๋”” ํ˜•ํƒœ์— ์ดˆ์ ์„ ๋งž์ท„์Œ

: ๋˜ํ•œ, ์†๊ณผ ์–ผ๊ตด์€ ๋ชจ๋ธ๋งํ•˜์ง€ ์•Š์•˜์Œ

: ์†์€ ์ฃผ๋จน ๋˜๋Š” ์—ด๋ฆฐ ๋ชจ์–‘์œผ๋กœ ๊ฐ€์ •, ์–ผ๊ตด์€ ์ค‘๋ฆฝ์ ์ธ ํ‘œ์ •์œผ๋กœ ๊ฐ€์ •ํ–ˆ์—ˆ์Œ

 

Unified Models.

์ขŒ: Frank, ์šฐ: SMPL+H

: ๊ธฐ์กด์˜ ๋ชจ๋ธ ์ค‘, ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๋ชจ๋ธ์€ Frank [36]์™€ SMPL+H

: Frank๋Š” SMPL (ํฌ์ฆˆ ๋ธ”๋ Œ๋“œ ํ˜•ํƒœ ์—†์Œ)๋ฅผ ๋ชธํ†ต, ์•„ํ‹ฐ์ŠคํŠธ๊ฐ€ ๋””์ž์ธํ•œ ํ•ธ๋“œ ๋ฆฌ๊ทธ๋ฅผ ์†, ๊ทธ๋ฆฌ๊ณ  FaceWarehouse ๋ชจ๋ธ [14]์„ ์–ผ๊ตด์— ๊ฐ๊ฐ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋“ค์„ ํ•ฉ์นœ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•จ

: SMPL+H๋Š” SMPL ๋ฐ”๋””์™€ 3D ์Šค์บ”์—์„œ ํ•™์Šต๋œ ํ•ธ๋“œ ๋ชจ๋ธ์„ ๊ฒฐํ•ฉ, ๊ฐ€๋ณ€ํ˜• ์–ผ๊ตด ํฌํ•จ x

FRANK

 

๊ฐ€์šด๋ฐ๊ฐ€ SMPL+H

: Frank์™€๋Š” ๋‹ฌ๋ฆฌ ์ด๋ฅผ ๊ฐ„๋‹จํžˆ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ „์ฒด ๋ชจ๋ธ์„ 5586๊ฐœ์˜ 3D ์Šค์บ”์— ๋งž์ถ”๊ณ  ํ˜•ํƒœ์™€ ํฌ์ฆˆ์— ๋”ฐ๋ผ ๋ธ”๋ Œ๋“œ ํ˜•ํƒœ๋ฅผ ํ•™์Šต์‹œํ‚ด

: SMPL+H [51]๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ณ  ์ด์— FLAME ํ—ค๋“œ ๋ชจ๋ธ [22]์„ ์ถ”๊ฐ€

 

โžก๏ธ SMPL์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฏ€๋กœ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•จ

 

2.2. Inferring the body

: ๋‹จ์ผ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ SMPL ๋ชจ๋ธ์„ ์ถ”์ •ํ•˜๋ ค๊ณ  ํ•˜๋Š” ์ด์œ ?

: ํŽ˜์–ด๋ง ์Œ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์œผ๋ฉด ํ•™์Šต์ด ์‰ฝ๊ฒŒ ๊ฐ€๋Šฅํ•˜๊ฒ ์ง€๋งŒ, (label ๊ฐ’์€ ์—†๊ณ , train๊ฐ’๋งŒ ์žˆ๋‹ค..) ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•˜๊ธฐ์— ๋„ˆ๋ฌด ์–ด๋ ค์›€(๋น„์šฉ ๋งŽ์ด ๋“ค๊ณ , ๋ณต์žก). ๊ทธ๋ž˜์„œ ๋‹จ์ผ ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ด 3D๋กœ ๊ตฌํ˜„ํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์ž„

  • โ€ป ํŽ˜์–ด๋ง ์Œ์˜ ๋ฐ์ดํ„ฐ?

    : ๊ฐ๊ฐ์˜ ์ธ์ฒด์— ๋Œ€ํ•ด SMPL ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ(์˜ˆ: ๋ชจ์–‘, ์ž์„ธ)๋ฅผ ์•Œ๊ณ  ์žˆ์œผ๋ฉฐ(train), ์ด์— ํ•ด๋‹นํ•˜๋Š” 3D ์ธ์ฒด ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” 3D ๋ฉ”์‰ฌ ๋˜๋Š” ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ํ˜•ํƒœ์˜ ์ด๋ฏธ์ง€๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ(label). ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ธ์ฒด ๋ชจ๋ธ๊ณผ ํ•ด๋‹น ์ด๋ฏธ์ง€๊ฐ€ ํŽ˜์–ด๋ง๋˜์–ด ์žˆ๋‹ค ๋ผ๊ณ  ๋งํ•จ

โžก๏ธ ๋”ฐ๋ผ์„œ, SMPLify [10]๋Š” 2D ์ด๋ฏธ์ง€ ํŠน์ง•์„ "bottom up" ๋ฐฉ์‹์œผ๋กœ ๊ฐ์ง€ํ•œ ๋‹ค์Œ, ์ด๋Ÿฌํ•œ ํŠน์ง•์— SMPL ๋ชจ๋ธ์„ ์ตœ์ ํ™” ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ "top down" ๋ฐฉ์‹์œผ๋กœ ์ ํ•ฉ์‹œํ‚ด

โžก๏ธ ํŽ˜์–ด๋ง๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ •์ œํ•˜์—ฌ ์ง์ ‘ ํšŒ๊ท€ ๋ฐฉ๋ฒ•์„ ํ›ˆ๋ จ์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ฒŒ ๋จ

 

 

3. Technical approach

3.1. Unified model: SMPL-X

: SMPL-X๋Š” ์–ผ๊ตด, ์†, ๊ทธ๋ฆฌ๊ณ  ๋ชธ์˜ ํ˜•ํƒœ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋Š” ๋ชจ๋ธ

: SMPL-X๋Š” ํ•™์Šต๋œ ์˜คํ”„์†Œ์Šค๊ธฐ๋ฐ˜ ์„ ํ˜• ๋ธ”๋ Œ๋“œ ์Šคํ‚ค๋‹(linear blend skinning)(์‚ฌ๋žŒ์˜ mesh๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉ๋ฒ•) ์„ ์‚ฌ์šฉํ•˜๋ฉฐ, N = 10,475๊ฐœ์˜ ๋ฒ„ํ…์Šค์™€ K = 54๊ฐœ์˜ ๊ด€์ ˆ๋กœ ๊ตฌ์„ฑ

: ๊ด€์ ˆ์€ ๋ชฉ, ํ„ฑ, ๋ˆˆ์•Œ, ์†๊ฐ€๋ฝ ๊ด€์ ˆ ๋“ฑ์„ ํฌํ•จ

: SMPL-X์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ด์šฉํ•ด์„œ ๋ชจ๋ธ๋ง ํ•˜๊ณ ์ž ํ•จ

: ํŒŒ๋ผ๋ฏธํ„ฐ θ๋ฅผ θf (ํ„ฑ ๊ด€์ ˆ), θh (์†๊ฐ€๋ฝ ๊ด€์ ˆ), ๊ทธ๋ฆฌ๊ณ  θb (๋‚จ์€ ๋ชธ ๊ด€์ ˆ)๋กœ ๋ถ„ํ•ด

: ์ •ํ™•ํžˆ๋Š” ์•ˆ๋ด„.. ๋…ผ๋ฌธ ์ฐธ๊ณ ํ•˜์„ธ์š”

โžก๏ธ ๊ฒฐ๋ก : SMPL-X์˜ ์ „์ฒด ๋ชจ๋ธ ๋งค๊ฐœ ๋ณ€์ˆ˜ ์ˆ˜๋Š” 119๋กœ, ์ด ์ค‘์— 75๊ฐœ๋Š” ์ „์—ญ ๋ชธ ํšŒ์ „ ๋ฐ {๋ชธ, ๋ˆˆ, ํ„ฑ} ๊ด€์ ˆ์— ๋Œ€ํ•œ ๋งค๊ฐœ ๋ณ€์ˆ˜์ด๊ณ , ์†์˜ ๋‚ฎ์€ ์ฐจ์› PCA ์ž์„ธ ๊ณต๊ฐ„์— ๋Œ€ํ•ด 24๊ฐœ(์†) , ๊ฐœ์ฒด ํ˜•ํƒœ์— ๋Œ€ํ•ด 10๊ฐœ(shape), ์–ผ๊ตด ํ‘œํ˜„(facial expression) ์— ๋Œ€ํ•ด 10๊ฐœ์— ๊ด€ํ•œ ๊ฒƒ์ž„

 

์ตœ์ข… ๋ชฉ์  ํ•จ์ˆ˜ ⇒ ์ตœ์†Œํ™” ํ•ด์•ผํ•˜๋Š” ์‹

 

3.2. SMPLify-X: SMPL-X from a single image

: re-projection loss ⇒ 3D ์ธ์ฒด ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์–ป์€ 3D ๊ด€์ ˆ ์œ„์น˜๋ฅผ ์นด๋ฉ”๋ผ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ํ‰๋ฉด์œผ๋กœ ํˆฌ์˜ํ•˜์—ฌ ์–ป์€ 2D ๊ด€์ ˆ ์œ„์น˜์™€ ์‹ค์ œ ์ด๋ฏธ์ง€ ์ƒ์—์„œ ๊ด€์ฐฐ๋œ 2D ๊ด€์ ˆ ์œ„์น˜ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ์— ๋Œ€ํ•œ ํ•ญ์„ ์˜๋ฏธํ•จ

  • โ€ป re-projection loss ํ’€์–ด์„œ ์ดํ•ดํ•˜๊ธฐ

    : 3D ๋ฌผ์ฒด๋Š” 3D ์ ๋“ค์˜ ์ง‘ํ•ฉ์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Œ.

    : ๊ทธ๋ฆฌ๊ณ  ์šฐ๋ฆฌ๋Š” ํ•ด๋‹น ๋ฌผ์ฒด์˜ 3D ๊ด€์ ˆ ์œ„์น˜๋ฅผ ์•Œ๊ณ  ์žˆ์Œ

    : ์ด์ œ ์นด๋ฉ”๋ผ๋กœ ์ฐ์€ 3D ๋ฌผ์ฒด๋ฅผ ์ด๋ฏธ์ง€๋กœ ํˆฌ์˜ํ•˜์—ฌ 2D ์ด๋ฏธ์ง€๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Œ

    : ์ด ๋•Œ, ํˆฌ์˜๋œ 2D ์ด๋ฏธ์ง€ ์ƒ์˜ 2D ๊ด€์ ˆ ์œ„์น˜์™€ ์›๋ž˜ ์ด๋ฏธ์ง€ ์ƒ์—์„œ ๊ด€์ฐฐ๋œ 2D ๊ด€์ ˆ ์œ„์น˜๋ฅผ ๋น„๊ตํ•˜๋ฉด์„œ ์–ผ๋งˆ๋‚˜ ์˜ค์ฐจ๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์ด re-projection loss

Π : 3D๋ฅผ 2D๋กœ projection ํ•˜๋Š” ๊ฒƒ

σ : noise ์ค„์ด๊ธฐ ์œ„ํ•œ function

 

3.3. Variational Human Body Pose Prior

: ์‹ ์ฒด ๊ตฌ์กฐ์ƒ ๋ถˆ๊ฐ€๋Šฅํ•œ ์ž์„ธ๋“ค์ด ์กด์žฌ

ex) ํŒ”์ด ๊บพ์ธ๋‹ค๊ฑฐ๋‚˜ ๋ชฉ์ด ๊บฝ์ด๋Š” ๊ฒฝ์šฐ..

⇒ ์ด๋Ÿฐ ๊ฒฝ์šฐ์— penalty๋ฅผ ์ฃผ๊ณ , ๊ฐ€๋Šฅํ•œ ์ž์„ธ๋“ค์ด ๋‚˜์˜ค๊ฒŒ๋” ์ตœ์ ํ™”ํ•  ๋•Œ ํ•™์Šต๋œ prior์„ ์ œ๊ณต

  • โ€ป prior

    : ํ•™์Šต๋œ ์ž์„ธ์˜ ๋ถ„ํฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ์ž์„ธ๋ฅผ ์ œํ•œ

    : ์˜ˆ๋ฅผ ๋“ค์–ด, ํŠน์ • ์ž์„ธ์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉด ๋ชจ๋ธ์ด ์ด๋Ÿฌํ•œ ์‚ฌ์ „๊ณผ ์ผ์น˜ํ•˜๋Š” ์ž์„ธ๋ฅผ ์„ ํ˜ธํ•˜๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Œ

 

: SMPLify-X ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์‹ค์ œ ์ธ์ฒด์˜ ๋ฌผ๋ฆฌ์  ์ œ์•ฝ์„ ๊ณ ๋ คํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•˜๋Š” ์‹

: SMPLify-X์—์„œ๋Š” VAE (Variational Autoencoder) ๊ธฐ๋ฐ˜์˜ body pose prior๋ฅผ ์‚ฌ์šฉํ•จ

โžก๏ธ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ž์„ธ๋ฅผ ์œ ์ง€ํ•˜๋„๋ก ํ•˜๊ฑฐ๋‚˜ ์ž์„ธ์™€ ๊ด€๋ จ๋œ ์ œ์•ฝ์„ ์ ์šฉํ•˜์—ฌ ํ˜„์‹ค์ ์ด๊ณ  ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค

 

3.4. Collision penalizer

: ์ตœ์ ํ™”๋ฅผ ํ•˜๋‹ค๋ณด๋ฉด ๋ชธ๋ผ๋ฆฌ ๊ฒน์น˜๋Š” ๋ฌธ์ œ์ ๋“ค์ด ์ƒ๊น€.

: ์‹ค์ œ๋กœ๋Š” ์‚ฌ๋žŒ ์‹ ์ฒด๋“ค์ด ๊ฒน์น˜๋Š” ๊ฒƒ์ด ๋ถˆ๊ฐ€๋Šฅํ•จ

: ๋”ฐ๋ผ์„œ ์ด์— ๋Œ€ํ•œ penalty๋ฅผ ์ฃผ๊ธฐ ์œ„ํ•œ loss term์„ ๊ตฌ์„ฑํ•จ (๋ณด๋‹ค ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž„ ⇒ ๊ฒฐ๊ตญ์— ํŒจ๋„ํ‹ฐ๋ฅผ ์ค€๋‹ค๋Š” ๊ฒƒ์€ ๊ฒน์น˜์ง€ ์•Š๋„๋ก ๊ทœ์ œํ•œ๋‹ค๋Š” ๋ง)

 

3.5. Deep Gender Classifier

: ๋‚จ์„ฑ๊ณผ ์—ฌ์„ฑ์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋น„์œจ๊ณผ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ

: ์„ฑ๋ณ„ ๋ผ๋ฒจ์„ ๊ฐ์ง€ํ•˜๋Š” ์„ฑ๋ณ„ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ•™์Šต์‹œํ‚ด

: ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ResNet18 [28] ๋ชจ๋ธ์„ ์ด์ง„ ์„ฑ๋ณ„ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด fine tuning ์‹œํ‚ด

: ํด๋ž˜์Šค ํ™•๋ฅ ์ด ์ž„๊ณ„๊ฐ’ ์•„๋ž˜๋กœ ๋–จ์–ด์ง€๋ฉด ์„ฑ๋ณ„ ์ค‘๋ฆฝ์ ์ธ ๋ชธ ๋ชจ๋ธ์„ ๋งž์ถ”๊ณ , ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ์ ์ ˆํ•œ ์„ฑ๋ณ„ ๋ชจ๋ธ์„ ๋งž

 

3.6. Optimization

: ์œ ์‚ฌํ•˜๊ฒŒ ์ •ํ™•ํ•œ ๋˜๋Š” ๊ทผ์‚ฌ์ ์ธ ์นด๋ฉ”๋ผ ์ดˆ์  ๊ฑฐ๋ฆฌ ๊ฐ’์„ ์•Œ๊ณ  ์žˆ๋‹ค๊ณ  ๊ฐ€์ •

: ์•Œ๋ ค์ง€์ง€ ์•Š์€ ์นด๋ฉ”๋ผ ์ด๋™๊ณผ ์ „์ฒด ๋ชธ์˜ ๋ฐฉํ–ฅ์„ ์ถ”์ •

: ์ดํ›„, ์นด๋ฉ”๋ผ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณ ์ •ํ•˜๊ณ  ๋ชธ์˜ ํ˜•ํƒœ์ธ β์™€ ์ž์„ธ์ธ θ๋ฅผ ์ตœ์ ํ™”

 

โžก๏ธ ๋ชธ์˜ ์ž์„ธ๋ฅผ ์ตœ์ ํ™” ํ•˜๊ธฐ ์œ„ํ•ด ์–ผ๊ตด๊ณผ, ์†์— ๊ฐ€์ค‘์น˜๋ฅผ ์ ๊ฒŒ ๋‘ฌ์„œ, ์ „์ฒด ์ž์„ธ๋ฅผ ์žก๋Š” ๋™์•ˆ์—๋Š” ์˜ํ–ฅ๋ ฅ์„ ์ค„์˜€์Œ (์‹ ์ฒด ์ „์ฒด์— ๋Œ€ํ•ด์„œ๋Š” ์ž‘์ง€๋งŒ, ๊ด€์ ˆ ์ˆ˜๊ฐ€ ๋งŽ์•„์„œ ๊ฐ€์ค‘์น˜๋ฅผ ์ ๊ฒŒ ์ค˜์•ผ ํ•จ)

โžก๏ธ ์ดํ›„, ๋ชธ์˜ ๊ตฌ์„ฑ์ด ์–ด๋Š์ •๋„ ๋˜๋ฉด, ์†๊ณผ ์–ผ๊ตด ์ฃผ์š” ์ง€์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋†’๊ฒŒ ๋‘ฌ์„œ ํ•™์Šต์‹œํ‚ด

 

 

4. Experiments

Datasets: ๋ชธ, ์†, ์–ผ๊ตด์˜ ์ง€๋ฉด ์ง„์‹ค ํ˜•ํƒœ๊ฐ€ ํ•จ๊ป˜ ํฌํ•จ๋œ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์ด ์กด์žฌํ•˜์ง€ ์•Š์•„์„œ, ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์—ˆ์Œ

: ์šฐ๋ฆฌ๋Š” 1๊ฐœ์˜ ์ด๋ฏธ์ง€์™€ 2D ๊ด€์ ˆ๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ

: ๊ตณ

: ์†๊นŒ์ง€ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์ž˜ ํ‘œํ˜„ํ•จ

 

<์ฐธ๊ณ >

https://mr-waguwagu.tistory.com/38

 


728x90
๋ฐ˜์‘ํ˜•