๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[๋…ผ๋ฌธ] Paper Review

SMPLify(Keep it SMPL): Automatic Estimation of 3D Human Pose and Shape from a Single Image

by ์ œ๋ฃฝ 2023. 7. 31.
728x90
๋ฐ˜์‘ํ˜•

 

SMPLify[Keep it SMPL] ์ด๋ž€?

: 2D CNN(Deepcut)์„ ํ™œ์šฉํ•ด ๊ด€์ ˆ ์œ„์น˜๋ฅผ ๋ฝ‘์€ ํ›„, 3D SMPL์— ์ ์šฉํ•ด 3D Mesh๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ์‹

 

์š”์•ฝ(Abstract)

: ์ด๋ฏธ์ง€์—์„œ ์ธ๊ฐ„์˜ 3D ํฌ์ฆˆ์™€ ํ˜•ํƒœ๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ •ํ•˜๊ณ ์ž ํ•จ

: CNN ๊ธฐ๋ฒ• Deepcut์„ ํ™œ์šฉ, 3D SMPL์˜ ๊ฒฐํ•ฉ

: Datasets์˜ ๊ฒฝ์šฐ, Leeds Spors, HumanEva, Human3.6M ์‚ฌ์šฉ

 

์ด์  ๋ฐ ํŠน์ง•(Introduction)

: ์ด์ „ ๋ฐฉ์‹์˜ ๊ฒฝ์šฐ, ํฌ์ฆˆ ์ดˆ์ ์—๋งŒ ๋งž์ท„๊ณ , 3D ํ˜•ํƒœ๋ฅผ ๋ฌด์‹œํ–ˆ์Œ

โžก๏ธ 2D ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ํฌ์ฆˆ์™€ ํ˜•ํƒœ๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” 3D ๋ฉ”์‰ฌ๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•จ

  1. Deepcut ํ™œ์šฉํ•ด 2D ๊ด€์ ˆ ์ถ”์ •
    • โ€ป DeepCut์ด๋ž€

      ๐Ÿ“š [์ฐธ๊ณ ] https://arxiv.org/pdf/1511.06645v2.pdf

      : detection๊ณผ pose estimation ์ž‘์—…์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹ ์ œ์•ˆ

      : ์ด๋ฏธ์ง€ ๋‚ด ์‚ฌ๋žŒ ์ˆ˜๋ฅผ ์ถ”์ •ํ•˜๊ณ , ๊ฐ€๋ ค์ง„ ์‹ ์ฒด ๋ถ€์œ„ ์‹๋ณ„, ์„œ๋กœ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์œ„์น˜ํ•œ ์‚ฌ๋žŒ๋“ค ์‚ฌ์ด์—์„œ ์‹ ์ฒด ๋ถ€์œ„๋ฅผ ๊ตฌ๋ณ„ํ•จ

  1. 2D ๊ด€์ ˆ๋กœ๋ถ€ํ„ฐ 3D ํฌ์ฆˆ/ํ˜•ํƒœ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด 3D ์ƒ์„ฑ ๋ชจ๋ธ SMPL ์‚ฌ์šฉ

⇒ SMPLify๋ผ๋Š” ์ด๋ฆ„์œผ๋กœ ์ •์˜ํ•จ

: ํ•˜ํ–ฅ์‹ ์ถ”์ •์ด๋ผ๊ณ  ๋งํ•จ (ํ•˜ํ–ฅ์‹ CNN ๊ฑฐ์นœ ํ›„, ์ƒํ–ฅ์‹ ์ƒ์„ฑ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ๋‹ค)


  1. 3D SMPL์„ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ธ๊ตฌ ์ „์ฒด์˜ ํ˜•ํƒœ ๋ณ€๋™ ํ†ต๊ณ„์™€ ํฌ์ฆˆ์— ๋”ฐ๋ฅธ ์ธ๊ฐ„ ๋ชธ์ฒด์˜ ๋ณ€ํ˜•์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Œ
    • ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์ •์˜, ํฌ์ฆˆ์™€ ํ˜•ํƒœ๋ฅผ ์ง์ ‘ ์ตœ์ ํ™” ⇒ 3D ๋ชจ๋ธ์˜ ํˆฌ์‚ฌ๋œ ๊ด€์ ˆ์ด CNN์œผ๋กœ ์ถ”์ •๋œ 2D ๊ด€์ ˆ๊ณผ ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ํ•จ
  1. interpenetration(์ƒํ˜ธ์นจํˆฌ) ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Œโ€ป interpenetration: ๊ฐ์ฒด๊ฐ€ ์„œ๋กœ ํ†ต๊ณผํ•˜๊ฑฐ๋‚˜ ๊ฒน์น˜๋Š” ํ˜„์ƒ์„ ์˜๋ฏธ
    • ์ด์ „ ์—ฐ๊ตฌ์˜ ๊ฒฝ์šฐ, 2D ๊ด€์ ˆ๋กœ๋ถ€ํ„ฐ 3D ์Šคํ‹ฑ ์ธ์ฒด๋ชจ๋ธ์„ ์ถ”์ •ํ–ˆ์—ˆ์Œ.
    • ๋น„์„ ํ˜•์ ์ธ ๊ด€์ ˆ ๊ตฌ์กฐ
    • 3D ์Šคํ‹ฑ ์ธ์ฒด๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ์„ ๋ถ„์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฐ„๋‹จํ•œ 3D ๋ชจ๋ธ์ด๊ธฐ์— ํ‘œํ˜„ํ•˜๋Š”๋ฐ ๋ถˆ๊ฐ€๋Šฅํ•œ ์ž์„ธ๊ฐ€ ๋งŽ์•˜์Œ. (๋„ˆ๋ฌด ๋‹จ์ˆœํ•ด์„œ)
    3D stick figures์˜ ์˜ˆ
    • ๊ทธ๋ ‡๊ธฐ์— 2D ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ 3D ์ •๋ณด๋ฅผ ์ถ”๋ก ํ•  ๋•Œ, ๊นŠ์ด ์ •๋ณด์˜ ์†์‹ค๋กœ ์ธํ•ด ๋ชจํ˜ธํ•ด์ง„๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ–ˆ์Œ (์ž์„ธ ์˜ˆ์ธก๊ณผ ๊ฐ™์€)
    • ๋น„์šฉ๋„ ๋งŽ์ด ๋“ฌ
    โžก๏ธ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” 3D stick์ด ์•„๋‹ˆ๋ผ, ‘์บก์Š’์„ ์ •์˜ํ•ด์„œ ๋ณต์žกํ•œ ๋ชธ ํ˜•ํƒœ๋ฅผ ๋น„๊ต์  ๊ฐ„๋‹จํ•˜๊ณ  ๋น ๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ํ•จโžก๏ธ ์ด๋ ‡๊ฒŒ ๋˜๋ฉด, ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค๋กœ๋ถ€ํ„ฐ ์บก์Š์˜ ํฌ๊ธฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ถ”์ •
    ์บก์Šํ™”
  2. โžก๏ธ ์ž˜๋ชป๋œ ํฌ์ฆˆ๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š”๋ฐ ๋” ๋„์›€์ด ๋˜๋„๋ก ํ•จ
  3. โžก๏ธ ‘์บก์Š’์˜ ํฌ๊ธฐ๊ฐ€ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค๋กœ ์„ ํ˜• ํšŒ๊ท€๋˜์—ˆ๋‹ค๊ณ  ํ•จ (๋น„์„ ํ˜•์„ ์„ ํ˜•์œผ๋กœ)

<๊ธฐ์—ฌ>

1) 2D ๊ด€์ ˆ๋กœ๋ถ€ํ„ฐ 3D ๋ชธ์ฒด ํ˜•ํƒœ์™€ ํฌ์ฆˆ๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ์ตœ์ดˆ์˜ ์™„์ „ ์ž๋™ ๋ฐฉ๋ฒ•

2) ํ˜•ํƒœ์™€ ํฌ์ฆˆ์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ์ƒํ˜ธ์นจํˆฌ ํ•ญ

3) 3D ๋ชธ์ฒด ๋ชจ๋ธ์„ 2D ๊ด€์ ˆ์— ๋งž์ถ”๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ชฉ์  ํ•จ์ˆ˜

 

 

DATA/Model

<data>

: ์—ฌ์„ฑ ๋ฐ ๋‚จ์„ฑ์˜ ํ˜•ํƒœ ๊ณต๊ฐ„์„ ๊ตฌ๋ณ„

: ์„ฑ๋ณ„ ์ค‘๋ฆฝ์ ์ธ ๋ชจ๋ธ๋„ ๋„์ž…(์„ฑ๋ณ„์„ ๋ชจ๋ฅด๋Š” ๊ฒฝ์šฐ)

: ์ •์  ์ด๋ฏธ์ง€ ๋ฐฉ๋ฒ•์— ์ดˆ์ ์„ ๋‘ 

: ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง€ ์š”๊ตฌํ•˜์ง€ ์•Š๊ณ , 2D ๊ด€์ ˆ๋กœ๋ถ€ํ„ฐ 3D ์ž์„ธ ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ์ดˆ์ ์„ ๋‘ 

<model>

: ์„ธ ๊ฐ€์ง€ ํ˜•ํƒœ์˜ ๋ชจ๋ธ ์‚ฌ์šฉ

: ๋‚จ์„ฑ/์—ฌ์„ฑ/์„ฑ๋ณ„ ์ค‘๋ฆฝ ๋ชจ๋ธ

: ์„ฑ๋ณ„ํ™”๋œ SMPL ๋ชจ๋ธ๋“ค์„ ํ•™์Šตํ•œ ๋‚จ์„ฑ, ์—ฌ์„ฑ์œผ๋กœ๋ถ€ํ„ฐ ์ƒˆ๋กœ์šด ์„ฑ๋ณ„ ์ค‘๋ฆฝ ๋ชจ๋ธ์„ ํ›ˆ๋ จ

 

: ๋‚จ์„ฑ ๋ฐ ์—ฌ์„ฑ์€ ํ•‘ํฌ, ์„ฑ๋ณ„ ์ค‘๋ฆฝ์€ ์—ฐํ•œ ํŒŒ๋ž‘

 

SMPLify ๋ฐฉ๋ฒ•

: ํ”ผ๋ถ€ ๋ฒ ์ด์Šค ๋ชจ๋ธ์ธ SMPL [30]์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด 2D ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ 3D ๋ฉ”์‰ฌ๋ฅผ ์ƒ์„ฑํ•˜๊ณ ์ž ํ•จ

: 23๊ฐœ์˜ ๊ด€์ ˆ๋กœ ๊ตฌ์„ฑ

: SMPL ๋ชจ๋ธ๊ณผ DeepCut ์Šค์ผˆ๋ ˆํ†ค์€ ์•ฝ๊ฐ„ ๋‹ค๋ฅธ ๊ด€์ ˆ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๊ณ  ํ•จ(๊ทธ๋ž˜์„œ Deepcut ๊ด€์ ˆ์„ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ SMPL ๊ด€์ ˆ๊ณผ ์—ฐ๊ฒฐํ–ˆ๋‹ค๊ณ )

: SMPL ๊ด€์ ˆ์„ ์ด๋ฏธ์ง€๋กœ ํˆฌ์˜์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์›๊ทผ ์นด๋ฉ”๋ผ ๋ชจ๋ธ ์‚ฌ์šฉ

 

 

Approximating Bodies with Capsules
  • interpenetration ์œผ๋กœ ์ธํ•ด ๋ถˆ๊ฐ€๋Šฅํ•œ 3D ์ž์„ธ๋“ค์„ ์ƒ์„ฑํ–ˆ๋‹ค๋Š” ๋ฌธ์ œ์ ์ด ์กด์žฌํ–ˆ์Œ(3Dํ™” ํ•˜๋Š” ๊ณผ์ •์—์„œ ๊ฐ์ฒด๊ฐ€ ์„œ๋กœ ํ†ต๊ณผํ•˜๊ฑฐ๋‚˜ ๋ถ€๋”ชํžˆ๋Š” ํ‘œํ˜„์ด ์ƒ๊ธด๋‹ค๋Š”..)
  • ๋”ฐ๋ผ์„œ ‘์บก์Š’์˜ ์ง‘ํ•ฉ์œผ๋กœ ์ธ์ฒด ํ‘œ๋ฉด์„ ๊ทผ์‚ฌํ™” ํ•จ (๊ฐ ์บก์Š์€ ๋ฐ˜์ง€๋ฆ„๊ณผ ์ถ• ๊ธธ์ด๋ฅผ ๊ฐ€์ง)
  • ์ด ๋•Œ ์†๊ฐ€๋ฝ ๋ฐ ๋ฐœ๊ฐ€๋ฝ์€ ์ œ์™ธ
  • 20๊ฐœ์˜ ์บก์Š์„ ์ธ์ฒด ํ˜•์ƒ ํ‘œ๋ฉด์— ๋งž์ถค
  • ์ˆ˜๋™์œผ๋กœ ๋ถ€์ฐฉํ•œ ์บก์Š๋“ค์„ ์‹œ์ž‘์œผ๋กœ, ์บก์Š๊ณผ ์ธ์ฒด ํ‘œ๋ฉด ์‚ฌ์ด ์–‘๋ฐฉํ–ฅ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ˜์ง€๋ฆ„๊ณผ ์ถ• ๊ธธ์ด๋ฅผ ๊ฒฝ์‚ฌ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”๋ฅผ ํ•œ๋‹ค๊ณ . (์บก์Š ๊ฐ„์— ๊ฑฐ๋ฆฌ ์กฐ์ •ํ•˜๋Š” ๋Š๋‚Œ?)
  • ์ดํ›„, ๋ฆฟ์ง€ ํšŒ๊ท€๋ฅผ ์‚ฌ์šฉํ•ด์„œ ์„ ํ˜• ํšŒ๊ท€๊ธฐ๋ฅผ ํ•™์Šต

 

 

Objective Function

: ๋ชฉ์ ํ•จ์ˆ˜ ์ •์˜

: 5๊ฐ€์ง€ ์˜ค์ฐจํ•ญ์„ ํ•ฉํ•˜๋Š” ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œ

: ๊ด€์ ˆ์ด ๊ฐ€๋ ค์ง„ ๊ฒฝ์šฐ, ๊ธฐ์กด ์ž์„ธ ์‚ฌ์ „์— ์˜ํ•ด ๊ฒฐ์ •ํ•˜๊ฑฐ๋‚˜, ํŒจ๋„ํ‹ฐ๋ฅผ ์ ์šฉํ•จ

: ์ฒ™์ถ”์™€ ๋ฌด๋ฆŽ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ตฝํ˜€์ง€์ง€ ์•Š์€ ๊ฒฝ์šฐ, ํŒจ๋„ํ‹ฐ ์ ์šฉ

โžก๏ธ ์ž์„ธ๊ฐ€ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šธ์ˆ˜๋ก ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€๊ณผํ•ด์„œ ์กฐ์ •ํ•˜๊ฒ ๋‹ค!

: ๊ทธ๋ž˜์„œ ๋Œ€๋ถ€๋ถ„์˜ 3D์˜ ๊ฒฝ์šฐ, ๊ฐ€๋Šฅ์„ฑ์ด ๋‚ฎ์€ ์ž์„ธ๋ณด๋‹ค ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ์ž์„ธ๋ฅผ ์„ ํ˜ธํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๊ณ .

 

 

Optimization

: ์นด๋ฉ”๋ผ์˜ ์œ„์น˜, ์ฆ‰ ๋ชธ์ฒด์˜ ๋ฐฉํ–ฅ์ด ์•Œ๋ ค์ง€์ง€ ์•Š์•˜๋‹ค๊ณ  ๊ฐ€์ •

: ์นด๋ฉ”๋ผ ์ดˆ์ ๊ฑฐ๋ฆฌ or ๋Œ€๋žต์ ์ธ ์ถ”์ •์น˜๋Š” ์•Œ๋ ค์ ธ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•จ

: ์‚ฌ๋žŒ์ด ์ด๋ฏธ์ง€ ํ‰๋ฉด๊ณผ ํ‰ํ–‰ํ•˜๊ฒŒ ์„œ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ์ถ”์ •ํ•จ

โ€ป (MPL ํ‰๊ท  ํ˜•ํƒœ์˜ ์ƒ์ฒด ๊ธธ์ด์™€ ์˜ˆ์ธก๋œ 2D ๊ด€์ ˆ๋“ค์— ์˜ํ•ด ์ •์˜๋œ ์œ ์‚ฌํ•œ ์‚ผ๊ฐํ˜•์˜ ๋น„์œจ์„ ํ†ตํ•ด ๊นŠ์ด๋ฅผ ์ถ”์ •)

: ๊ฐ€์ •์ด ํ•ญ์ƒ ์ฐธ์ด๋ผ๊ณ  ํ•  ์ˆ˜๋Š” ์—†๊ธฐ์— ์ƒ์ฒด ๊ด€์ ˆ๋“ค์— ๋Œ€ํ•ด์„œ๋งŒ ์ตœ์†Œํ™”ํ•˜์—ฌ ์ถ”์ •์น˜๋ฅผ ๊ฐœ์„ ์‹œํ‚ด

: ๋Œ€์ƒ์ด ์ธก๋ฉด์—์„œ ์ดฌ์˜๋œ ๊ฒฝ์šฐ, ๋ชธ์ฒด๊ฐ€ ์–ด๋Š ๋ฐฉํ–ฅ์„ ํ–ฅํ•˜๊ณ  ์žˆ๋Š”์ง€ ํŒ๋‹จํ•˜๋Š” ๊ฒƒ์ด ๋ชจํ˜ธํ•  ์ˆ˜ ์žˆ์Œ

ex) CNN์ด ์ถ”์ •ํ•œ 2D ์–ด๊นจ ๊ด€์ ˆ ๊ฐ„์˜ 2D ๊ฑฐ๋ฆฌ๊ฐ€ ์ž„๊ณ„๊ฐ’ ์•„๋ž˜(์ง„์งœ ๋น„์ •์ƒ ๊ฐœ์–ด์ข์ธ ๊ฒฝ์šฐ)์ธ ๊ฒฝ์šฐ ⇒ ์ดˆ๊ธฐํ™”๋ฅผ ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ์‹œ๋„ํ•œ๋‹ค๊ณ  ํ•จ

  1. ๋ชธ์ฒด ๋ฐฉํ–ฅ์„ ์œ„์˜ ๋ฐฉ๋ฒ•๊ณผ ๊ฐ™์ด ์ถ”์ •ํ•˜๊ณ , ๊ทธ ๋‹ค์Œ์œผ๋กœ ๊ทธ ๋ฐฉํ–ฅ์„ 180๋„๋กœ ํšŒ์ „์‹œ์ผœ ์ถ”์ •
  1. EJ(๋ชฉ์ ํ•จ์ˆ˜)๊ฐ€ ๊ฐ€์žฅ ๋‚ฎ์€ ํ”ผํŒ…์„ ์‚ฌ์šฉ

 

 

<์ฐธ๊ณ >

[Deepcut] https://arxiv.org/pdf/1511.06645v2.pdf

[SMPLify ์š”์•ฝ] https://donologue.tistory.com/393

[MoSh] https://files.is.tue.mpg.de/black/papers/MoSh.pdf

 

728x90
๋ฐ˜์‘ํ˜•