BodyNet์ด๋?
: ๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ 2D pose, segmentation ์ถ์ถ, ๋ ๊ฐ์ ์ ๋ณด๋ฅผ ํ์ฉํด 3D pose๋ฅผ ํ์ต, ์ดํ, 3๊ฐ์ง ์ ๋ณด์ RGB ์ ๋ณด๊น์ง ํ์ฉํด 3D์ ๋ถํผ ๊ธฐ๋ฐ ์ฒดํ์ ๊ตฌ์ฑํ๋ Network๋ฅผ ๋งํจ
: end to end ํ์
<ํ์ต ๋ฐฉ์>
1. ์ ๋ ฅ RGB ์ด๋ฏธ์ง๋ ๋จผ์ 2D ํฌ์ฆ ์ถ์ ๊ณผ 2D ์ ์ฒด ๋ถ์ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์ํ ํ์ ๋คํธ์ํฌ๋ฅผ ํต๊ณผ
2. 2D pose์ segmentation์ ํ๋ จ
3. ํ์ต๋ 2D pose์ Segmentation ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํด์ 3D pose๋ฅผ ํ๋ จ์ํด
4. ์ดํ, ์ด์ ์ ๋ชจ๋ ๋คํธ์ํฌ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ 3D ํํ network๋ฅผ ํ๋ จ
5. ์ถ๊ฐ ์ฌํ๋ก์ ์ ์์ค๋ก ํํ ๋คํธ์ํฌ ํ๋ จํด์ ๋ถํผ ๊ธฐ๋ฐ ํํ ์ถ์ ์์ ์ ๋ํด ์ธ๋ฐ ์กฐ์
6. ๊ฒฐํฉ๋ ์์ค๋ก ๋ชจ๋ ๋คํธ์ํฌ ๊ฐ์ค์น๋ฅผ end to end ๋ฏธ์ธ ์กฐ์
7. ํ๊ฐ๋ก ๋ถํผ ์์ธก์ SMPL ๋ชจ๋ธ์ ๋ง์ถค
0. ABSTRACT
: ์ธ๊ฐ์ ํํ ์์ธก์ ๋น๋์ค๋ ์ ๋๋ฉ์ด์ ํน์ ํจ์ ์ฐ์ ์ ์์ด์ ์ค์ํ ์์
: ํ์ง๋ง, ์ด๋ฏธ์ง์์ 3D ์ ์ฒด ํํ๋ฅผ ์์ธกํ๋ ๊ฒ์ ์์ ์ด๋, ์ฒดํ, ์๋ณต๊ณผ ๊ฐ์ ์์ธ๋ค๋ก ์ธํด ๋งค์ฐ ์ด๋ ค์
: ๋ํ, ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ํด์๋ ์ธ์ฒด ๋ชจ๋ธ์ ๋ง์ถ๋ ค๊ณ ํ๊ณ , ํฌ์ฆ ๋ฐ ํํ์ ๋ํ ํน์ ์ฌ์ ์ง์์ ์ง๋๊ณ ์์ด์ผ ํจ
โก๏ธ ๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ 3D ํํ๋ฅผ ์ง์ ์ถ๋ก ํ๋ BodyNet์ ์ ์
: End to End ํ์
(i) 3D ๋ณผ๋ฅจ ์์ค
(ii) ๋ค์ค ๋ทฐ ์ฌํฌ์ ์์ค ๋ฐ
(iii) 2D ํฌ์ฆ, 2D ์ ์ฒด ๋ถ์ ์ธ๊ทธ๋ฉํ ์ด์ ๋ฐ 3D ํฌ์ฆ์ ์ค๊ฐ ์ง๋๊ฐ ์ด๋ฃจ์ด์ง
: ํ๊ฐ์ ๊ฒฝ์ฐ, SMPL ๋ชจ๋ธ์ BodyNet ์ถ๋ ฅ์ ๋ง์ถ๊ณ ์ต๊ทผ์ SURREAL [33]๊ณผ Unite the People [34] ๋ฐ์ดํฐ์ ์์ ๋จ์ผ ๋ทฐ 3D ์ธ๊ฐ ํํ ์ถ์ ์ฑ๋ฅ์ ์ธก์ ํจ
1. Introduction
: ๋จ์ผ ๋ทฐ ํ๊ฒฝ์์๋ 3D ํํ ์ถ์ ์ฐ๊ตฌ๊ฐ ํ์ฑํ ๋์ด์์ง ์์์
: ๋๊ท๋ชจ ๋ฐ์ดํฐ์ , ๋์ ์ฐจ์ ๋ฑ์ด ํ์
โก๏ธ ๋ณผ๋ฅจ ํํ์ ์ ์, 3D voxel grid๋ฅผ ํ์ฉํจ, ์ฌํฌ์ ์์ค ์ ์, segmentationํ์ฉ
<Contribution>
- 3D ์ธ๊ฐ ํํ ์ถ์ ์ ์ํด ๋จ์ผ ๋ทฐ ์ ๊ทผ ๋ฐฉ์์ ๋ค๋ฃจ๊ณ ์ด ์์ ์ ์ํ ๋ณผ๋ฅจ ํํ์ ์ ์ํจ
- ์ฌ๋ฌ ๊ฐ์ง ๋คํธ์ํฌ ์ํคํ ์ฒ๋ฅผ ์กฐ์ฌํ๊ณ ๋ฉํฐ๋ทฐ ์ฌํฌ์ ์์ค๊ณผ 2D ํฌ์ฆ, 2D ์ ์ฒด ๋ถ์ ์ธ๊ทธ๋ฉํ ์ด์ , 3D ํฌ์ฆ์ ์ค๊ฐ ๋คํธ์ํฌ ์ง๋๋ฅผ ๊ฒฐํฉํ ์๋ ํฌ ์๋ ํ๋ จ ๊ฐ๋ฅํ BodyNet์ ์ ์
- ํด๋น network๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฉฐ ๋ณผ๋ฅจ ๊ธฐ๋ฐ์ ์ ์ฒด ๋ถ์ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์ ๊ณต
3. BodyNet
: ํ๋์ ์ด๋ฏธ์ง๋ก๋ถํฐ 3D ์ธ์ฒด ํํ๋ฅผ ์์ธกํ๋ฉฐ, 2D ํฌ์ฆ, 2D ์ธ์ฒด ๋ถ์ ์ธ๊ทธ๋ฉํ ์ด์ , 3D ํฌ์ฆ ๋ฐ 3D ํํ๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ ๋ฆฝ์ ์ผ๋ก ํ๋ จ๋ ๋ค ๊ฐ์ ํ์๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋จ
3.1 Volumetric inference for 3D human shape
: 3D voxel grid๋ฅผ ์ ์ํจ
โป voxel
: 3์ฐจ์ ๊ณต๊ฐ์์ ์ ๊ท ๊ฒฉ์ ๋จ์์ ๊ฐ์ ๋ํ๋.
: ๋ถํผ (volume)์ ํฝ์ (pixel)์ ์กฐํฉํ ํผ์ฑ์ด
โก๏ธ 3์ฐจ์์์์ pixel์ ๋ํ๋ธ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋ ๋ฏ
: voxel grid๋ฅผ ๊ณ ์ ๋ ํด์๋ ๊ทธ๋ฆฌ๋๋ก ๋ณํ
: ์ง๊ต ํฌ์์ ๊ฐ์ ํ๊ณ , xy ํ๋ฉด์ด ์ ๋ ฅ ์ด๋ฏธ์ง์ 2D ์ธ๊ทธ๋ฉํ ์ด์ ๋ง์คํฌ์ ๊ณต๊ฐ์ ์ผ๋ก ๋์ํ๋๋ก ๋ณผ๋ฅจ์ ์ฌ์กฐ์ (2D segmenationํ ๊ฒ์ 3D ์์น์ ๋๋ค๋ ๋ง)
: ์ฌ์กฐ์ ํ, ์ธ์ฒด๋ z์ถ์ ๊ธฐ์ค์ผ๋ก ์ค์ฌ์ ์์น (3Dํ)
: ๋๋จธ์ง ๊ณต๊ฐ 0์ผ๋ก ํจ๋ฉ
: ์ ์์คํจ์๋ฅผ ํ์ฉํด์ ๋ฐฐ๊ฒฝ๊ณผ, ์ ์ฒด๋ฅผ ๋ถํ ํจ
: ๋ํ, ๋ค์ค ํด๋์ค ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ์ฌ์ฉํ์ฌ 3D ์ธ์ฒด ๋ถ์ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์ํ : ๋จธ๋ฆฌ, ์์ฒด, ์ข/์ฐ ๋ค๋ฆฌ, ์ข/์ฐ ํ์ ํฌํจํ 6๊ฐ ๋ถ์๋ฅผ ์ ์ํ๊ณ ๋ฐฐ๊ฒฝ์ ํฌํจํ์ฌ 7๊ฐ ํด๋์ค ๋ถ๋ฅ๋ฅผ ํ์ต
โก๏ธ ์ด๋ก์จ, ๋น์ฉ์ด ๋ง์ด ๋๋ SMPL ๋ชจ๋ธ ์ ํฉ์ ๊ฑฐ์น์ง ์๊ณ ๋ ์ง์ ์ ์ผ๋ก 3D ์ธ์ฒด ๋ถ์๋ฅผ ์ถ๋ก ํ ์ ์์
3.2 Multi-view re-projection loss on the silhouette
: 3D ๊ตฌ์ฑ์ ํ๋ค๋ณด๋ฉด, ์ธ์ฒด ์ค์ฌ์ผ๋ก๋ถํฐ ๋จผ ํ๊ณผ ๋ค๋ฆฌ์ ์ ๋ขฐ๋๊ฐ ๋ฎ์์ง๋ ๊ฒฝํฅ์ ๊ด์ฐฐํ ์ ์์
โก๏ธ ๋ฐ๋ผ์, ๊ฒฝ๊ณ ๋ณต์ ์ ์ค์์ฑ์ ์ฆ๊ฐ์ํค๋ ์ถ๊ฐ์ ์ธ 2D ์ฌํ๋ก์ ์ ์์ค์ ์ฌ์ฉ (๋ค์ค ๋ทฐ ์ฌํ๋ก์ ์ ํญ์ด ํ์(๋ค๊ฐ๋์์์ ํฌ์ฆ๋ฅผ ์ฌํ์ต ์ํค๋ ์๋ฏธ)
: ์ง๊ต ํฌ์์ ๊ฐ์ ํจ
1) ์ ๋ทฐ ํฌ์์ธ SˆF V๋ z์ถ์ ๋ฐ๋ผ max ์ฐ์ฐ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋๋ฅผ ์ด๋ฏธ์ง์ ํฌ์ํ์ฌ ์ป์.
2) ์ธก๋ฉด ๋ทฐ ํฌ์์ธ SˆSV๋ x์ถ์ ๋ฐ๋ผ max ์ฐ์ฐ์๋ฅผ ์ฌ์ฉํ์ฌ ์ป์
3.3 Multi-task learning with intermediate supervision
: ์๋ธ๋คํธ์ํฌ์ ์ ๋ ฅ์ RGB, 2D ์์ธ, ์ธ๊ทธ๋ฉํ ์ด์ , ๊ทธ๋ฆฌ๊ณ 3D ์์ธ ์์ธก์ ๊ฒฐํฉํ์ฌ ๊ตฌ์ฑ
: ๊ฐ ์๋ธ๋คํธ์ํฌ์ ์ํคํ ์ฒ๋ stacked hourglass ๋คํธ์ํฌ [1]๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจ
โป stacked hourglass network
: Residual block + top-down ๋๋
: ํ๋์ block์ residual unit์ ์๋ฏธ
: ์ ๋ ฅ๊ฐ์ด ์ต์ resolution์ ๊ฐ๋๋ก residual unit์ ํตํ down sample์ ๊ฑฐ์นจ
: ์ต์ resolution์ ๋๋ฌํ ๋ค์ biliear upsample ๋ฐฉ์์ผ๋ก ์๋ ์ ๋ ฅ๊ฐ ํฌ๊ธฐ๋ก ๋ณต์
: ๋ํ ๋์ผํ ํฌ๊ธฐ์ resolution ๋ผ๋ฆฌ element-wise addition ์ฐ์ฐ์ ์ํํจ
: ์์ ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์น๋ฉด, ์ต์ resolution์ด ์ง๋๊ณ ์๋ ์ผ๊ตด, ์๊ณผ ๊ฐ์ local ์ ๋ณด์ ์๋ ์ ๋ ฅ ํฌ๊ธฐ๊ฐ ์ง๋๊ณ ์๋ ๋ชธ ์ ์ฒด, ์ฌ๋์ ๋ฐฉํฅ, ํ์ ํํ๋ฅผ ํจ๊ป ์ด์ฉํ ์ ์๋ค๊ณ ์๋ค๊ณ ํจ.
- 2D Pose
: 2D ์์ธ์ heatmap ํํ์ ์ฌ์ฉ
: ๊ฐ ์ธ์ฒด ๊ด์ ์ ๋ํด ๊ณ ์ ๋ ๋ถ์ฐ์ ๊ฐ์ง ๊ฐ์ฐ์์์ด ํด๋น ๊ด์ ์ ์ด๋ฏธ์ง ์์น์ ์ค์ฌ์ผ๋ก ์์ธก
: ์ต์ข ๊ด์ ์์น๋ ๊ฐ ์ถ๋ ฅ ์ฑ๋์์ ์ต๋๊ฐ์ ๊ฐ์ง ํฝ์ ์ธ๋ฑ์ค๋ก ํ์ธ
: hourglass ๋คํธ์ํฌ์ ์ฒซ ๋ ์คํ์ ์ฌ์ฉ
: 16๊ฐ์ ์ธ์ฒด ๊ด์ ์ ์์ธก
- 2D Part Segmentation
: ์ํคํ ์ฒ๋ 2D ์์ธ ๋คํธ์ํฌ์ ์ ์ฌํ๋ฉฐ ๋ค์ ์ฒ์ ๋ ์คํ์ ์ฌ์ฉ
๋คํธ์ํฌ๋ ์ ๋ ฅ RGB ์ด๋ฏธ์ง์ ๋ํด ๊ฐ ๋ถ์์ ๋ํ ํ๋์ ํํธ๋งต์ ์์ธก
- 3D Pose
: ๋จ์ผ ์ด๋ฏธ์ง์์ 3D ๊ด์ ์์น๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋ณธ์ง์ ์ผ๋ก ๋ชจํธํ ๋ฌธ์
: ์นด๋ฉ๋ผ ๋ด๋ถ ๋งค๊ฐ๋ณ์๊ฐ ์๋ ค์ ธ ์๋ค๊ณ ๊ฐ์ ํ๊ณ 3D ์์ธ๋ฅผ ์นด๋ฉ๋ผ ์ขํ๊ณ์์ ์์ธกํจ
: 3D ํํธ๋งต์ผ๋ก 2D ํํธ๋งต์ ํ์ฅํ์ฌ ๊ฐ ๊ด์ ์ 3D ์์น๋ฅผ 3D ๊ฐ์ฐ์์์ผ๋ก ๋ํ๋ (2D ํํธ๋งต์ ํ์ฅํด์ 3Dํ ํ๊ฒ ๋ค)
: ๊ฐ ๊ด์ ์ ๋ํด ๋คํธ์ํฌ๋ ๊ด์ ์์น์์ ์ค์ฌ์ผ๋ก ํ๋ ๋จ์ผ 3D ๊ฐ์ฐ์์์ด ์๋ ๊ณ ์ ํด์๋ ๋ณผ๋ฅจ์ ์์ธก
โก๏ธ 3D ๊ทธ๋ฆฌ๋์ xy ์ฐจ์์ ๊ฒฐ๊ตญ ์ด๋ฏธ์ง ์ขํ์ ์ผ์นํ๊ธฐ ๋๋ฌธ์, 2D ๊ด์ ์์น๋ฅผ ๋ํ๋ด๋ฉฐ, z ์ฐจ์์ ๊น์ด๋ฅผ ๋ํ๋
: ๋ณต์ ๊ทธ๋ฆฌ๋๊ฐ 3D ๋ณธ์ฒด์ ์ผ์นํ๋๋ก ํ๊ณ , ๋ฃจํธ ๊ด์ ์ด 3D ๋ณผ๋ฅจ์ ์ค์ฌ์ ํด๋นํ๋๋ก ๊ฐ์
<์ต์ข ํ์ต ๋ฐฉ์>
(i) 2D ์์ธ์ ์ธ๊ทธ๋ฉํ ์ด์ ์ ํ๋ จํฉ๋๋ค.
(ii) ๊ณ ์ ๋ 2D ์์ธ์ ์ธ๊ทธ๋ฉํ ์ด์ ๋คํธ์ํฌ ๊ฐ์ค์น๋ก 3D ์์ธ๋ฅผ ํ๋ จํฉ๋๋ค.
(iii) ์ด์ ์ ๋ชจ๋ ๋คํธ์ํฌ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ 3D ํํ ๋คํธ์ํฌ๋ฅผ ํ๋ จํฉ๋๋ค.
(iv) ๊ทธ๋ฐ ๋ค์, ์ถ๊ฐ ์ฌํ๋ก์ ์ ์์ค๋ก ํํ ๋คํธ์ํฌ๋ฅผ ๊ณ์ ํ๋ จํฉ๋๋ค.
(v) ๋ง์ง๋ง์ผ๋ก ๊ฒฐํฉ๋ ์์ค๋ก ๋ชจ๋ ๋คํธ์ํฌ ๊ฐ์ค์น๋ฅผ ์๋ ํฌ ์๋๋ก ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค
3.4 Fitting a parametric body model
: ํ๊ฐ๋ฅผ ์ํด SMPL ๋ชจ๋ธ์ ์ฌ์ฉ
EXPERIMENTS
4.1 Datasets and evaluation measures
: Dataset์ผ๋ก๋ SURREAL ๊ณผ Unite the People์ ์ฌ์ฉํจ
: ํ๊ฐ์งํ : IOU
4.2 Alternative methods
: BodyNet ์ ๋ ฅ์ ๋ํ fitting(SMPLify++)์ ํ๊ท ์ ์ธ ๋ชจ์๊ณผ ์ ์ฌํ ํํ๋ฅผ ์์ฑ.
: BodyNet์ ์ด๋ฏธ์ง์์ ๊ด์ฐฐ๋ ์ค์ ๋ชจ์์ด ํ๊ท ์ ์ธ ๋ณํ ๊ฐ๋ฅํ ๋ชจ์ ๋ชจ๋ธ์์ ์ด๋ป๊ฒ ๋ฒ์ด๋๋์ง๋ฅผ ํ์ตํจ
: ์ค๊ฐํํ( 2d pose, 2d Segmentation, 3d pose)๋ฅผ ์๋ฏธํจ
: 2d prediction์ด ์คํจํด๋ ๋ค๋ฅธ ์ ๋ณด๋ค์ ์ํธ๋ณด์ํด์ 3D ๋ชธ์ฒด ํํ๋ฅผ ์ถ๋ก ํ๊ธฐ์ 3D ๋ชจ์ ๋ณต๊ตฌ๊ฐ ๊ฐ๋ฅํ๋ค.
4.3 Effect of additional inputs
: ์ถ๊ฐ์ ์ธ 2D ํฌ์ฆ์ ์ธ๋ถํ ์ ๋ ฅ์ผ๋ก ์ด๋ฏธ ํ๋ จ๋ 3D ํฌ์ฆ ๋คํธ์ํฌ๊ฐ ๊ฐ์ฅ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์
: 3D ํฌ์ฆ์ 2D ์ธ๋ถํ๋ฅผ ์ค๊ฐ ํํ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด RGB๋ณด๋ค ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค
4.4 Effect of re-projection error and end-to-end multi-task training
: ์๋ฉด ์ฌํ๋ก๋์ ๊ณผ ์ธก๋ฉด ์ฌํ๋ก๋์ ์ ํ์ ๋ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์๋ค
4.5 Comparison to the state of the art on Unite the People
<์๋ต>
4.6 3D body part segmentation
: ์ต์ GPU๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋น 0.28์ด์ 0.58์ด์ ์๋๋ก BodyNet์ด ์ ๊ฒฝ ๋ฐ ๊ฐ๋ณ ํ๋ค๋ฆฌ ๋ณต์ ์ ์ฑ๊ณต์ ์ผ๋ก ์์ฑํ ์ ์์
: ๋จ์ผ ์ด๋ฏธ์ง์์ 3D ๋ชธ์ฒด ๋ถ์ ๋ผ๋ฒจ๋ง์ ์ํ ์ต์ด์ ์ข ๋จ ๊ฐ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ์๋ ค์ง
: ๋ณํ ๊ฐ๋ฅํ ๋ชจ๋ธ์ ๋ฐ๋ณต์ ์ ํฉ ์์ด๋ ๋คํธ์ํฌ๋ก ์ง์ 3D ๋ชธ์ฒด ๋ถ์๋ฅผ ์ถ๋ก ํ๊ณ ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์
<์ฐธ๊ณ >
https://deep-learning-study.tistory.com/617
https://ko.wikipedia.org/wiki/๋ณต์
'Deep Learning > [๋ ผ๋ฌธ] Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DINO: Emerging Properties in Self-Supervised Vision Transformers (2021) (0) | 2023.08.10 |
---|---|
Expressive Body Capture: 3D Hands, Face, and Body from a Single Image (0) | 2023.08.04 |
mixup: Beyond Emprical Risk Minimization (0) | 2023.08.03 |
SMPLify(Keep it SMPL): Automatic Estimation of 3D Human Pose and Shape from a Single Image (0) | 2023.07.31 |
SMPL: A Skinned Multi-Person Linear Model (0) | 2023.07.28 |