0. Abstract
์ฐ๋ฆฌ๋ ๋๋ฌธ ์ ๋ ฅ ๋ทฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ์์ ์ธ ๋ถํผ ์ฅ๋ฉด ํจ์๋ฅผ ์ต์ ํํ์ฌ ๋ณต์กํ ์ฅ๋ฉด์ ์๋ก์ด ์์ ์ ํฉ์ฑํ๋ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์์ ํ ์ฐ๊ฒฐ๋ (๋น์ ํ) ์ฌ์ธต ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ฅ๋ฉด์ ํํํ๋ฉฐ, ์ ๋ ฅ์ ๋จ์ผ ์ฐ์์ ์ธ 5D ์ขํ (๊ณต๊ฐ ์์น (x, y, z) ๋ฐ ์์ฒญ ๋ฐฉํฅ (θ, φ))์ด๊ณ ์ถ๋ ฅ์ ํด๋น ๊ณต๊ฐ ์์น์์์ ๋ถํผ ๋ฐ๋์ ์์ ์ ์์กดํ๋ ๋ฐฉ์ถ ๋๋์ธ์ค์ ๋๋ค. ์ฐ๋ฆฌ๋ ์นด๋ฉ๋ผ ๊ด์ ์ ๋ฐ๋ผ 5D ์ขํ๋ฅผ ์ฟผ๋ฆฌํ์ฌ ๋ทฐ๋ฅผ ํฉ์ฑํ๊ณ , ์ ํต์ ์ธ ๋ถํผ ๋ ๋๋ง ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ์ถ๋ ฅ ์์๊ณผ ๋ฐ๋๋ฅผ ์ด๋ฏธ์ง๋ก ํฌ์ํฉ๋๋ค. ๋ถํผ ๋ ๋๋ง์ ์์ฐ์ค๋ฝ๊ฒ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ์ ํํ์ ์ต์ ํํ๊ธฐ ์ํด ํ์ํ ์ ์ผํ ์ ๋ ฅ์ ์๋ ค์ง ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ๊ฐ์ง ์ด๋ฏธ์ง ์ธํธ์ ๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ป๊ฒ ์ ๊ฒฝ ๋ฐฉ์ฌํ ํ๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ต์ ํํ์ฌ ๋ณต์กํ ๊ธฐํํ์ ํํ์ ์ธ๊ด์ ๊ฐ์ง ์ฅ๋ฉด์ ์ฌ์ค์ ์ธ ์๋ก์ด ์์ ์ ๋ ๋๋งํ๋์ง ์ค๋ช ํ๋ฉฐ, ์ ๊ฒฝ ๋ ๋๋ง๊ณผ ๋ทฐ ํฉ์ฑ์ ๋ํ ์ด์ ์ฐ๊ตฌ๋ฅผ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋ทฐ ํฉ์ฑ ๊ฒฐ๊ณผ๋ ๋น๋์ค๋ก ํ์ธํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ผ๋ฏ๋ก, ๋ ์๋ค์ด ์ค๋๋ ฅ์๋ ๋น๊ต๋ฅผ ์ํด ๋ถ๋ก ๋น๋์ค๋ฅผ ํ์ธํ๋๋ก ๊ถ์ฅํฉ๋๋ค.
1. Introduction
Fig. 1: ์ฐ๋ฆฌ๋ ์ ๋ ฅ ์ด๋ฏธ์ง ์ธํธ๋ก๋ถํฐ ์ฅ๋ฉด์ ์ฐ์์ ์ธ 5์ฐจ์ ์ ๊ฒฝ ์ ๋ฐ(NeRF) ํํ(๋ถํผ ๋ฐ๋์ ์์ผ์ ๋ฐ๋ฅธ ์์)์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ณผ๋ฅจ ๋ ๋๋ง ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ๊ด์ ์ ๋ฐ๋ผ ์ด ์ฅ๋ฉด ํํ์ ์ํ์ ์ถ์ ํ์ฌ ์ฅ๋ฉด์ ์ด๋ค ์์ ์์๋ ๋ ๋๋งํฉ๋๋ค. ์ฌ๊ธฐ์๋ ํฉ์ฑ๋ ๋๋ผ(Drums) ์ฅ๋ฉด์ 100๊ฐ์ ์ ๋ ฅ ๋ทฐ๋ฅผ ๋ฌด์์๋ก ์บก์ฒํ ๊ฒ์ ์๊ฐํํ๊ณ , ์ต์ ํ๋ NeRF ํํ์์ ๋ ๋๋ง๋ ๋ ๊ฐ์ ์๋ก์ด ๋ทฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ด ์ฐ๊ตฌ์์๋ ์บก์ฒ๋ ์ด๋ฏธ์ง ์ธํธ๋ฅผ ๋ ๋๋งํ๋ ์ค์ฐจ๋ฅผ ์ต์ํํ๊ธฐ ์ํด ์ฐ์์ ์ธ 5์ฐจ์(scene representation)์ ๋งค๊ฐ๋ณ์๋ฅผ ์ง์ ์ต์ ํํ์ฌ ์์ผ ํฉ์ฑ(view synthesis)์ ์ค๋๋ ๋ฌธ์ ๋ฅผ ์๋ก์ด ๋ฐฉ์์ผ๋ก ํด๊ฒฐํฉ๋๋ค. ์ ์ ์ธ ์ฅ๋ฉด์ ๊ณต๊ฐ์ ๊ฐ ์ (x, y, z)์์ ๊ฐ ๋ฐฉํฅ(θ, φ)์ผ๋ก ๋ฐฉ์ถ๋๋ ๊ด๋(radiance)์, ๊ฐ ์ ์์ ๋ฐ๋(density)๋ก ๋ํ๋ ๋๋ค. ๋ฐ๋๋ (x, y, z)๋ฅผ ํต๊ณผํ๋ ๊ด์ ์ ์ํด ์ถ์ ๋๋ ๊ด๋์ ์์ ์กฐ์ ํ๋ ์ฐจ๋ถ ํฌ๋ช ๋(differential opacity)๋ก ์์ฉํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ์ ํ ์ฌ์ฉํ์ง ์๋ ๊น์ fully-connected ์ ๊ฒฝ๋ง (์ผ๋ฐ์ ์ผ๋ก multilayer perceptron ๋๋ MLP๋ก ์๋ ค์ง)์ ์ฌ์ฉํ์ฌ ์ด ํจ์๋ฅผ ํํํ๊ธฐ ์ํด ๋จ์ผ 5์ฐจ์ ์ขํ (x, y, z, θ, φ)์์ ๋จ์ผ ๋ถํผ ๋ฐ๋(volume density)์ ์์ผ์ ๋ฐ๋ฅธ RGB ์์์ ํ๊ทํฉ๋๋ค. ์ด๋ฌํ ์ ๊ฒฝ ์ ๋ฐ(NeRF)์ ํน์ ์์ ์์ ๋ ๋๋งํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ ์ฐจ๋ฅผ ๋ฐ๋ฆ ๋๋ค:
1) ์นด๋ฉ๋ผ ๊ด์ ์ ์ฅ๋ฉด์ ํต๊ณผ์์ผ ์ํ๋ง๋ 3D ์ ์งํฉ์ ์์ฑํฉ๋๋ค.
2) ์ด ์ ๋ค๊ณผ ํด๋นํ๋ 2D ์์ผ ๋ฐฉํฅ์ ์ ๊ฒฝ๋ง์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ์ถ๋ ฅ ์์๊ณผ ๋ฐ๋ ์งํฉ์ ์์ฑํฉ๋๋ค.
3) ํด๋์ํ ๋ณผ๋ฅจ ๋ ๋๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํด๋น ์์๊ณผ ๋ฐ๋๋ฅผ 2D ์ด๋ฏธ์ง๋ก ์ถ์ ํฉ๋๋ค. ์ด ๊ณผ์ ์ ์์ฐ์ค๋ฝ๊ฒ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฏ๋ก, ๊ด์ฐฐ๋ ๊ฐ ์ด๋ฏธ์ง์ ํด๋น ํํ์ผ๋ก๋ถํฐ ๋ ๋๋ง๋ ๋ทฐ ๊ฐ์ ์ค์ฐจ๋ฅผ ์ต์ํํ๊ธฐ ์ํด ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ด ๋ชจ๋ธ์ ์ต์ ํํ ์ ์์ต๋๋ค.
์ฌ๋ฌ ๋ทฐ์์ ์ด ์ค์ฐจ๋ฅผ ์ต์ํํจ์ผ๋ก์จ ๋คํธ์ํฌ๋ ์ง์ง ์ฅ๋ฉด ์ฝํ ์ธ ๋ฅผ ํฌํจํ๋ ์์น์ ๋์ ๋ถํผ ๋ฐ๋์ ์ ํํ ์์์ ํ ๋นํ์ฌ ์ผ๊ด๋ ์ฅ๋ฉด ๋ชจ๋ธ์ ์์ธกํ๋๋ก ์ฅ๋ ค๋ฉ๋๋ค. Figure 2๋ ์ด๋ฌํ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ์๊ฐํํฉ๋๋ค.
์ฐ๋ฆฌ๋ ๋ณต์กํ ์ฅ๋ฉด์ ๋ํ ์ ๊ฒฝ ๋ฐฉ์ฌ๋ ์ ๊ฒฝ ์ ๋ฐ ํํ์ ๊ธฐ๋ณธ ๊ตฌํ์ด ์ถฉ๋ถํ ๊ณ ํด์๋ ํํ์ผ๋ก ์๋ ดํ์ง ์๊ณ , ์นด๋ฉ๋ผ ๊ด์ ๋น ํ์ํ ์ํ ์์ ๋นํจ์จ์ ์ด๋ผ๋ ๋ฌธ์ ์ ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ๋ ฅ 5์ฐจ์ ์ขํ๋ฅผ ์์น ๋ถํธํ๋ก ๋ณํํ์ฌ MLP๊ฐ ๋ ๋์ ์ฃผํ์ ํจ์๋ฅผ ํํํ ์ ์๋๋ก ํ์์ผ๋ฉฐ, ๊ณ ์ฃผํ์ ์ฅ๋ฉด ํํ์ ์ ์ ํ ์ํ๋งํ๊ธฐ ์ํด ๊ณ์ธต์ ์ํ๋ง ์ ์ฐจ๋ฅผ ์ ์ํ์ต๋๋ค.
์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ ์ฒด์ ํํ์ ์ฅ์ ์ ์์ํฉ๋๋ค: ๋ณต์กํ ์ค์ ๊ธฐํํ๊ณผ ์ธ๊ด์ ํจ๊ณผ์ ์ผ๋ก ํํํ ์ ์์ผ๋ฉฐ, ํฌ์๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ์ต์ ํ์ ์ ํฉํฉ๋๋ค. ์ค์ํ ๊ฒ์, ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ๊ณ ํด์๋์์ ๋ณต์กํ ์ฅ๋ฉด์ ๋ชจ๋ธ๋งํ ๋ ์ด์ฐํ๋ ๋ณต์ ๊ทธ๋ฆฌ๋์ ๋น์ฉ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํฉ๋๋ค. ์์ฝํ๋ฉด, ์ฐ๋ฆฌ์ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๊ธฐ๋ณธ MLP ๋คํธ์ํฌ๋ก ๋งค๊ฐ๋ณ์ํ๋ 5์ฐจ์ ์ ๊ฒฝ ๋ฐฉ์ฌ๋ ์ ๊ฒฝ ์ ๋ฐ์ผ๋ก ๋ณต์กํ ๊ธฐํํ๊ณผ ์ฌ๋ฃ๋ฅผ ๊ฐ์ง ์ฐ์์ ์ธ ์ฅ๋ฉด์ ํํํ๋ ๋ฐฉ๋ฒ.
- ๊ณ ์ ์ ์ธ ์ฒด์ ๋ ๋๋ง ๊ธฐ๋ฒ์ ๊ธฐ๋ฐํ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง ์ ์ฐจ๋ก, ์ด๋ฅผ ํตํด ํ์ค RGB ์ด๋ฏธ์ง๋ก๋ถํฐ ์ด๋ฌํ ํํ์ ์ต์ ํํฉ๋๋ค. ์ด์๋ MLP์ ์ฉ๋์ ์์ผ์ ์๋ ์ฅ๋ฉด ์ปจํ ์ธ ์ ํ ๋นํ๊ธฐ ์ํ ๊ณ์ธต์ ์ํ๋ง ์ ๋ต์ด ํฌํจ๋ฉ๋๋ค.
- ์ ๋ ฅ 5์ฐจ์ ์ขํ๋ฅผ ๋ ๋์ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๋ ์์น ๋ถํธํ๋ฅผ ์ฌ์ฉํ์ฌ, ์ฐ๋ฆฌ๋ ๊ณ ์ฃผํ์ ์ฅ๋ฉด ์ฝํ ์ธ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ต์ ํํ ์ ์๊ฒ ๋์์ต๋๋ค.
์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ์ ์ธ ์ ๊ฒฝ ๋ฐฉ์ฌ๋ ์ ๊ฒฝ ์ ๋ฐ ๋ฐฉ๋ฒ์ด ์ค์๊ฐ ๋ทฐ ํฉ์ฑ ๋ฐฉ๋ฒ์ ํฌํจํ ์ต์ฒจ๋จ ๋ฐฉ๋ฒ๋ค์ ์์ , ์ง์ ์ผ๋ก ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ์ ์ฆํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ๊ฒฝ๋ง 3D ํํ์ ์ฅ๋ฉด์ ์ ํฉํํ๋ ์์ ๊ณผ ์ํ๋ง๋ ์ฒด์ ํํ์ ์์ธกํ๊ธฐ ์ํด ์ฌ์ธต ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํ๋ จ์ํค๋ ์์ ์ ํฌํจํฉ๋๋ค. ์ฐ๋ฆฌ๊ฐ ์๊ธฐ๋ก๋ ์ด ๋ ผ๋ฌธ์ ์ค์ ๊ฐ์ฒด์ ์ฅ๋ฉด์ผ๋ก๋ถํฐ ์ดฌ์๋ RGB ์ด๋ฏธ์ง๋ก ๊ณ ํด์๋ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ์ ๊ท ๋ทฐ๋ฅผ ๋ ๋๋งํ๋ ์ฐ์์ ์ธ ์ ๊ฒฝ ์ฅ๋ฉด ํํ์ผ๋ก์ ์ต์ด๋ก ๋ํ๋๋ ๊ฒ์ ๋๋ค.
2. Related Work
์ต๊ทผ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์ ๋งํ ์ฐ๊ตฌ ๋ฐฉํฅ์ MLP์ ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ์ฌ 3D ๊ณต๊ฐ ์์น์์ ํํ์ ์๋ฌต์ ํํ (์: ํด๋น ์์น์ ๋ถํธํ๋ ๊ฑฐ๋ฆฌ [6])์ผ๋ก ์ง์ ๋งคํํ๋ ๊ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ํ์ฌ๊น์ง ์ผ๊ฐํ ๋งค์ฌ๋ ๋ณต์ ๊ทธ๋ฆฌ๋์ ๊ฐ์ ์ด์ฐ์ ํํ์ ์ฌ์ฉํ์ฌ ๋ณต์กํ ๊ธฐํํ์ ์ธ ํ์ค์ ์ธ ์ฅ๋ฉด์ ๋์ผํ ์ ๋ฐ๋๋ก ์ฌํํ ์ ์์์ต๋๋ค. ์ด ์ ์์๋ ์ด ๋ ๊ฐ์ง ์ฐ๊ตฌ ๋ฐฉํฅ์ ๊ฒํ ํ๊ณ , ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ๊ณผ ๋์กฐํฉ๋๋ค. ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์ ์ ๊ฒฝ ์ฅ๋ฉด ํํ์ ๋ฅ๋ ฅ์ ํฅ์์์ผ ๋ณต์กํ ํ์ค์ ์ธ ์ฅ๋ฉด์ ๋ ๋๋งํ๋ ๋ฐ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํฉ๋๋ค.
์ ์ฐจ์ ์ขํ์์ ์์์ผ๋ก ๋งคํํ๊ธฐ ์ํด MLP๋ฅผ ์ฌ์ฉํ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ด๋ฏธ์ง [44], ํ ์ค์ฒ ์ฌ๋ฃ [12,31,36,37], ๊ฐ์ ์กฐ๋ช ๊ฐ [38]๊ณผ ๊ฐ์ ๋ค๋ฅธ ๊ทธ๋ํฝ ๊ธฐ๋ฅ์ ํํํ๋ ๋ฐ์๋ ์ฌ์ฉ๋์์ต๋๋ค.
Neural 3D shape representations
์ต๊ทผ์ ์ฐ๊ตฌ๋ ์ ๊ฒฝ ๋คํธ์ํฌ๋ฅผ ์ต์ ํํ์ฌ xyz ์ขํ๋ฅผ ๋ถํธํ๋ ๊ฑฐ๋ฆฌ ํจ์ [15, 32] ๋๋ ์ ์ ํ๋ [11, 27]๋ก ๋งคํํ๋ ๋ฌต์์ ์ธ 3D ํํ์ ํํ์ ์กฐ์ฌํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ShapeNet [3]๊ณผ ๊ฐ์ ํฉ์ฑ 3D ํํ ๋ฐ์ดํฐ์ ์์ ์ป์ ๊ทธ๋ผ์ด๋ ํธ๋ฃจ์ค 3D ๊ธฐํํ์ ๋ํ ์ ๊ทผ์ด ํ์ํ์ฌ ์ ํ๋์ด ์์ต๋๋ค. ์ดํ์ ์ฐ๊ตฌ๋ ์ ๊ฒฝ ๋ฌต์์ ํํ ํํ์ 2D ์ด๋ฏธ์ง๋ง์ ์ฌ์ฉํ์ฌ ์ต์ ํํ ์ ์๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง ํจ์๋ฅผ ์ ์ํจ์ผ๋ก์จ ์ด๋ฌํ ๊ทธ๋ผ์ด๋ ํธ๋ฃจ์ค 3D ํํ์ ์๊ตฌ ์ฌํญ์ ์ํํ์ต๋๋ค. Niemeyer et al. [29]์ ํ๋ฉด์ 3D ์ ์ ํ๋๋ก ๋ํ๋ด๊ณ ๊ฐ ๊ด์ ์ ๋ํด ํ๋ฉด ๊ต์ฐจ์ ์ ์ฐพ๊ธฐ ์ํด ์์น์ ์ธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ๋ค์ ์์์ ๋ฏธ๋ถ์ ์ฌ์ฉํ์ฌ ์ ํํ ๋ํจ์๋ฅผ ๊ณ์ฐํฉ๋๋ค. ๊ฐ ๊ต์ฐจ์ ์์น๋ ํด๋น ์ง์ ์ ๋ํ ํ์ฐ ์์์ ์์ธกํ๋ ์ ๊ฒฝ 3D ํ ์ค์ฒ ํ๋์ ์ ๋ ฅ์ผ๋ก ์ ๊ณต๋ฉ๋๋ค. Sitzmann et al. [42]์ ๋ ์ง์ ์ ์ธ ์ ๊ฒฝ 3D ํํ์ ์ฌ์ฉํ์ฌ ๊ฐ ์ฐ์์ ์ธ 3D ์ขํ์์ ํน์ง ๋ฒกํฐ์ RGB ์์์ ์ถ๋ ฅํ๊ณ , ํ๋ฉด์ด ์์นํ ๊ณณ์ ๊ฒฐ์ ํ๊ธฐ ์ํด ๊ฐ ๊ด์ ์ ๋ฐ๋ผ ํ์งํ๋ ์ํ ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌ์ฑ๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง ํจ์๋ฅผ ์ ์ํฉ๋๋ค.
์ด๋ฌํ ๊ธฐ์ ๋ค์ ๋ณต์กํ๊ณ ๊ณ ํด์๋์ ๊ธฐํํ์ ํํ๋ฅผ ์ ์ฌ์ ์ผ๋ก ํํํ ์ ์์ง๋ง, ํ์ฌ๊น์ง๋ ๊ธฐํํ์ ๋ณต์ก์ฑ์ด ๋ฎ์ ๊ฐ๋จํ ํํ์๋ง ์ ํ๋์ด ๋ถ๋๋ฝ๊ฒ ๋๋ฌด ๋ง์ด ๋ ๋๋ง๋๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋คํธ์ํฌ๋ฅผ ์ต์ ํํ์ฌ 5D ๋ฐฉ์ฌ๋ ํ๋(2D ๋ทฐ ์ข ์ ์ธ๊ด์ ๊ฐ์ง 3D ๋ณผ๋ฅจ)๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋์์ ์ธ ์ ๋ต์ด ๋ณต์กํ ์ฅ๋ฉด์ ๊ณ ํด์๋ ๊ธฐํํ๊ณผ ์ธ๊ด์ ํํํ์ฌ ์ฌ์ค์ ์ธ ์๋ก์ด ์ฅ๋ฉด์ ๋ ๋๋งํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
View synthesis and image-based rendering
์กฐ๋ฐํ ๋ทฐ ์ํ๋ง์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ, ์ฌ์ค์ ์ธ ์๋ก์ด ๋ทฐ๋ ๊ฐ๋จํ ๊ดํ ํ๋ ์ํ ๋ณด๊ฐ ๊ธฐ์ [21,5,7]์ ์ฌ์ฉํ์ฌ ์ฌ๊ตฌ์ฑ๋ ์ ์์ต๋๋ค. ๋ ์ ์ ๋ทฐ ์ํ๋ง์ ์ฌ์ฉํ ์๋ก์ด ๋ทฐ ํฉ์ฑ์ ์ํด ์ปดํจํฐ ๋น์ ๋ฐ ๊ทธ๋ํฝ์ค ์ปค๋ฎค๋ํฐ์์๋ ๊ด์ธก๋ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ ํต์ ์ธ ๊ธฐํํ์ ๋ฐ ์ธ๊ด ํํ์ ์์ธกํ์ฌ ์๋นํ ์ง์ ์ ์ด๋ฃจ์์ต๋๋ค. ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ ๊ทผ ๋ฐฉ์ ์ค ํ๋๋ ํ์ฐ์ฑ [48] ๋๋ ๋ทฐ ์ข ์ [2,8,49] ์ธ๊ด์ ๊ฐ์ง ๋ฉ์ ๊ธฐ๋ฐ ์ฅ๋ฉด ํํ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค. ๋ค์ ํ์ค์ ์ธ ๋ฐฉ์์ผ๋ก ๋ง์ด ์ฌ์ฉ๋๋ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง ์ธํธ๋ฅผ ์ฌํํ๊ธฐ ์ํด ๋ฉ์ ํํ์ ์ง์ ์ต์ ํํ๋ ์ฐจ๋ณํ ๋ ์คํฐํ๊ธฐ [4,10,23,25] ๋๋ ๊ฒฝ๋ก ํธ๋ ์ด์ [22,30]๊ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฏธ์ง ์ฌํฌ์์ ๊ธฐ๋ฐํ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ๋ฉ์ ์ต์ ํ๋ ์ข ์ข ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ์ด๋ฌํ ์ ๋ต์ ์ต์ ํ ์ ์ ๊ณ ์ ๋ ํ ํด๋ก์ง๋ฅผ ๊ฐ์ง ํ ํ๋ฆฟ ๋ฉ์๋ฅผ ์ ๊ณตํด์ผ ํ๋ฏ๋ก [22], ์์ ๋ก์ด ์ค์ ์ธ๊ณ ์ฅ๋ฉด์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ๋ฐฉ์์ ๋ฉ์๋๋ ์ ๋ ฅ RGB ์ด๋ฏธ์ง ์ธํธ๋ก๋ถํฐ ๊ณ ํ์ง ์ฌ์ค์ ์ธ ๋ทฐ ํฉ์ฑ์ ์ํด ๋ถํผ ํํ์ ์ฌ์ฉํฉ๋๋ค. ๋ถํผ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๋ณต์กํ ํํ์ ์ฌ๋ฃ๋ฅผ ์ฌ์ค์ ์ผ๋ก ํํํ ์ ์์ผ๋ฉฐ ๊ฒฝ์ฌ ๊ธฐ๋ฐ ์ต์ ํ์ ์ ํฉํ๋ฉฐ ๋ฉ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ์๊ฐ์ ์ผ๋ก ํ์ ํ๊ฒ ๋ ๋ฐฉํด๋๋ ์ํฐํฉํธ๋ฅผ ์์ฑํฉ๋๋ค. ์ด๊ธฐ์ ๋ถํผ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๊ด์ธก๋ ์ด๋ฏธ์ง๋ฅผ ์ง์ ์ ์ผ๋ก ์์น ํ๊ธฐ ์ํด ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋๋ฅผ ์ฌ์ฉํ์ต๋๋ค [19,40,45]. ์ต๊ทผ์๋ ์ฌ๋ฌ ์ฅ๋ฉด์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ๋ฅ ๋คํธ์ํฌ๋ฅผ ํ๋ จ์์ผ ์ ๋ ฅ ์ด๋ฏธ์ง ์ธํธ๋ก๋ถํฐ ์ํ๋ง ๋ ๋ถํผ ํํ์ ์์ธกํ๊ณ ์ํ ์์ ์ํ ํฉ์ฑ [34] ๋๋ ๋ ์ด์ ๋ฐ๋ฅธ ํฉ์ฑ์ ์ฌ์ฉํ์ฌ ์๋ก์ด ๋ทฐ๋ฅผ ๋ ๋๋งํ๋ ๋ช ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์ ์๋์์ต๋๋ค. ๋ค๋ฅธ ์์ ์์๋ ํน์ ์ฅ๋ฉด์ ๋ํด ํฉ์ฑ๋ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋์ ํฉ์ฑ ๋คํธ์ํฌ (CNN)์ ์กฐํฉ์ ์ต์ ํํ์ฌ CNN์ด ๋ฎ์ ํด์๋ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋๋ก๋ถํฐ ์ด์ฐํ ์ํฐํฉํธ๋ฅผ ๋ณด์ํ๊ฑฐ๋ ์ ๋ ฅ ์๊ฐ ๋๋ ์ ๋๋ฉ์ด์ ์ ์ด์ ๋ฐ๋ผ ์์ธก๋ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋๋ฅผ ๋ณ๊ฒฝํ ์ ์๋๋ก ํ์ต๋๋ค [41,24]. ์ด๋ฌํ ๋ถํผ ๊ธฐ๋ฐ ๊ธฐ์ ์ ์๋ก์ด ๋ทฐ ํฉ์ฑ์ ๋๋ผ์ด ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋์ง๋ง, ์ด์ฐ์ ์ํ๋ง์ผ๋ก ์ธํด ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ก์ ํ์ฅ ๋ฅ๋ ฅ์ ์๊ฐ ๋ฐ ๊ณต๊ฐ ๋ณต์ก๋์ ์ ํ์ผ๋ก ์ธํด ๊ทผ๋ณธ์ ์ผ๋ก ์ ํ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ธต ์์ ์ฐ๊ฒฐํ ์ ๊ฒฝ๋ง์ ๋งค๊ฐ ๋ณ์ ๋ด์์ ์ฐ์์ ์ธ ๋ณผ๋ฅจ์ ์ธ์ฝ๋ฉํจ์ผ๋ก์จ ์ด๋ฅผ ํํผํฉ๋๋ค. ์ด๋ ์ด์ ์ ๋ถํผ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์๋ณด๋ค ํจ์ฌ ๋์ ํ์ง์ ๋ ๋๋ง์ ์ ๊ณตํ๋ฉฐ, ์ํ๋ง๋ ๋ถํผ ํํ์ ๋นํด ์ ์ฅ ๋น์ฉ์ด ๋งค์ฐ ์ ๊ฒ ๋ญ๋๋ค.
3. Neural Radiance Field Scene Representation
Fig. 2: ์ฐ๋ฆฌ์ ์ ๊ฒฝ ๋ฐฉ์ฌ๋์ฅ(Scene) ํํ๊ณผ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง ๊ณผ์ ๊ฐ์์ ๋๋ค. ์ฐ๋ฆฌ๋
(a)์นด๋ฉ๋ผ ๋ ์ด๋ฅผ ๋ฐ๋ผ 5D ์ขํ(์์น์ ๋ทฐ ๋ฐฉํฅ)๋ฅผ ์ํ๋งํ๊ณ ,
(b)์ด๋ฌํ ์์น๋ฅผ MLP์ ์ ๋ ฅํ์ฌ ์์๊ณผ ๋ถํผ ๋ฐ๋๋ฅผ ์์ฑํฉ๋๋ค.
(c)์ดํ ๋ณผ๋ฅจ ๋ ๋๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ด๋ฌํ ๊ฐ๋ค์ ์ด๋ฏธ์ง๋ก ๋ณตํฉํฉ๋๋ค.
(d)์ด ๋ ๋๋ง ํจ์๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฏ๋ก ํฉ์ฑ๋ ์ด๋ฏธ์ง์ ์ค์ ๊ด์ฐฐ๋ ์ด๋ฏธ์ง ๊ฐ์ ์์ฐจ๋ฅผ ์ต์ํํ์ฌ ์ฅ๋ฉด ํํ์ ์ต์ ํํ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ๋ ์ฐ์์ ์ธ ์ฅ๋ฉด์ 5D ๋ฒกํฐ ๊ฐ ํจ์๋ก ํํํฉ๋๋ค. ์ด ํจ์๋ 3D ์์น x = (x, y, z)์ 2D ๋ทฐ ๋ฐฉํฅ (θ, φ)์ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ , ๋ฐฉ์ถ๋ ์์ c = (r, g, b)๊ณผ ๋ถํผ ๋ฐ๋ σ๋ฅผ ์ถ๋ ฅ์ผ๋ก ๋ด๋ณด๋ ๋๋ค. ์ค์ ๋ก๋ ๋ฐฉํฅ์ 3D ์นดํ ์์ ๋จ์ ๋ฒกํฐ d๋ก ํํํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด ์ฐ์์ ์ธ 5D ์ฅ๋ฉด ํํ์ MLP ๋คํธ์ํฌ FΘ : (x, d) → (c, σ)๋ก ๊ทผ์ฌํํ๊ณ , ๊ฐ์ค์น Θ๋ฅผ ์ต์ ํํ์ฌ ๊ฐ ์ ๋ ฅ 5D ์ขํ์ ํด๋นํ๋ ๋ถํผ ๋ฐ๋์ ๋ฐฉํฅ์ฑ์ด ์๋ ๋ฐฉ์ถ ์์์ ๋งคํํฉ๋๋ค.
์ฐ๋ฆฌ๋ ํํ์ด ๋ค์ค ๋ทฐ ์ผ๊ด์ฑ์ ๊ฐ์ง๋๋ก ์ฅ๋ คํ๊ธฐ ์ํด ๋คํธ์ํฌ๊ฐ ๋ถํผ ๋ฐ๋ σ๋ฅผ ์์น x๋ง์ ํจ์๋ก ์์ธกํ๋๋ก ์ ํํ๊ณ , RGB ์์ c๊ฐ ์์น์ ๋ทฐ ๋ฐฉํฅ ๋ชจ๋์ ํจ์๋ก ์์ธก๋ ์ ์๋๋ก ํ์ฉํฉ๋๋ค. ์ด๋ฅผ ์ํด MLP FΘ๋ ๋จผ์ ์ ๋ ฅ 3D ์ขํ x๋ฅผ 8๊ฐ์ ์์ ์ฐ๊ฒฐ์ธต (ReLU ํ์ฑํ ํจ์์ ๊ฐ ์ธต๋น 256๊ฐ์ ์ฑ๋)๋ก ์ฒ๋ฆฌํ๊ณ , σ์ 256์ฐจ์์ ํน์ง ๋ฒกํฐ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ด ํน์ง ๋ฒกํฐ๋ ๊ทธ ํ์ ์นด๋ฉ๋ผ ๋ ์ด์ ๋ทฐ ๋ฐฉํฅ๊ณผ ์ฐ๊ฒฐ๋์ด ํ๋์ ์ถ๊ฐ์ ์ธ ์์ ์ฐ๊ฒฐ์ธต (ReLU ํ์ฑํ ํจ์์ 128๊ฐ์ ์ฑ๋)์ ํต๊ณผํ๋ฉฐ ๋ทฐ ๋ฐฉํฅ ์ข ์์ ์ธ RGB ์์์ ์ถ๋ ฅํฉ๋๋ค.
๋น Lambertian ํจ๊ณผ๋ฅผ ํํํ๊ธฐ ์ํด ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ด ์ ๋ ฅ ๋ทฐ ๋ฐฉํฅ์ ์ฌ์ฉํ๋ ์์๋ Fig. 3์์ ํ์ธํ ์ ์์ต๋๋ค. Fig. 4์์๋ ๋ทฐ ์ข ์์ฑ ์์ด ํ๋ จ๋ ๋ชจ๋ธ์ด ๋ฐ์ฌ๋ฅผ ํํํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
4. Volume Rendering with Radiance Fields
Fig. 3: ์์ผ์ ๋ฐ๋ผ ๋ฐ์ํ๋ ๋ฐฉํฅ์ฑ์ ์์กดํ๋ ๋ฐฉ์ถ๋ ๊ด๋์ ์๊ฐํ. ์ฐ๋ฆฌ์ ์ ๊ฒฝ ๋ฐฉ์ฌํ ํ๋ ํํ์ ๊ณต๊ฐ ์์น x์ ์์ผ ๋ฐฉํฅ d์ 5D ํจ์๋ก RGB ์์์ ์ถ๋ ฅํฉ๋๋ค. ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ์ ๋ฐ ์ฅ๋ฉด์ ์ ๊ฒฝ ํํ์์ ๋ ๊ฐ์ง ๊ณต๊ฐ ์์น์ ๋ํ ์์ ๋ฐฉํฅ์ฑ ์์ ๋ถํฌ๋ฅผ ์๊ฐํํฉ๋๋ค. (a)์ (b)์์๋ ๋ ๊ฐ์ ๋ค๋ฅธ ์นด๋ฉ๋ผ ์์น์์ ๋ ๊ฐ์ ๊ณ ์ ๋ 3D ์ง์ ์ ์ธ๊ด์ ๋ณด์ฌ์ค๋๋ค: ์ ๋ฐ์ ์ธก๋ฉด (์ฃผํฉ์ ์ฝ์ ๊ทธ๋ฆผ)๊ณผ ๋ฌผ ํ๋ฉด (ํ๋์ ์ฝ์ ๊ทธ๋ฆผ)์ ์์นํ ์ง์ ์ ๋๋ค. ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ด ๋ ๊ฐ์ 3D ์ง์ ์ ๋ณํํ๋ ๋ฐ์ฌ ์ธ๊ด์ ์์ธกํ๋ฉฐ, (c)์์๋ ์ด๋ฌํ ํน์ฑ์ด ์์ผ ๋ฐฉํฅ์ ์ ์ฒด ๋ฐ๊ตฌ์ ์ฐ์์ ์ผ๋ก ์ผ๋ฐํ๋๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
์ฐ๋ฆฌ์ 5D ์ ๊ฒฝ ๋ฐฉ์ฌํ ํ๋๋ ์ฅ๋ฉด์ ๊ณต๊ฐ์ ์ด๋ค ์ ์์์ ๋ถํผ ๋ฐ๋์ ๋ฐฉํฅ์ ์ํด ๋ฐฉ์ถ๋๋ ๊ด์์ผ๋ก ํํํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๊ณ ์ ์ ์ธ ๋ถํผ ๋ ๋๋ง ์๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ฅ๋ฉด์ ํต๊ณผํ๋ ๊ด์ ์ ์์์ ๋ ๋๋งํฉ๋๋ค. ๋ถํผ ๋ฐ๋ σ(x)๋ ๊ด์ ์ด ์์น x์์ ๋ฌดํ์ ์ ์์ ๋๋ฌํ๋ ํ๋ฅ ์ ๋ํ๋ ๋๋ค. ๊ทผ์ฒ์ ๋จผ ๊ฒฝ๊ณ tn๊ณผ tf๋ฅผ ๊ฐ์ง ์นด๋ฉ๋ผ ๊ด์ r(t) = o + td์ ์์ ์์ C(r)๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค:
์ฌ๊ธฐ์ T(t) = exp[-∫t tn σ(r(s))ds]๋ ๊ทผ์ฒ tn๋ถํฐ t๊น์ง์ ๊ด์ ์ด ๋ค๋ฅธ ์ ์์ ์ถฉ๋ํ์ง ์๊ณ tn๋ถํฐ t๊น์ง ์ด๋ํ ํ๋ฅ ์ ๋ํ๋ ๋๋ค. ์ฐ์์ ์ธ ์ ๊ฒฝ ๋ฐฉ์ฌํ ํ๋์์ ๋ทฐ๋ฅผ ๋ ๋๋งํ๊ธฐ ์ํด์๋ ๊ฐ์ ์นด๋ฉ๋ผ์ ํฝ์ ์ ํต๊ณผํ๋ ๊ฐ ์นด๋ฉ๋ผ ๊ด์ ์ ๋ํด ์ด ์ ๋ถ C(r)์ ์ถ์ ํด์ผ ํฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ด ์ฐ์์ ์ธ ์ ๋ถ์ ์์น์ ์ผ๋ก ์ ๋ถ๋ฒ์ ์ฌ์ฉํ์ฌ ์ถ์ ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๊ฒฐ์ ๋ก ์ ์ธ ์ ๋ถ๋ฒ์ด ์๋ ๊ณ์ธต์ ์ํ๋ง ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ์ฐ๋ฆฌ๋ [tn, tf]๋ฅผ N๊ฐ์ ๋์ผํ ๊ฐ๊ฒฉ์ผ๋ก ๊ตฌ๊ฐ์ ๋๋ ํ ๊ฐ ๊ตฌ๊ฐ์์ ๊ท ์ผํ ๋ฌด์์ ์ํ์ ํ๋์ฉ ๋ฝ์ต๋๋ค:
์ ๋ถ์ ์ถ์ ํ๊ธฐ ์ํด ์ด์ฐ์ ์ธ ์ํ ์ธํธ๋ฅผ ์ฌ์ฉํ์ง๋ง, ๊ณ์ธตํ๋ ์ํ๋ง์ ์ต์ ํ ๊ณผ์ ์์ MLP๊ฐ ์ฐ์์ ์ธ ์์น์์ ํ๊ฐ๋๋๋ก ํด ์ฐ์์ ์ธ ์ฅ๋ฉด ํํ์ ๋ํ๋ผ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ์ํ์ ์ฌ์ฉํ์ฌ ์ ๋ถ C(r)์ Max์ ๋ถํผ ๋ ๋๋ง ๋ฆฌ๋ทฐ์์ ๋ ผ์๋ ์ ๋ถ ๊ท์น์ ์ฌ์ฉํ์ฌ ์ถ์ ํฉ๋๋ค [26]:
์ฌ๊ธฐ์ Ti = exp[-∑(i-1)j=1 σjδj]๋ i๋ฒ์งธ ์ํ๊น์ง์ ๋์ ํฌ๊ณผ๋๋ฅผ ๋ํ๋ด๋ฉฐ, δi = ti+1 - ti๋ ์ธ์ ํ ์ํ ์ฌ์ด์ ๊ฑฐ๋ฆฌ์ ๋๋ค. ์ด (ci, σi) ๊ฐ๋ค๋ก๋ถํฐ Cˆ(r)๋ฅผ ๊ณ์ฐํ๋ ์ด ํจ์๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฉฐ, αi = 1 - exp(-σiδi)๋ก ์ ์๋ ์ ํต์ ์ธ ์ํ ํฉ์ฑ๊ณผ ๋์ผํฉ๋๋ค.
Fig. 4: ์ด ๊ทธ๋ฆผ์์๋ ์ฐ๋ฆฌ์ ์ ์ฒด ๋ชจ๋ธ์ด ๋ฐฉํฅ์ ์์กดํ๋ ๋ฐฉ์ถ ๊ด๋์ ๊ณ ์ฃผํ์ ์์น ์ธ์ฝ๋ฉ์ ํต๊ณผํจ์ผ๋ก์จ ์ด๋ป๊ฒ ์ด์ ์ ์ป๋์ง ์๊ฐํํฉ๋๋ค. ๋ฐฉํฅ ์์กด์ฑ์ ์ ๊ฑฐํ๋ฉด ๋ชจ๋ธ์ด ๋ถ๋์ ํธ๋ ๋์ ๋ฐ์ฌ ๊ด์ ์ ์ฌํํ์ง ๋ชปํ๊ฒ ๋ฉ๋๋ค. ์์น ์ธ์ฝ๋ฉ์ ์ ๊ฑฐํ๋ฉด ๊ณ ์ฃผํ์ ์ง์ค๋ฉํธ๋ฆฌ์ ์ง๊ฐ์ ํํํ๋ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ๊ฐ์ํ์ฌ ๋๋ฌด ๋งค๋๋ฌ์ด ์ธ๊ด์ด ๋๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํฉ๋๋ค.
5. Optimizing a Neural Radiance Field
์ด์ ์น์ ์์๋ ์ ๊ฒฝ ๋ฐฉ์ถ ๊ด๋ ํ๋๋ก ์ฅ๋ฉด์ ๋ชจ๋ธ๋งํ๊ณ ์ด ํํ์์ ์๋ก์ด ๋ทฐ๋ฅผ ๋ ๋๋งํ๊ธฐ ์ํด ํ์ํ ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ์ค๋ช ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ตฌ์ฑ ์์๋ง์ผ๋ก๋ ์ต์ฒจ๋จ ํ์ง์ ๋ฌ์ฑํ๊ธฐ์ ์ถฉ๋ถํ์ง ์๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค(์น์ 6.4์์ ์์ฐํ์ต๋๋ค). ์ฐ๋ฆฌ๋ ๊ณ ํด์๋ ๋ณต์กํ ์ฅ๋ฉด์ ํํํ ์ ์๋๋ก ๋ ๊ฐ์ง ๊ฐ์ ์ ๋์ ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ๋ ์ ๋ ฅ ์ขํ์ ์์น ์ธ์ฝ๋ฉ์ผ๋ก์ MLP๊ฐ ๊ณ ์ฃผํ์ ํจ์๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํํํ๋ ๋ฐ ๋์์ ์ค๋๋ค. ๋ ๋ฒ์งธ๋ ๊ณ ์ฃผํ์ ํํ์ ํจ์จ์ ์ผ๋ก ์ํ๋งํ ์ ์๋ ๊ณ์ธต์ ์ํ๋ง ์ ์ฐจ์ ๋๋ค.
5.1 Positional encoding
์ ๊ฒฝ๋ง์ด ๋ฒ์ฉ ํจ์ ๊ทผ์ฌ๊ธฐ(Universal Function Approximator)๋ผ๋ ์ฌ์ค์๋ ๋ถ๊ตฌํ๊ณ , ์ฐ๋ฆฌ๋ ๋คํธ์ํฌ FΘ๊ฐ ์ง์ xyzθφ ์ ๋ ฅ ์ขํ์ ์์ฉํ๋ ๊ฒ์ ๊ณ ์ฃผํ์ ์์๊ณผ ๊ธฐํํ์ ๋ณ๋์ ์ ํํํ์ง ๋ชปํ๋ ๋ ๋๋ง ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์ด๋ ์ต๊ทผ Rahaman ๋ฑ์ ์ฐ๊ตฌ [35]์ ์ผ๊ด์ฑ์ด ์์ผ๋ฉฐ, ๊ทธ ์ฐ๊ตฌ๋ ์ฌ์ธต ์ ๊ฒฝ๋ง์ด ๋ฎ์ ์ฃผํ์ ํจ์๋ฅผ ํ์ตํ๋ ๋ฐ ํธํฅ๋์ด ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ, ์ ๋ ฅ์ ๊ณ ์ฃผํ์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ ํ ๋คํธ์ํฌ๋ก ์ ๋ฌํ๋ ๊ฒ์ด ๊ณ ์ฃผํ์ ๋ณ๋์ ํฌํจํ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ ํฉ์ํฌ ์ ์์์ ๋ณด์์ต๋๋ค.
์ฐ๋ฆฌ๋ ์ด๋ฌํ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ฒฝ์ฅ๋ฉด ํํ์ ๋งฅ๋ฝ์์ ํ์ฉํ๊ณ , FΘ๋ฅผ ๋ ๊ฐ์ ํจ์ FΘ = F0Θ โฆ γ๋ก ์ฌ๊ตฌ์ฑํ์ฌ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค(๊ทธ๋ฆผ 4์ ํ ์ด๋ธ 2 ์ฐธ์กฐ). ์ฌ๊ธฐ์ γ๋ R์ ๋ ๋์ ์ฐจ์์ ๊ณต๊ฐ์ธ R 2L๋ก ๋งคํํ๋ ํจ์์ด๊ณ , F0Θ๋ ์ฌ์ ํ ์ผ๋ฐ์ ์ธ MLP์ ๋๋ค. ํ์์ ์ผ๋ก, ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ์ธ์ฝ๋ฉ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
์ด ํจ์ γ(·)๋ x์ ๊ฐ ์ขํ๊ฐ๊ณผ ์นด๋ฅดํ ์์ ๋ฐฉํฅ ๋จ์ ๋ฒกํฐ d์ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ์์์ ๊ฐ๊ฐ ๋ณ๋๋ก ์ ์ฉ๋ฉ๋๋ค(x์ ์ขํ๊ฐ์ [−1, 1]๋ก ์ ๊ทํ๋ฉ๋๋ค). ์ฐ๋ฆฌ์ ์คํ์์๋ γ(x)์ ๋ํด L = 10, γ(d)์ ๋ํด L = 4๋ก ์ค์ ํ์ต๋๋ค.
์ด์ ์ ์ฌํ ๋งคํ์ ์ธ๊ธฐ ์๋ Transformer ์ํคํ ์ฒ [47]์์ ์ฌ์ฉ๋๋ฉฐ, ์ด๋ฅผ ์์น ์ธ์ฝ๋ฉ(positional encoding)์ด๋ผ๊ณ ํฉ๋๋ค. ๊ทธ๋ฌ๋ Transformer๋ ์์ ๊ฐ๋ ์ด ์๋ ์ํคํ ์ฒ์ ์ํ์ค์ ํ ํฐ๋ค์ ์ด์ฐ์ ์ธ ์์น๋ฅผ ์ ๋ ฅ์ผ๋ก ์ ๊ณตํ๋ ๋ค๋ฅธ ๋ชฉํ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ๋์กฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ์ด๋ฌํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ์์ ์ธ ์ ๋ ฅ ์ขํ๋ฅผ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ฌ MLP๊ฐ ๊ณ ์ฃผํ์ ํจ์๋ฅผ ๋ ์ฝ๊ฒ ๊ทผ์ฌํํ ์ ์๋๋ก ํฉ๋๋ค. ๋จ๋ฐฑ์ง ๊ตฌ์กฐ๋ฅผ ํฌ์์ผ๋ก๋ถํฐ ๋ชจ๋ธ๋งํ๋ ๊ด๋ จ ๋ฌธ์ ์ ๋ํ ๋์ ์ฐ๊ตฌ [51]๋ ์ ์ฌํ ์ ๋ ฅ ์ขํ ๋งคํ์ ํ์ฉํฉ๋๋ค.
5.2 Hierarchical volume sampling
์ฐ๋ฆฌ์ ๋ ๋๋ง ์ ๋ต์ ๊ฐ ์นด๋ฉ๋ผ ๊ด์ ์ ๋ฐ๋ผ N๊ฐ์ ์ฟผ๋ฆฌ ์ง์ ์์ ์ ๊ฒฝ ๋ฐฉ์ฌ๋ ํ๋ ๋คํธ์ํฌ๋ฅผ ๋ฐ๋ ์๊ฒ ํ๊ฐํ๋ ๊ฒ์ ๋นํจ์จ์ ์ ๋๋ค. ๋ ๋๋ง๋ ์ด๋ฏธ์ง์ ๊ธฐ์ฌํ์ง ์๋ ๋น ๊ณต๊ฐ๊ณผ ๊ฐ๋ ค์ง ์์ญ๋ ๋ฐ๋ณต์ ์ผ๋ก ์ํ๋ง๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ณผ๋ฅจ ๋ ๋๋ง์ ์ด๊ธฐ ์์ ์์ ์๊ฐ์ ๋ฐ์ ์์๋๋ ๋ ๋๋ง์ ๋ํ ์ํ์ ํจ๊ณผ์ ๋น๋กํ์ฌ ์ํ์ ํ ๋นํ์ฌ ๋ ๋๋ง ํจ์จ์ฑ์ ํฅ์์ํค๋ ๊ณ์ธต์ ํํ์ ์ ์ํฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ฅ๋ฉด์ ํํํ๊ธฐ ์ํด ๋จ์ผ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ ๋์ ๋ ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ๋์์ ์ต์ ํํฉ๋๋ค: ํ๋๋ "๊ฑฐ์น(coarse)" ๋คํธ์ํฌ์ด๊ณ ๋ค๋ฅธ ํ๋๋ "์ธ๋ฐ(fine)" ๋คํธ์ํฌ์ ๋๋ค. ์ฐ๋ฆฌ๋ ๋จผ์ ๊ณ์ธต์ ์ํ๋ง์ ์ฌ์ฉํ์ฌ Nc๊ฐ์ ์์น๋ฅผ ์ํ๋งํ๊ณ , ์์์ ์ค๋ช ํ๋๋ก ์ด๋ฌํ ์์น์์ "๊ฑฐ์น(coarse)" ๋คํธ์ํฌ๋ฅผ ํ๊ฐํฉ๋๋ค. ์ด "๊ฑฐ์น(coarse)" ๋คํธ์ํฌ์ ์ถ๋ ฅ์ ์ฌ์ฉํ์ฌ ๊ด์ ์ ๋ฐ๋ผ ์ ๋ค์ ๋ ์ ๊ตํ ์ํ๋ง์ ์์ฑํฉ๋๋ค. ์ด ์ํ์ ๋ณผ๋ฅจ์ ๊ด๋ จ ๋ถ๋ถ์ ์ค์ฌ์ผ๋ก ํธํฅ๋์ด ์์ต๋๋ค. ์ด๋ฅผ ์ํด "๊ฑฐ์น(coarse)" ๋คํธ์ํฌ์์์ ์ํ ์ปดํฌ์งํธ๋ ์์ Cˆc(r)์ Eqn. 3์ ๋ชจ๋ ์ํ ์์ ci์ ๊ฐ์คํฉ์ผ๋ก ๋ค์ ์์ฑํฉ๋๋ค.
์ด๋ฌํ ๊ฐ์ค์น๋ฅผ ์ ๊ทํํ๋ฉด ˆwi = wi / PNc j=1 wj๋ก ๊ด์ ์ ๋ฐ๋ผ ์กฐ๊ฐ๋ณ๋ก ์ผ์ ํ ํ๋ฅ ๋ฐ๋ํจ์(PDF)๊ฐ ์์ฑ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ญ๋ณํ ์ํ๋ง์ ์ฌ์ฉํ์ฌ ์ด ๋ถํฌ์์ ๋ ๋ฒ์งธ๋ก Nf๊ฐ์ ์์น๋ฅผ ์ํ๋งํ๊ณ , ์ฒซ ๋ฒ์งธ์ ๋ ๋ฒ์งธ ์ํ์ ํฉ์งํฉ์์ "์ธ๋ฐ(fine)" ๋คํธ์ํฌ๋ฅผ ํ๊ฐํ๊ณ , ๋ชจ๋ Nc+Nf ๊ฐ์ ์ํ์ ์ฌ์ฉํ์ฌ ๊ด์ ์ ์ต์ข ๋ ๋๋ง๋ ์์ Cˆf (r)์ ๊ณ์ฐํฉ๋๋ค. ์ด ์ ์ฐจ๋ ๊ฐ์์ ์ธ ์ฝํ ์ธ ๊ฐ ์๋ ์์ญ์ ๋ ๋ง์ ์ํ์ ํ ๋นํฉ๋๋ค. ์ด๋ ์ค์๋ ์ํ๋ง๊ณผ ์ ์ฌํ ๋ชฉํ๋ฅผ ํด๊ฒฐํ์ง๋ง, ์ฐ๋ฆฌ๋ ๊ฐ ์ํ์ ์ ์ฒด ์ ๋ถ์ ๋ ๋ฆฝ์ ์ธ ํ๋ฅ ์ ์ถ์ ๊ฐ์ผ๋ก ๋ค๋ฃจ๋ ๋์ ์ํ๋ ๊ฐ์ ์ ์ฒด ์ ๋ถ ์์ญ์ ๋น๊ท ์ผํ ์ด์ฐํ๋ก ์ฌ์ฉํฉ๋๋ค.
5.3 Implementation details
์ฐ๋ฆฌ๋ ๊ฐ๊ฐ์ ์ฅ๋ฉด์ ๋ํด ๋ณ๋์ ์ ๊ฒฝ๋ง ์ฐ์์ ์ธ ๋ณผ๋ฅจ ํํ ๋คํธ์ํฌ๋ฅผ ์ต์ ํํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฅ๋ฉด์ ์บก์ฒ๋ RGB ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ , ํด๋นํ๋ ์นด๋ฉ๋ผ ํฌ์ฆ์ ๋ด๋ถ ๋งค๊ฐ๋ณ์, ๊ทธ๋ฆฌ๊ณ ์ฅ๋ฉด ๊ฒฝ๊ณ๊ฐ ํ์ํฉ๋๋ค(์ค์ ๋ฐ์ดํฐ์ ๋ํด์๋ COLMAP ๊ตฌ์กฐ๋ก๋ถํฐ ์ฐ๋ฆฌ๋ ์นด๋ฉ๋ผ ํฌ์ฆ, ๋ด๋ถ ๋งค๊ฐ๋ณ์ ๋ฐ ๊ฒฝ๊ณ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ์ฌ์ฉํฉ๋๋ค). ๊ฐ ์ต์ ํ ๋ฐ๋ณต์์ ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ ๋ชจ๋ ํฝ์ ์์ ๋ฌด์์๋ก ์นด๋ฉ๋ผ ๊ด์ ์ ๋ฐฐ์น๋ฅผ ์ํ๋งํ๊ณ , Sec. 5.2์์ ์ค๋ช ํ ๊ณ์ธต์ ์ํ๋ง์ ๋ฐ๋ผ coarse ๋คํธ์ํฌ๋ก๋ถํฐ Nc ๊ฐ์ ์ํ์ ์ฟผ๋ฆฌํ๊ณ fine ๋คํธ์ํฌ๋ก๋ถํฐ Nc + Nf ๊ฐ์ ์ํ์ ์ฟผ๋ฆฌํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ Sec. 4์์ ์ค๋ช ํ ๋ณผ๋ฅจ ๋ ๋๋ง ์ ์ฐจ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ๊ด์ ์ ์์์ ๋ ์ธํธ์ ์ํ์์ ๋ ๋๋งํฉ๋๋ค. ์์ค์ ๊ฐ๋จํ coarse์ fine ๋ ๋๋ง์ ๋ ๋๋ง๋ ํฝ์ ์์๊ณผ ์ค์ ์์ ๊ฐ์ ์ด ์ ๊ณฑ ์ค์ฐจ์ ๋๋ค.
์ฌ๊ธฐ์ R์ ๊ฐ ๋ฐฐ์น์ ๊ด์ ์งํฉ์ ๋ํ๋ด๊ณ , C(r), Cˆc(r) ๋ฐ Cˆf (r)๋ ๊ฐ๊ฐ ๊ด์ r์ ๋ํ ์ค์ ์์, coarse ๋ณผ๋ฅจ ์์ธก ์์ ๋ฐ fine ๋ณผ๋ฅจ ์์ธก ์์์ ๋๋ค. ์ต์ข ๋ ๋๋ง์ด Cˆf (r)์์ ๋์ค์ง๋ง, coarse ๋คํธ์ํฌ์ ๊ฐ์ค์น ๋ถํฌ๋ฅผ fine ๋คํธ์ํฌ์์ ์ํ ํ ์ ์๋๋ก Cˆc(r)์ ์์ค๋ ์ต์ํํฉ๋๋ค. ์ฐ๋ฆฌ์ ์คํ์์๋ ๊ฐ๊ฐ Nc = 64์ ์ขํ๋ก coarse ๋ณผ๋ฅจ์์ ์ํ๋ง๋๊ณ , ์ถ๊ฐ๋ก Nf = 128์ ์ขํ๋ก fine ๋ณผ๋ฅจ์์ ์ํ๋ง๋ 4096๊ฐ์ ๊ด์ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฐ๋ฆฌ๋ Adam ์ต์ ํ๊ธฐ [18]๋ฅผ ์ฌ์ฉํ๋ฉฐ, ํ์ต๋ฅ ์ 5 × 10^−4์์ ์์ํ์ฌ ์ต์ ํ ๊ณผ์ ๋์ ์ง์์ ์ผ๋ก 5 × 10^−5๊น์ง ๊ฐ์ํฉ๋๋ค (๋ค๋ฅธ Adam ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๊ธฐ๋ณธ๊ฐ์ธ β1 = 0.9, β2 = 0.999, ε = 10^−7๋ก ์ค์ ๋ฉ๋๋ค). ๋จ์ผ ์ฅ๋ฉด์ ์ต์ ํ๋ ์ผ๋ฐ์ ์ผ๋ก ๋จ์ผ NVIDIA V100 GPU์์ ์ฝ 100-300k ๋ฐ๋ณต์ ํตํด ์๋ ดํ๋ฉฐ (์ฝ 1-2์ผ ์์๋ฉ๋๋ค).
6. Results
์ ํฌ๋ ์์ ์ผ๋ก (ํ 1)์ ์ง์ ์ผ๋ก (๊ทธ๋ฆผ 8 ๋ฐ 6) ์ ํฌ ๋ฐฉ๋ฒ์ด ์ด์ ์ฐ๊ตฌ๋ฅผ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ , ์ ํฌ์ ๋์์ธ ์ ํ์ ๊ฒ์ฆํ๊ธฐ ์ํด ๊ด๋ฒ์ํ ํ ์คํธ๋ฅผ ์ํํ์ฌ ์ค๋๋ ฅ์ ์ ๊ณตํฉ๋๋ค (ํ 2). ๋ถ๋ก ๋์์์ ์์ฒญํ๋ฉด ์ ํฌ์ ๋ฐฉ๋ฒ์ด ๊ธฐ์ค ๋ฐฉ๋ฒ์ ๋นํด ์๋ก์ด ๋ทฐ์ ๋ถ๋๋ฌ์ด ๊ฒฝ๋ก๋ฅผ ๋ ๋๋งํ ๋ ์ผ๋ง๋ ํฐ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ๋์ง ๋์ฑ ์ ์ดํดํ ์ ์์ต๋๋ค.
1. Intro
- MLP ๋คํธ์ํฌ๋ก continuous scenes with complex geometry and materials์ ํํํ๋ ๋ฐฉ์์ ์ ์
- classical volume rendering techniques ๊ธฐ๋ฐ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง ๋ฐฉ์(MLP์ ์๋ฐฉํฅ ์ฐ์ฐ)์ ์ ์. MLP๋ ๋ ๋๋ง ๊ณผ์ ์์ ์ป์ ๊ฐ๊ณผ ์ค์ ๋ฐ์ดํฐ ์ฌ์ด์ ์ค์ฐจ๋ฅผ ๋ฏธ๋ถํด(๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฏ๋ก) parameter ํ์ต์ ์ํ
- 5์ฐจ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ก mappingํ๋ positional encoding์ ์ ์. positional encoding ๋๋ถ์ NeRF๊ฐ ๊ณ ์ฃผํ์ scene์ ์ฑ๊ณต์ ์ผ๋ก ํํํ ์ ์๊ฒ ๋ง๋ค์์ต๋๋ค.
โป ์ฌ๊ธฐ์ ๋ ๋์ ์ฃผํ์๋ฅผ ํํํ ์ ์๋ค๋ ๋ง์ ๊ฒฝ๊ณ์ ์ ํํํ๋ ๋ฅ๋ ฅ์ด ๋ ์ฆ๊ฐํ๋ค๋ ๋ป
- ๊ธฐ์กด์ ๋ ผ๋ฌธ๋ค์ 2D view๋ฅผ ํตํด์ 3D rendering view๋ฅผ ์์ฑ์ ํ๊ธฐ ์ํด์ ์ฌ๋ฌ ๋ ธ๋ ฅ๊ณผ ๋ฐฉ๋ฒ์ ์ ์ฉํ์
- ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์, ์ฑ๋ฅ์ด ์ ์ข๊ฑฐ๋, ๋๋ฌด๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๊ตฌํ๋ค๋ ๋จ์ ์ผ๋ก ์ธํด์ ์ค์ํ์ ์ ์ฉ์ํค๊ธฐ ์ด๋ ค์⇒ NeRF๋ ์ด๋ฌํ ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ์ฌ, ์ ์ ๋ฉ๋ชจ๋ฆฌ๋ก๋ ๋์ ์ฑ๋ฅ์ 3D rendering์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ ์๊ฐํ๊ณ ์์
- NeRF์ ๊ฒฝ์ฐ, Novel View Synthesis ๋ถ์ผ์ ์๋ก์ด ๋ฐฉ์์ ์ ์โป Novel View Synthesis๋: Point Cloud๋ Mesh, Voxel ๋ฑ์ผ๋ก ํํ๋๋ 3D object ์์ฒด๋ฅผ ๋ ๋๋งํ๋ ๊ฒ์ด ์๋, 3D object๋ฅผ ๋ฐ๋ผ๋ณธ ๋ชจ์ต(์ด๋ฏธ์ง)๋ค์ ์์ธกํ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด ๋ชฉํ
3D ์ฉ์ด
- Point cloud(ํฌ์ธํธ ํด๋ผ์ฐ๋): 3D ๊ณต๊ฐ์์ ๊ฐ์ฒด์ ํ๋ฉด์ ๋ํ๋ด๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ ์ (Point)๋ค๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ก, ๊ฐ ์ ์ 3D ์ขํ๋ก ํํ๋ฉ๋๋ค.
- Mesh(๋ฉ์ฌ): 3D ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ ์ ์ (Vertex), ์์ง(Edge), ๋ฉด(Face)์ผ๋ก ์ด๋ฃจ์ด์ง ๊ตฌ์กฐ๋ก, ๊ฐ์ฒด์ ํํ์ ํ๋ฉด์ ์ ํํ๊ฒ ํํํ ์ ์์ต๋๋ค.
- Voxel(๋ณผ๋ฅจ): Voxel์ 3D ๊ณต๊ฐ์ ์์ 3D ํฝ์ ๋ก ๋๋ ๊ฒ์ผ๋ก, ๊ฐ ๋ณผ๋ฅจ ํฝ์ ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ก ์ฌ์ฉ๋์ด 3D ๊ฐ์ฒด๋ฅผ ํํํฉ๋๋ค.
- ์ฆ, ์ฌ๊ธฐ์๋ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ผ๋ณธ ๋ชจ์ต์ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ ๋ฐฉํฅ์์ ์ ์ ์๋ค๋ฉด(์ด๋์ ๋ฐ๋ผ๋ณด๋๋ผ๋ ํด๋น ๋ฌผ์ฒด์ ๋ชจ์ต์ ์ ์ ์์ ๊ฒฝ์ฐ) ์ด๊ฒ ์์ฒด๋ก๋ ๋ฌผ์ฒด๋ฅผ 3D ๋ ๋๋ง ํ๋ค๊ณ ๋ด
2. NeRF: Neural Radiance Field
- ๋ชจ๋ ์ ๋ค์ ๋ํด x,y,z,theta.. (3D์ ๋ ํ๋ ฌ)๊ฐ๋ค์ ๊ตฌํจ
- MLP ์ ์ง์ด๋ฃ์ ํ, RGB ๊ฐ์ผ๋ก ๋ฐํ
- ๋ค๋ฅธ ์ ๋ค๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์งํ
- ์ ๋ค ์ค, sampling์ผ๋ก ์ ํ๋ ์ ๋ค์ ๋ํด ํ๋์ ๊ฐ์ผ๋ก ๋ค์ ํฉ์นจ (Volume Rendering) ์ด๋ผ๊ณ ํจ
- ํ๋์ ์ ์ผ๋ก ๋ง๋ค์ด์ค
- ๋ค๋ฅธ ๋ชจ๋ 100์ฅ์ ์ด๋ฏธ์ง์ ๋ํด์ ์งํํ ํ, ์ด์ฃผ๋ฉด ๋ฌผ์ฒด๊ฐ ์์ฑ๋จ
- 100๊ฐ์ input ์ด๋ฏธ์ง์ ๊ทธ์ ํด๋น๋๋ 100๊ฐ์ transpose ๊ฐ๋ค์ input์ผ๋ก ๋ฃ์โป transpose ๊ฐ: ์ด๋ฏธ์ง๋ฅผ ์ฐ์ 3D ์์ ์์น๋ก ๋ณํ์์ผ์ฃผ๋ ํ๋ ฌ
- ํ์ต์ ์งํํ ๋ ํ iteration๋ง๋ค ํ๋์ ์ด๋ฏธ์ง๋ฅผ Random Sampling ํ์ฌ NeRF ๋ชจ๋ธ์ ์ง์ด๋ฃ๊ฒ ๋๋๋ฐ,
- ํด๋น input ์ด๋ฏธ์ง๊ฐ 400x400 ํด์๋๋ผ๊ณ ๊ฐ์ ํ๋ฉด, ํ ์ด๋ฏธ์ง์ 160,000๊ฐ์ ํฝ์ ์ด ์๊ณ ,
- ํ์ต์ ํ iteration์ ๋๋ฆด ๋๋ง๋ค 160,000๊ฐ์ ํฝ์ ์ค 4096๊ฐ์ ํฝ์ ์ Sampling ํ์ฌ input์ผ๋ก ๋ฃ์. (5.3 Implementation Details)
โป Ray: ๋ฌผ์ฒด๋ฅผ ์ฐ์ ๋ฐฉํฅ์ผ๋ก๋ถํฐ ๋ฌผ์ฒด๋ฅผ ํฅํ๋๋ก ์ผ์ง์ ์ผ๋ก ์ ์ ๋ค์ ์๋ฏธ
- ์ฆ, 400x400 ์ด๋ฏธ์ง์๋ 160,000๊ฐ์ Ray๊ฐ 3D ๋ฌผ์ฒด ๋ฐฉํฅ์ผ๋ก ์ผ์ง์ ์ ์๊ฒ ๋จ
- Ray์ ๋ฐฉํฅ์ ๋ํ๋ด๋ viewing direction (d)๊ฐ๊ณผ Ray ์ง์ ๋ด ํฌํจ๋๋ point๋ค์ 3d์ขํ๊ฐ coordinates (x : x,y,z)๋ค์ ๋ชจ๋ธ input ์ ๋ฃ๋๋ค๊ณ ํจ
- input์ผ๋ก ๋ค์ด๊ฐ ๋, ๋ชจ๋ ์ ๋ค์ด ๋ค์ด๊ฐ๋ ๊ฒ์ด ์๋๋ผ, ์ผ๋ถ๋ง sampling ํด์ ์ ํ๋ ์ ๋ค๋ง ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐโป 256๊ฐ์ point๊ฐ ํ ray์์ sampling ๋๋ค๊ณ ์น๋ฉด, ํ๋ฒ iteration์ด ๋ ๋ 4096 x 256 = 2^20 ๊ฐ์ point๋ค์ด MLP ๋ชจ๋ธ์ input์ ๋ค์ด๊ฐ๋ค๊ณ ์ผ๋จ ์๊ฐํ๋ฉด ๋๋ค๊ณ ํจ
3. Model
- NeRF: 8๊ฐ์ Linear Layer๋ก ์ด๋ฃจ์ด์ง MLP
- F(theta)๊ฐ ์ด ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์์
1. Input
- sample pixel from image 1024(2^10)๊ฐ , sample point from ray 64(2^6)๊ฐ๋ฅผ ์ฌ์ฉํด์ input point๊ฐ ์ด 65536(2^16)๊ฐ๋ผ๊ณ ๊ฐ์
⇒ 3D coordinates (x : x,y,z) ์ขํ๋ฅผ ํฌํจํ๋ 65536๊ฐ์ point๋ก [65536 , 3] ์ด input์ผ๋ก ๋ค์ด๊ฐ
2. Positional Encoding
- 3์ 63์ผ๋ก ๋๋ ค์ค ⇒ ์ต์ข [65536,63]์ด Input์ผ๋ก ๋ค์ด๊ฐ
- Positional encoding: Deep Network์ ๊ฒฝ์ฐ, Lower Frequency(์ ์ฃผํ)๋ก ํธํฅ๋์ด ์ ์ฃผํ์ ์ ๋ณด๋ฅผ ํ์ฉํด์ ํ์ตํ๋ ๊ฒฝํฅ์ด ์กด์ฌโป ๋ฅ ๋คํธ์ํฌ์ ์ฌ๋ฌ ์ธต์ ํต๊ณผํ๋ฉด์ ๊ณ ์ฃผํ ์ฑ๋ถ์ด ๋ถ๋ถ์ ์ผ๋ก ์์ค๋๊ฑฐ๋ ๋ชจํธํด์ง๋ ํ์์ ์๋ฏธํจ (pooling์ด๋ stride๊ณผ ๊ฐ์ downsampling ํน์ ํ์ฑํํจ์์ ๋น์ ํ ๋ณํ์ ์ํด์ ๋ฐ์ํ ์ ์์) ⇒ ํ์ํ ํน์ง๋ง ์ถ์ถํ๊ธฐ์
- ๊ทธ๋์, NeRF๋ Positional Encoding ๊ณผ์ ์ ํตํด input์ ๋ํ ์ ๋ณด๋ฅผ ๋๋ ค์ฃผ๊ณ ์ ํจ ( Data augmentation) ๊ฐ๋ ์ผ๋ก ์๊ฐํ๋ฉด ๋จ
- (์๋ ์์น์ ๋ํ ๊ฐ) 3D ์ขํ์ ๋ํด L=10์ผ ๊ฒฝ์ฐ, sin์ 2^0 ~ 2^9, cos๋ 2^0 ~ 2^9์ด๊ธฐ์, ์ด 20๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์์ฑ๋จ . ์ฌ๊ธฐ์ x,y,z์ ๋ํ ๊ฐ์ด p์ ํ๋์ฉ ๋ค์ด๊ฐ์ผ ํ๊ธฐ์ ๊ฒฐ๊ตญ 20*3=60๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์์ฑ๋จ.
- (์๋ ๋ฐฉํฅ์ ๋ํ ๊ฐ) Viewing Direction(d)(๋ท์ชฝ ๋ ์ด์ด์ ์์. input x) ์ ๋ํด L=4์ธ ๊ฒฝ์ฐ, sin์ 2^0 ~ 2^3, cos๋ 2^0 ~ 2^3์ด๊ธฐ์ ์ด 8๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์์ฑ๋จ.โป ์ฌ๊ธฐ์ viewing direction์ ๋ฐฉํฅ์ ๋ํ๋ด๋ 3์ฐจ์ ๋ฒกํฐ๋ผ๊ณ ํจ ⇒ ์ฆ ์๋ 8*3์ ํ๋ฉด 24๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์์ฑํ๊ฒ ๋จ.
3. 8๊ฐ์ layer์ ๊ฑฐ์นจ
- density output์ ๋ฝ์๋ (x,y,z,theta) ๋ญ์๊ธฐ
4. Ray์ viewing direction (d) ๊ฐ์ input์ผ๋ก ๋ฃ์
- positional encoding ํ ๊ฐ (24๊ฐ ๋ฐ์ดํฐ)
5. ์ต์ข RGB output ๊ฐ์ ์ป์ด๋
4. Volume Rendering
- Model์ Output์ผ๋ก ๋์จ ํ Ray์ Color์ density ๊ฐ๋ค์ ํ pixel๋ก ํฉ์ณ์ง๋ Volume Rendering ๊ณผ์ ์ ๊ฑฐ์นจ.
- ํฉ์ณ์ง pixel rgb๊ฐ์ ์ค์ ์ด๋ฏธ์ง์ pixel rgb๊ฐ๊ณผ MSE Loss๋ฅผ ๊ฑฐ์ณ Back propagation์ ํตํด ํ์ต์ด ์งํ๋จ.
- Ray ๋ด์์ point๋ค์ ์ํ๋งํ ๋, ๋ฌผ์ฒด๊ฐ ์์๋ฒํ ๋ฒ์๋ฅผ ์ ํด๋๊ณ ๊ฐ์ฅ ๊ฐ๊น์ด point๋ฅผ near, ๊ฐ์ฅ ๋จผ point๋ฅผ far๋ก ์ ํจ
- ์์์ ์ผ๋ก๋ t_n ์์ t_f ๊น์ง ์ ๋ค์ ํฌ๊ณผ๋ X density X color(rgb) ๋ฅผ ์ ๋ถํ์ฌ Volume Rendering์ ์์ฑํจ
- t_n์ t_f ์ฌ์ด์ point๋ค์ Random Sampling ํ์ฌ ๋ชจ๋ธ์ ๋ฃ์ด color, denity ๊ฐ์ ๊ตฌํ ํ,
์ ๊ฐ๋ค ( ํฌ๊ณผ๋ X density X color(rgb) ) ์ ๋ชจ๋ ๋ํจ
- Random Sampling์ ํ๋ ์ด์ ๋ Ray๋ฅผ ๋ฑ๋ถํด์ discreteํ(์ผ์ ํ) ๋ฐ์ดํฐ๋ฅผ ๋ฝ์๋ด๊ฒ ๋๋ฉด, ํ์ ๋ ์ ๋ง ๋ฝํ๊ธฐ ๋๋ฌธ์ continuousํ์ง ๋ชปํ ๋ชจ๋ธ์ด ๋๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ .
- ์ด ๊ณผ์ ์ด ์ผ๋จ ๊ธฐ๋ณธ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ์ด๊ณ , Coarse Model ์ด๋ผ๊ณ ํจ
- ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๊ธฐ ์ํด ray ๋ด์ density๊ฐ ๋์ ๋ถ๋ถ์ ์ถ๊ฐ์ ์ธ Sampling์ ์งํํ์ฌ ์ ์ฒด์ ์ธ ๋ชจ๋ธ์ ์์ฑ์ํด ⇒ Fine Model์ด๋ผ๊ณ ํํ (6. Hierarchival Volume Sampling)
5. Hierarchical Volume Sampling
- ๋ฐ๋ก ์ ๋จ๊ณ์์ NeRF๋ ํ ๋จ๊ณ ๋ ์งํํจ.
- density๊ฐ ๋์ ๊ฐ๋ค์ ์์ฃผ๋ก ๋ค์ Sampling ํ์ฌ Volume Rendering์ํด.
- density๊ฐ ๋์ ์ชฝ์ ๋ถํฌํ point๋ค์ด ์ค์ ๋ก ์๋ฏธ์๋ ๊ฐ๋ค์ด ๋ง์ ๊ฒ์ด๋ผ๋ ๊ฐ์ ์ด ์์์ ํํ
- Coarse Model(C_c)์ ๋๋ ค์ ๋์จ ๊ฐ๊ณผ GT(์ค์ ๊ฐ)์์ Loss, Fine Model(C_f)์ ๋๋ ค์ ๋์จ ๊ฐ๊ณผ GT์์ Loss ๋ฅผ ๊ฐ๊ฐ ๊ตฌํ์ฌ ๋ํ ๊ฒ์ผ๋ก ์ ์ฒด Loss๋ฅผ ์ ํจ.
- Coarse Network ์ Fine Network์ Loss๋ฅผ ๋ํด์ค
6. Results
- PE๋ ‘Positional Encoding’, VD๋ ‘View Dependence’, H๋ ‘Hierarchical Sampling’์ ์๋ฏธ
7. Reference
https://nuggy875.tistory.com/168
<๋ฌดํํ ๊ฐ์ฌ…ํฉ๋๋ค.. ์์๋ค๋ฉด ์ดํดํ๊ธฐ ๋๋ฌด ํ๋ค์์ ๊ฒ ๊ฐ์์ ๊ฐ์ฌํฉ๋๋ค!>
'Deep Learning > [D&A] 2023 Conference' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[4์ฃผ์ฐจ] <์ฃผ์ ๋ณ๊ฒฝ> ์ฒดํ๋ณ ์ท์ ํ๊ธฐ ์ฌ์ ์กฐ์ฌ (0) | 2023.08.10 |
---|---|
[3์ฃผ์ฐจ] ๊ฑด๋ฌผ 3Dํ ๋ชจ๋ธ ์ฐพ๊ธฐ (1) | 2023.07.28 |
[2์ฃผ์ฐจ] 3D Generation Model Github ํ์ (1) | 2023.07.17 |
[1์ฃผ์ฐจ] [EECS 498-007 / 598-005] 3D Vision ๊ฐ์ ์ ๋ฆฌ (0) | 2023.07.10 |