๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/[D&A] 2023 Conference

[1์ฃผ์ฐจ] NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis

by ์ œ๋ฃฝ 2023. 7. 13.
728x90
๋ฐ˜์‘ํ˜•

 

๐Ÿ’ก
<๋ฒˆ์—ญ>
0. Abstract

์šฐ๋ฆฌ๋Š” ๋“œ๋ฌธ ์ž…๋ ฅ ๋ทฐ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ์†์ ์ธ ๋ถ€ํ”ผ ์žฅ๋ฉด ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ณต์žกํ•œ ์žฅ๋ฉด์˜ ์ƒˆ๋กœ์šด ์‹œ์ ์„ ํ•ฉ์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์™„์ „ํžˆ ์—ฐ๊ฒฐ๋œ (๋น„์„ ํ˜•) ์‹ฌ์ธต ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์žฅ๋ฉด์„ ํ‘œํ˜„ํ•˜๋ฉฐ, ์ž…๋ ฅ์€ ๋‹จ์ผ ์—ฐ์†์ ์ธ 5D ์ขŒํ‘œ (๊ณต๊ฐ„ ์œ„์น˜ (x, y, z) ๋ฐ ์‹œ์ฒญ ๋ฐฉํ–ฅ (θ, φ))์ด๊ณ  ์ถœ๋ ฅ์€ ํ•ด๋‹น ๊ณต๊ฐ„ ์œ„์น˜์—์„œ์˜ ๋ถ€ํ”ผ ๋ฐ€๋„์™€ ์‹œ์ ์— ์˜์กดํ•˜๋Š” ๋ฐฉ์ถœ ๋ž˜๋””์–ธ์Šค์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์นด๋ฉ”๋ผ ๊ด‘์„ ์„ ๋”ฐ๋ผ 5D ์ขŒํ‘œ๋ฅผ ์ฟผ๋ฆฌํ•˜์—ฌ ๋ทฐ๋ฅผ ํ•ฉ์„ฑํ•˜๊ณ , ์ „ํ†ต์ ์ธ ๋ถ€ํ”ผ ๋ Œ๋”๋ง ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถœ๋ ฅ ์ƒ‰์ƒ๊ณผ ๋ฐ€๋„๋ฅผ ์ด๋ฏธ์ง€๋กœ ํˆฌ์˜ํ•ฉ๋‹ˆ๋‹ค. ๋ถ€ํ”ผ ๋ Œ๋”๋ง์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ์˜ ํ‘œํ˜„์„ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์œ ์ผํ•œ ์ž…๋ ฅ์€ ์•Œ๋ ค์ง„ ์นด๋ฉ”๋ผ ํฌ์ฆˆ๋ฅผ ๊ฐ€์ง„ ์ด๋ฏธ์ง€ ์„ธํŠธ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์–ด๋–ป๊ฒŒ ์‹ ๊ฒฝ ๋ฐฉ์‚ฌํ˜• ํ•„๋“œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ณต์žกํ•œ ๊ธฐํ•˜ํ•™์  ํ˜•ํƒœ์™€ ์™ธ๊ด€์„ ๊ฐ€์ง„ ์žฅ๋ฉด์˜ ์‚ฌ์‹ค์ ์ธ ์ƒˆ๋กœ์šด ์‹œ์ ์„ ๋ Œ๋”๋งํ•˜๋Š”์ง€ ์„ค๋ช…ํ•˜๋ฉฐ, ์‹ ๊ฒฝ ๋ Œ๋”๋ง๊ณผ ๋ทฐ ํ•ฉ์„ฑ์— ๋Œ€ํ•œ ์ด์ „ ์—ฐ๊ตฌ๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋ทฐ ํ•ฉ์„ฑ ๊ฒฐ๊ณผ๋Š” ๋น„๋””์˜ค๋กœ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ์ข‹์œผ๋ฏ€๋กœ, ๋…์ž๋“ค์ด ์„ค๋“๋ ฅ์žˆ๋Š” ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋ถ€๋ก ๋น„๋””์˜ค๋ฅผ ํ™•์ธํ•˜๋„๋ก ๊ถŒ์žฅํ•ฉ๋‹ˆ๋‹ค.

1. Introduction

Fig. 1: ์šฐ๋ฆฌ๋Š” ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์„ธํŠธ๋กœ๋ถ€ํ„ฐ ์žฅ๋ฉด์˜ ์—ฐ์†์ ์ธ 5์ฐจ์› ์‹ ๊ฒฝ ์„ ๋ฐ˜(NeRF) ํ‘œํ˜„(๋ถ€ํ”ผ ๋ฐ€๋„์™€ ์‹œ์•ผ์— ๋”ฐ๋ฅธ ์ƒ‰์ƒ)์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ณผ๋ฅจ ๋ Œ๋”๋ง ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ด‘์„ ์„ ๋”ฐ๋ผ ์ด ์žฅ๋ฉด ํ‘œํ˜„์˜ ์ƒ˜ํ”Œ์„ ์ถ•์ ํ•˜์—ฌ ์žฅ๋ฉด์„ ์–ด๋–ค ์‹œ์ ์—์„œ๋„ ๋ Œ๋”๋งํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ํ•ฉ์„ฑ๋œ ๋“œ๋Ÿผ(Drums) ์žฅ๋ฉด์˜ 100๊ฐœ์˜ ์ž…๋ ฅ ๋ทฐ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์บก์ฒ˜ํ•œ ๊ฒƒ์„ ์‹œ๊ฐํ™”ํ•˜๊ณ , ์ตœ์ ํ™”๋œ NeRF ํ‘œํ˜„์—์„œ ๋ Œ๋”๋ง๋œ ๋‘ ๊ฐœ์˜ ์ƒˆ๋กœ์šด ๋ทฐ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

 

์ด ์—ฐ๊ตฌ์—์„œ๋Š” ์บก์ฒ˜๋œ ์ด๋ฏธ์ง€ ์„ธํŠธ๋ฅผ ๋ Œ๋”๋งํ•˜๋Š” ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ์†์ ์ธ 5์ฐจ์›(scene representation)์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜์—ฌ ์‹œ์•ผ ํ•ฉ์„ฑ(view synthesis)์˜ ์˜ค๋ž˜๋œ ๋ฌธ์ œ๋ฅผ ์ƒˆ๋กœ์šด ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ •์ ์ธ ์žฅ๋ฉด์„ ๊ณต๊ฐ„์˜ ๊ฐ ์  (x, y, z)์—์„œ ๊ฐ ๋ฐฉํ–ฅ(θ, φ)์œผ๋กœ ๋ฐฉ์ถœ๋˜๋Š” ๊ด‘๋„(radiance)์™€, ๊ฐ ์ ์—์„œ ๋ฐ€๋„(density)๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋ฐ€๋„๋Š” (x, y, z)๋ฅผ ํ†ต๊ณผํ•˜๋Š” ๊ด‘์„ ์— ์˜ํ•ด ์ถ•์ ๋˜๋Š” ๊ด‘๋„์˜ ์–‘์„ ์กฐ์ ˆํ•˜๋Š” ์ฐจ๋ถ„ ํˆฌ๋ช…๋„(differential opacity)๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋ฅผ ์ „ํ˜€ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๊นŠ์€ fully-connected ์‹ ๊ฒฝ๋ง (์ผ๋ฐ˜์ ์œผ๋กœ multilayer perceptron ๋˜๋Š” MLP๋กœ ์•Œ๋ ค์ง)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ํ•จ์ˆ˜๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ์ผ 5์ฐจ์› ์ขŒํ‘œ (x, y, z, θ, φ)์—์„œ ๋‹จ์ผ ๋ถ€ํ”ผ ๋ฐ€๋„(volume density)์™€ ์‹œ์•ผ์— ๋”ฐ๋ฅธ RGB ์ƒ‰์ƒ์„ ํšŒ๊ท€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹ ๊ฒฝ ์„ ๋ฐ˜(NeRF)์„ ํŠน์ • ์‹œ์ ์—์„œ ๋ Œ๋”๋งํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ ˆ์ฐจ๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค:

1) ์นด๋ฉ”๋ผ ๊ด‘์„ ์„ ์žฅ๋ฉด์„ ํ†ต๊ณผ์‹œ์ผœ ์ƒ˜ํ”Œ๋ง๋œ 3D ์  ์ง‘ํ•ฉ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

2) ์ด ์ ๋“ค๊ณผ ํ•ด๋‹นํ•˜๋Š” 2D ์‹œ์•ผ ๋ฐฉํ–ฅ์„ ์‹ ๊ฒฝ๋ง์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ถœ๋ ฅ ์ƒ‰์ƒ๊ณผ ๋ฐ€๋„ ์ง‘ํ•ฉ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

3) ํด๋ž˜์‹ํ•œ ๋ณผ๋ฅจ ๋ Œ๋”๋ง ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๋‹น ์ƒ‰์ƒ๊ณผ ๋ฐ€๋„๋ฅผ 2D ์ด๋ฏธ์ง€๋กœ ์ถ•์ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ, ๊ด€์ฐฐ๋œ ๊ฐ ์ด๋ฏธ์ง€์™€ ํ•ด๋‹น ํ‘œํ˜„์œผ๋กœ๋ถ€ํ„ฐ ๋ Œ๋”๋ง๋œ ๋ทฐ ๊ฐ„์˜ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฌ๋Ÿฌ ๋ทฐ์—์„œ ์ด ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•จ์œผ๋กœ์จ ๋„คํŠธ์›Œํฌ๋Š” ์ง„์งœ ์žฅ๋ฉด ์ฝ˜ํ…์ธ ๋ฅผ ํฌํ•จํ•˜๋Š” ์œ„์น˜์— ๋†’์€ ๋ถ€ํ”ผ ๋ฐ€๋„์™€ ์ •ํ™•ํ•œ ์ƒ‰์ƒ์„ ํ• ๋‹นํ•˜์—ฌ ์ผ๊ด€๋œ ์žฅ๋ฉด ๋ชจ๋ธ์„ ์˜ˆ์ธกํ•˜๋„๋ก ์žฅ๋ ค๋ฉ๋‹ˆ๋‹ค. Figure 2๋Š” ์ด๋Ÿฌํ•œ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์„ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ๋ณต์žกํ•œ ์žฅ๋ฉด์— ๋Œ€ํ•œ ์‹ ๊ฒฝ ๋ฐฉ์‚ฌ๋„ ์‹ ๊ฒฝ ์„ ๋ฐ˜ ํ‘œํ˜„์˜ ๊ธฐ๋ณธ ๊ตฌํ˜„์ด ์ถฉ๋ถ„ํžˆ ๊ณ ํ•ด์ƒ๋„ ํ‘œํ˜„์œผ๋กœ ์ˆ˜๋ ดํ•˜์ง€ ์•Š๊ณ , ์นด๋ฉ”๋ผ ๊ด‘์„  ๋‹น ํ•„์š”ํ•œ ์ƒ˜ํ”Œ ์ˆ˜์— ๋น„ํšจ์œจ์ ์ด๋ผ๋Š” ๋ฌธ์ œ์ ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ž…๋ ฅ 5์ฐจ์› ์ขŒํ‘œ๋ฅผ ์œ„์น˜ ๋ถ€ํ˜ธํ™”๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ MLP๊ฐ€ ๋” ๋†’์€ ์ฃผํŒŒ์ˆ˜ ํ•จ์ˆ˜๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์œผ๋ฉฐ, ๊ณ ์ฃผํŒŒ์ˆ˜ ์žฅ๋ฉด ํ‘œํ˜„์„ ์ ์ ˆํžˆ ์ƒ˜ํ”Œ๋งํ•˜๊ธฐ ์œ„ํ•ด ๊ณ„์ธต์  ์ƒ˜ํ”Œ๋ง ์ ˆ์ฐจ๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์ฒด์  ํ‘œํ˜„์˜ ์žฅ์ ์„ ์ƒ์†ํ•ฉ๋‹ˆ๋‹ค: ๋ณต์žกํ•œ ์‹ค์ œ ๊ธฐํ•˜ํ•™๊ณผ ์™ธ๊ด€์„ ํšจ๊ณผ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํˆฌ์˜๋œ ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ๊ฒƒ์€, ์šฐ๋ฆฌ์˜ ๋ฐฉ๋ฒ•์€ ๊ณ ํ•ด์ƒ๋„์—์„œ ๋ณต์žกํ•œ ์žฅ๋ฉด์„ ๋ชจ๋ธ๋งํ•  ๋•Œ ์ด์‚ฐํ™”๋œ ๋ณต์…€ ๊ทธ๋ฆฌ๋“œ์˜ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ์šฐ๋ฆฌ์˜ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ๊ธฐ๋ณธ MLP ๋„คํŠธ์›Œํฌ๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ 5์ฐจ์› ์‹ ๊ฒฝ ๋ฐฉ์‚ฌ๋„ ์‹ ๊ฒฝ ์„ ๋ฐ˜์œผ๋กœ ๋ณต์žกํ•œ ๊ธฐํ•˜ํ•™๊ณผ ์žฌ๋ฃŒ๋ฅผ ๊ฐ€์ง„ ์—ฐ์†์ ์ธ ์žฅ๋ฉด์„ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•.
  • ๊ณ ์ „์ ์ธ ์ฒด์  ๋ Œ๋”๋ง ๊ธฐ๋ฒ•์— ๊ธฐ๋ฐ˜ํ•œ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ Œ๋”๋ง ์ ˆ์ฐจ๋กœ, ์ด๋ฅผ ํ†ตํ•ด ํ‘œ์ค€ RGB ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ์ด๋Ÿฌํ•œ ํ‘œํ˜„์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด์—๋Š” MLP์˜ ์šฉ๋Ÿ‰์„ ์‹œ์•ผ์— ์žˆ๋Š” ์žฅ๋ฉด ์ปจํ…์ธ ์— ํ• ๋‹นํ•˜๊ธฐ ์œ„ํ•œ ๊ณ„์ธต์  ์ƒ˜ํ”Œ๋ง ์ „๋žต์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ 5์ฐจ์› ์ขŒํ‘œ๋ฅผ ๋” ๋†’์€ ์ฐจ์›์˜ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ์œ„์น˜ ๋ถ€ํ˜ธํ™”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์šฐ๋ฆฌ๋Š” ๊ณ ์ฃผํŒŒ์ˆ˜ ์žฅ๋ฉด ์ฝ˜ํ…์ธ ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ์ ์ธ ์‹ ๊ฒฝ ๋ฐฉ์‚ฌ๋„ ์‹ ๊ฒฝ ์„ ๋ฐ˜ ๋ฐฉ๋ฒ•์ด ์‹ค์‹œ๊ฐ„ ๋ทฐ ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•์„ ํฌํ•จํ•œ ์ตœ์ฒจ๋‹จ ๋ฐฉ๋ฒ•๋“ค์„ ์–‘์ , ์งˆ์ ์œผ๋กœ ๋Šฅ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์‹ ๊ฒฝ๋ง 3D ํ‘œํ˜„์„ ์žฅ๋ฉด์— ์ ํ•ฉํ™”ํ•˜๋Š” ์ž‘์—…๊ณผ ์ƒ˜ํ”Œ๋ง๋œ ์ฒด์  ํ‘œํ˜„์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ์‹ฌ์ธต ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ธฐ๋กœ๋Š” ์ด ๋…ผ๋ฌธ์€ ์‹ค์ œ ๊ฐ์ฒด์™€ ์žฅ๋ฉด์œผ๋กœ๋ถ€ํ„ฐ ์ดฌ์˜๋œ RGB ์ด๋ฏธ์ง€๋กœ ๊ณ ํ•ด์ƒ๋„ ํฌํ† ๋ฆฌ์–ผ๋ฆฌ์Šคํ‹ฑ ์‹ ๊ทœ ๋ทฐ๋ฅผ ๋ Œ๋”๋งํ•˜๋Š” ์—ฐ์†์ ์ธ ์‹ ๊ฒฝ ์žฅ๋ฉด ํ‘œํ˜„์œผ๋กœ์„œ ์ตœ์ดˆ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2. Related Work

์ตœ๊ทผ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ ์œ ๋งํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์€ MLP์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 3D ๊ณต๊ฐ„ ์œ„์น˜์—์„œ ํ˜•ํƒœ์˜ ์•”๋ฌต์  ํ‘œํ˜„ (์˜ˆ: ํ•ด๋‹น ์œ„์น˜์˜ ๋ถ€ํ˜ธํ™”๋œ ๊ฑฐ๋ฆฌ [6])์œผ๋กœ ์ง์ ‘ ๋งคํ•‘ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ํ˜„์žฌ๊นŒ์ง€ ์‚ผ๊ฐํ˜• ๋งค์‰ฌ๋‚˜ ๋ณต์…€ ๊ทธ๋ฆฌ๋“œ์™€ ๊ฐ™์€ ์ด์‚ฐ์  ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ๊ธฐํ•˜ํ•™์ ์ธ ํ˜„์‹ค์ ์ธ ์žฅ๋ฉด์„ ๋™์ผํ•œ ์ •๋ฐ€๋„๋กœ ์žฌํ˜„ํ•  ์ˆ˜ ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ ˆ์—์„œ๋Š” ์ด ๋‘ ๊ฐ€์ง€ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ๊ฒ€ํ† ํ•˜๊ณ , ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ๋ฒ•๊ณผ ๋Œ€์กฐํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ๋ฒ•์€ ์‹ ๊ฒฝ ์žฅ๋ฉด ํ‘œํ˜„์˜ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œ์ผœ ๋ณต์žกํ•œ ํ˜„์‹ค์ ์ธ ์žฅ๋ฉด์„ ๋ Œ๋”๋งํ•˜๋Š” ๋ฐ ์ตœ์ฒจ๋‹จ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค.

์ €์ฐจ์› ์ขŒํ‘œ์—์„œ ์ƒ‰์ƒ์œผ๋กœ ๋งคํ•‘ํ•˜๊ธฐ ์œ„ํ•ด MLP๋ฅผ ์‚ฌ์šฉํ•œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์€ ์ด๋ฏธ์ง€ [44], ํ…์Šค์ฒ˜ ์žฌ๋ฃŒ [12,31,36,37], ๊ฐ„์ ‘ ์กฐ๋ช… ๊ฐ’ [38]๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ๊ทธ๋ž˜ํ”ฝ ๊ธฐ๋Šฅ์„ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ์—๋„ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Neural 3D shape representations

์ตœ๊ทผ์˜ ์—ฐ๊ตฌ๋Š” ์‹ ๊ฒฝ ๋„คํŠธ์›Œํฌ๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ xyz ์ขŒํ‘œ๋ฅผ ๋ถ€ํ˜ธํ™”๋œ ๊ฑฐ๋ฆฌ ํ•จ์ˆ˜ [15, 32] ๋˜๋Š” ์ ์œ  ํ•„๋“œ [11, 27]๋กœ ๋งคํ•‘ํ•˜๋Š” ๋ฌต์‹œ์ ์ธ 3D ํ˜•ํƒœ์˜ ํ‘œํ˜„์„ ์กฐ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ShapeNet [3]๊ณผ ๊ฐ™์€ ํ•ฉ์„ฑ 3D ํ˜•ํƒœ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์–ป์€ ๊ทธ๋ผ์šด๋“œ ํŠธ๋ฃจ์Šค 3D ๊ธฐํ•˜ํ•™์— ๋Œ€ํ•œ ์ ‘๊ทผ์ด ํ•„์š”ํ•˜์—ฌ ์ œํ•œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ดํ›„์˜ ์—ฐ๊ตฌ๋Š” ์‹ ๊ฒฝ ๋ฌต์‹œ์  ํ˜•ํƒœ ํ‘œํ˜„์„ 2D ์ด๋ฏธ์ง€๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ Œ๋”๋ง ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ๊ทธ๋ผ์šด๋“œ ํŠธ๋ฃจ์Šค 3D ํ˜•ํƒœ์˜ ์š”๊ตฌ ์‚ฌํ•ญ์„ ์™„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. Niemeyer et al. [29]์€ ํ‘œ๋ฉด์„ 3D ์ ์œ  ํ•„๋“œ๋กœ ๋‚˜ํƒ€๋‚ด๊ณ  ๊ฐ ๊ด‘์„ ์— ๋Œ€ํ•ด ํ‘œ๋ฉด ๊ต์ฐจ์ ์„ ์ฐพ๊ธฐ ์œ„ํ•ด ์ˆ˜์น˜์ ์ธ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ ๋‹ค์Œ ์•”์‹œ์  ๋ฏธ๋ถ„์„ ์‚ฌ์šฉํ•˜์—ฌ ์ •ํ™•ํ•œ ๋„ํ•จ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๊ต์ฐจ์  ์œ„์น˜๋Š” ํ•ด๋‹น ์ง€์ ์— ๋Œ€ํ•œ ํ™•์‚ฐ ์ƒ‰์ƒ์„ ์˜ˆ์ธกํ•˜๋Š” ์‹ ๊ฒฝ 3D ํ…์Šค์ฒ˜ ํ•„๋“œ์˜ ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. Sitzmann et al. [42]์€ ๋œ ์ง์ ‘์ ์ธ ์‹ ๊ฒฝ 3D ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ์—ฐ์†์ ์ธ 3D ์ขŒํ‘œ์—์„œ ํŠน์ง• ๋ฒกํ„ฐ์™€ RGB ์ƒ‰์ƒ์„ ์ถœ๋ ฅํ•˜๊ณ , ํ‘œ๋ฉด์ด ์œ„์น˜ํ•œ ๊ณณ์„ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๊ด‘์„ ์„ ๋”ฐ๋ผ ํ–‰์ง„ํ•˜๋Š” ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ Œ๋”๋ง ํ•จ์ˆ˜๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ๋“ค์€ ๋ณต์žกํ•˜๊ณ  ๊ณ ํ•ด์ƒ๋„์˜ ๊ธฐํ•˜ํ•™์  ํ˜•ํƒœ๋ฅผ ์ž ์žฌ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ˜„์žฌ๊นŒ์ง€๋Š” ๊ธฐํ•˜ํ•™์  ๋ณต์žก์„ฑ์ด ๋‚ฎ์€ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ์—๋งŒ ์ œํ•œ๋˜์–ด ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋„ˆ๋ฌด ๋งŽ์ด ๋ Œ๋”๋ง๋˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋„คํŠธ์›Œํฌ๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ 5D ๋ฐฉ์‚ฌ๋„ ํ•„๋“œ(2D ๋ทฐ ์ข…์† ์™ธ๊ด€์„ ๊ฐ€์ง„ 3D ๋ณผ๋ฅจ)๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋Œ€์•ˆ์ ์ธ ์ „๋žต์ด ๋ณต์žกํ•œ ์žฅ๋ฉด์˜ ๊ณ ํ•ด์ƒ๋„ ๊ธฐํ•˜ํ•™๊ณผ ์™ธ๊ด€์„ ํ‘œํ˜„ํ•˜์—ฌ ์‚ฌ์‹ค์ ์ธ ์ƒˆ๋กœ์šด ์žฅ๋ฉด์„ ๋ Œ๋”๋งํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

View synthesis and image-based rendering

์กฐ๋ฐ€ํ•œ ๋ทฐ ์ƒ˜ํ”Œ๋ง์ด ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ, ์‚ฌ์‹ค์ ์ธ ์ƒˆ๋กœ์šด ๋ทฐ๋Š” ๊ฐ„๋‹จํ•œ ๊ด‘ํ•™ ํ•„๋“œ ์ƒ˜ํ”Œ ๋ณด๊ฐ„ ๊ธฐ์ˆ  [21,5,7]์„ ์‚ฌ์šฉํ•˜์—ฌ ์žฌ๊ตฌ์„ฑ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋” ์ ์€ ๋ทฐ ์ƒ˜ํ”Œ๋ง์„ ์‚ฌ์šฉํ•œ ์ƒˆ๋กœ์šด ๋ทฐ ํ•ฉ์„ฑ์„ ์œ„ํ•ด ์ปดํ“จํ„ฐ ๋น„์ „ ๋ฐ ๊ทธ๋ž˜ํ”ฝ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ๋Š” ๊ด€์ธก๋œ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ์ „ํ†ต์ ์ธ ๊ธฐํ•˜ํ•™์  ๋ฐ ์™ธ๊ด€ ํ‘œํ˜„์„ ์˜ˆ์ธกํ•˜์—ฌ ์ƒ๋‹นํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹ ์ค‘ ํ•˜๋‚˜๋Š” ํ™•์‚ฐ์„ฑ [48] ๋˜๋Š” ๋ทฐ ์ข…์† [2,8,49] ์™ธ๊ด€์„ ๊ฐ€์ง„ ๋ฉ”์‹œ ๊ธฐ๋ฐ˜ ์žฅ๋ฉด ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‹ค์‹œ ํ˜„์‹ค์ ์ธ ๋ฐฉ์‹์œผ๋กœ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์„ธํŠธ๋ฅผ ์žฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ”์‹œ ํ‘œํ˜„์„ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜๋Š” ์ฐจ๋ณ„ํ™” ๋ ˆ์Šคํ„ฐํ™”๊ธฐ [4,10,23,25] ๋˜๋Š” ๊ฒฝ๋กœ ํŠธ๋ ˆ์ด์„œ [22,30]๊ฐ€ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋ฏธ์ง€ ์žฌํˆฌ์˜์— ๊ธฐ๋ฐ˜ํ•œ ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜ ๋ฉ”์‹œ ์ตœ์ ํ™”๋Š” ์ข…์ข… ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ „๋žต์€ ์ตœ์ ํ™” ์ „์— ๊ณ ์ •๋œ ํ† ํด๋กœ์ง€๋ฅผ ๊ฐ€์ง„ ํ…œํ”Œ๋ฆฟ ๋ฉ”์‹œ๋ฅผ ์ œ๊ณตํ•ด์•ผ ํ•˜๋ฏ€๋กœ [22], ์ž์œ ๋กœ์šด ์‹ค์ œ ์„ธ๊ณ„ ์žฅ๋ฉด์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

๋‹ค๋ฅธ ๋ฐฉ์‹์˜ ๋ฉ”์„œ๋“œ๋Š” ์ž…๋ ฅ RGB ์ด๋ฏธ์ง€ ์„ธํŠธ๋กœ๋ถ€ํ„ฐ ๊ณ ํ’ˆ์งˆ ์‚ฌ์‹ค์ ์ธ ๋ทฐ ํ•ฉ์„ฑ์„ ์œ„ํ•ด ๋ถ€ํ”ผ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ถ€ํ”ผ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ณต์žกํ•œ ํ˜•ํƒœ์™€ ์žฌ๋ฃŒ๋ฅผ ์‚ฌ์‹ค์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๊ฒฝ์‚ฌ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”์— ์ ํ•ฉํ•˜๋ฉฐ ๋ฉ”์‹œ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ณด๋‹ค ์‹œ๊ฐ์ ์œผ๋กœ ํ˜„์ €ํ•˜๊ฒŒ ๋œ ๋ฐฉํ•ด๋˜๋Š” ์•„ํ‹ฐํŒฉํŠธ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐ์˜ ๋ถ€ํ”ผ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๊ด€์ธก๋œ ์ด๋ฏธ์ง€๋ฅผ ์ง์ ‘์ ์œผ๋กœ ์ƒ‰์น ํ•˜๊ธฐ ์œ„ํ•ด ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋“œ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค [19,40,45]. ์ตœ๊ทผ์—๋Š” ์—ฌ๋Ÿฌ ์žฅ๋ฉด์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋”ฅ ๋„คํŠธ์›Œํฌ๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์„ธํŠธ๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋ง ๋œ ๋ถ€ํ”ผ ํ‘œํ˜„์„ ์˜ˆ์ธกํ•˜๊ณ  ์‹œํ—˜ ์‹œ์— ์•ŒํŒŒ ํ•ฉ์„ฑ [34] ๋˜๋Š” ๋ ˆ์ด์— ๋”ฐ๋ฅธ ํ•ฉ์„ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ทฐ๋ฅผ ๋ Œ๋”๋งํ•˜๋Š” ๋ช‡ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ์ž‘์—…์—์„œ๋Š” ํŠน์ • ์žฅ๋ฉด์— ๋Œ€ํ•ด ํ•ฉ์„ฑ๋œ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋“œ์™€ ํ•ฉ์„ฑ ๋„คํŠธ์›Œํฌ (CNN)์˜ ์กฐํ•ฉ์„ ์ตœ์ ํ™”ํ•˜์—ฌ CNN์ด ๋‚ฎ์€ ํ•ด์ƒ๋„ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋“œ๋กœ๋ถ€ํ„ฐ ์ด์‚ฐํ™” ์•„ํ‹ฐํŒฉํŠธ๋ฅผ ๋ณด์ƒํ•˜๊ฑฐ๋‚˜ ์ž…๋ ฅ ์‹œ๊ฐ„ ๋˜๋Š” ์• ๋‹ˆ๋ฉ”์ด์…˜ ์ œ์–ด์— ๋”ฐ๋ผ ์˜ˆ์ธก๋œ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋“œ๋ฅผ ๋ณ€๊ฒฝํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค [41,24]. ์ด๋Ÿฌํ•œ ๋ถ€ํ”ผ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์€ ์ƒˆ๋กœ์šด ๋ทฐ ํ•ฉ์„ฑ์— ๋†€๋ผ์šด ๊ฒฐ๊ณผ๋ฅผ ์–ป์–ด๋ƒˆ์ง€๋งŒ, ์ด์‚ฐ์  ์ƒ˜ํ”Œ๋ง์œผ๋กœ ์ธํ•ด ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋กœ์˜ ํ™•์žฅ ๋Šฅ๋ ฅ์€ ์‹œ๊ฐ„ ๋ฐ ๊ณต๊ฐ„ ๋ณต์žก๋„์˜ ์ œํ•œ์œผ๋กœ ์ธํ•ด ๊ทผ๋ณธ์ ์œผ๋กœ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‹ฌ์ธต ์™„์ „ ์—ฐ๊ฒฐํ˜• ์‹ ๊ฒฝ๋ง์˜ ๋งค๊ฐœ ๋ณ€์ˆ˜ ๋‚ด์—์„œ ์—ฐ์†์ ์ธ ๋ณผ๋ฅจ์„ ์ธ์ฝ”๋”ฉํ•จ์œผ๋กœ์จ ์ด๋ฅผ ํšŒํ”ผํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ด์ „์˜ ๋ถ€ํ”ผ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ํ’ˆ์งˆ์˜ ๋ Œ๋”๋ง์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ƒ˜ํ”Œ๋ง๋œ ๋ถ€ํ”ผ ํ‘œํ˜„์— ๋น„ํ•ด ์ €์žฅ ๋น„์šฉ์ด ๋งค์šฐ ์ ๊ฒŒ ๋“ญ๋‹ˆ๋‹ค.

3. Neural Radiance Field Scene Representation

Fig. 2: ์šฐ๋ฆฌ์˜ ์‹ ๊ฒฝ ๋ฐฉ์‚ฌ๋„์žฅ(Scene) ํ‘œํ˜„๊ณผ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ Œ๋”๋ง ๊ณผ์ • ๊ฐœ์š”์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š”

(a)์นด๋ฉ”๋ผ ๋ ˆ์ด๋ฅผ ๋”ฐ๋ผ 5D ์ขŒํ‘œ(์œ„์น˜์™€ ๋ทฐ ๋ฐฉํ–ฅ)๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ ,

(b)์ด๋Ÿฌํ•œ ์œ„์น˜๋ฅผ MLP์— ์ž…๋ ฅํ•˜์—ฌ ์ƒ‰์ƒ๊ณผ ๋ถ€ํ”ผ ๋ฐ€๋„๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

(c)์ดํ›„ ๋ณผ๋ฅจ ๋ Œ๋”๋ง ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ ๊ฐ’๋“ค์„ ์ด๋ฏธ์ง€๋กœ ๋ณตํ•ฉํ•ฉ๋‹ˆ๋‹ค.

(d)์ด ๋ Œ๋”๋ง ํ•จ์ˆ˜๋Š” ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ ํ•ฉ์„ฑ๋œ ์ด๋ฏธ์ง€์™€ ์‹ค์ œ ๊ด€์ฐฐ๋œ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ž”์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜์—ฌ ์žฅ๋ฉด ํ‘œํ˜„์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์šฐ๋ฆฌ๋Š” ์—ฐ์†์ ์ธ ์žฅ๋ฉด์„ 5D ๋ฒกํ„ฐ ๊ฐ’ ํ•จ์ˆ˜๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ•จ์ˆ˜๋Š” 3D ์œ„์น˜ x = (x, y, z)์™€ 2D ๋ทฐ ๋ฐฉํ–ฅ (θ, φ)์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ณ , ๋ฐฉ์ถœ๋œ ์ƒ‰์ƒ c = (r, g, b)๊ณผ ๋ถ€ํ”ผ ๋ฐ€๋„ σ๋ฅผ ์ถœ๋ ฅ์œผ๋กœ ๋‚ด๋ณด๋ƒ…๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ๋Š” ๋ฐฉํ–ฅ์„ 3D ์นดํ…Œ์‹œ์•ˆ ๋‹จ์œ„ ๋ฒกํ„ฐ d๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ์—ฐ์†์ ์ธ 5D ์žฅ๋ฉด ํ‘œํ˜„์„ MLP ๋„คํŠธ์›Œํฌ FΘ : (x, d) → (c, σ)๋กœ ๊ทผ์‚ฌํ™”ํ•˜๊ณ , ๊ฐ€์ค‘์น˜ Θ๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ ๊ฐ ์ž…๋ ฅ 5D ์ขŒํ‘œ์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€ํ”ผ ๋ฐ€๋„์™€ ๋ฐฉํ–ฅ์„ฑ์ด ์žˆ๋Š” ๋ฐฉ์ถœ ์ƒ‰์ƒ์„ ๋งคํ•‘ํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ํ‘œํ˜„์ด ๋‹ค์ค‘ ๋ทฐ ์ผ๊ด€์„ฑ์„ ๊ฐ€์ง€๋„๋ก ์žฅ๋ คํ•˜๊ธฐ ์œ„ํ•ด ๋„คํŠธ์›Œํฌ๊ฐ€ ๋ถ€ํ”ผ ๋ฐ€๋„ σ๋ฅผ ์œ„์น˜ x๋งŒ์˜ ํ•จ์ˆ˜๋กœ ์˜ˆ์ธกํ•˜๋„๋ก ์ œํ•œํ•˜๊ณ , RGB ์ƒ‰์ƒ c๊ฐ€ ์œ„์น˜์™€ ๋ทฐ ๋ฐฉํ–ฅ ๋ชจ๋‘์˜ ํ•จ์ˆ˜๋กœ ์˜ˆ์ธก๋  ์ˆ˜ ์žˆ๋„๋ก ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด MLP FΘ๋Š” ๋จผ์ € ์ž…๋ ฅ 3D ์ขŒํ‘œ x๋ฅผ 8๊ฐœ์˜ ์™„์ „ ์—ฐ๊ฒฐ์ธต (ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜์™€ ๊ฐ ์ธต๋‹น 256๊ฐœ์˜ ์ฑ„๋„)๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ , σ์™€ 256์ฐจ์›์˜ ํŠน์ง• ๋ฒกํ„ฐ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์ด ํŠน์ง• ๋ฒกํ„ฐ๋Š” ๊ทธ ํ›„์— ์นด๋ฉ”๋ผ ๋ ˆ์ด์˜ ๋ทฐ ๋ฐฉํ–ฅ๊ณผ ์—ฐ๊ฒฐ๋˜์–ด ํ•˜๋‚˜์˜ ์ถ”๊ฐ€์ ์ธ ์™„์ „ ์—ฐ๊ฒฐ์ธต (ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜์™€ 128๊ฐœ์˜ ์ฑ„๋„)์„ ํ†ต๊ณผํ•˜๋ฉฐ ๋ทฐ ๋ฐฉํ–ฅ ์ข…์†์ ์ธ RGB ์ƒ‰์ƒ์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

๋น„ Lambertian ํšจ๊ณผ๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ์˜ ๋ฐฉ๋ฒ•์ด ์ž…๋ ฅ ๋ทฐ ๋ฐฉํ–ฅ์„ ์‚ฌ์šฉํ•˜๋Š” ์˜ˆ์‹œ๋Š” Fig. 3์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Fig. 4์—์„œ๋Š” ๋ทฐ ์ข…์†์„ฑ ์—†์ด ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ด ๋ฐ˜์‚ฌ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

 

4. Volume Rendering with Radiance Fields

Fig. 3: ์‹œ์•ผ์— ๋”ฐ๋ผ ๋ฐœ์ƒํ•˜๋Š” ๋ฐฉํ–ฅ์„ฑ์— ์˜์กดํ•˜๋Š” ๋ฐฉ์ถœ๋œ ๊ด‘๋„์˜ ์‹œ๊ฐํ™”. ์šฐ๋ฆฌ์˜ ์‹ ๊ฒฝ ๋ฐฉ์‚ฌํ˜• ํ•„๋“œ ํ‘œํ˜„์€ ๊ณต๊ฐ„ ์œ„์น˜ x์™€ ์‹œ์•ผ ๋ฐฉํ–ฅ d์˜ 5D ํ•จ์ˆ˜๋กœ RGB ์ƒ‰์ƒ์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ์„ ๋ฐ• ์žฅ๋ฉด์˜ ์‹ ๊ฒฝ ํ‘œํ˜„์—์„œ ๋‘ ๊ฐ€์ง€ ๊ณต๊ฐ„ ์œ„์น˜์— ๋Œ€ํ•œ ์˜ˆ์‹œ ๋ฐฉํ–ฅ์„ฑ ์ƒ‰์ƒ ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค. (a)์™€ (b)์—์„œ๋Š” ๋‘ ๊ฐœ์˜ ๋‹ค๋ฅธ ์นด๋ฉ”๋ผ ์œ„์น˜์—์„œ ๋‘ ๊ฐœ์˜ ๊ณ ์ •๋œ 3D ์ง€์ ์˜ ์™ธ๊ด€์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค: ์„ ๋ฐ•์˜ ์ธก๋ฉด (์ฃผํ™ฉ์ƒ‰ ์‚ฝ์ž… ๊ทธ๋ฆผ)๊ณผ ๋ฌผ ํ‘œ๋ฉด (ํŒŒ๋ž€์ƒ‰ ์‚ฝ์ž… ๊ทธ๋ฆผ)์— ์œ„์น˜ํ•œ ์ง€์ ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๋ฐฉ๋ฒ•์€ ์ด ๋‘ ๊ฐœ์˜ 3D ์ง€์ ์˜ ๋ณ€ํ™”ํ•˜๋Š” ๋ฐ˜์‚ฌ ์™ธ๊ด€์„ ์˜ˆ์ธกํ•˜๋ฉฐ, (c)์—์„œ๋Š” ์ด๋Ÿฌํ•œ ํŠน์„ฑ์ด ์‹œ์•ผ ๋ฐฉํ–ฅ์˜ ์ „์ฒด ๋ฐ˜๊ตฌ์— ์—ฐ์†์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”๋˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

 

์šฐ๋ฆฌ์˜ 5D ์‹ ๊ฒฝ ๋ฐฉ์‚ฌํ˜• ํ•„๋“œ๋Š” ์žฅ๋ฉด์„ ๊ณต๊ฐ„์˜ ์–ด๋–ค ์ ์—์„œ์˜ ๋ถ€ํ”ผ ๋ฐ€๋„์™€ ๋ฐฉํ–ฅ์— ์˜ํ•ด ๋ฐฉ์ถœ๋˜๋Š” ๊ด‘์›์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ณ ์ „์ ์ธ ๋ถ€ํ”ผ ๋ Œ๋”๋ง ์›๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์žฅ๋ฉด์„ ํ†ต๊ณผํ•˜๋Š” ๊ด‘์„ ์˜ ์ƒ‰์ƒ์„ ๋ Œ๋”๋งํ•ฉ๋‹ˆ๋‹ค. ๋ถ€ํ”ผ ๋ฐ€๋„ σ(x)๋Š” ๊ด‘์„ ์ด ์œ„์น˜ x์—์„œ ๋ฌดํ•œ์†Œ ์ž…์ž์— ๋„๋‹ฌํ•˜๋Š” ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๊ทผ์ฒ˜์™€ ๋จผ ๊ฒฝ๊ณ„ tn๊ณผ tf๋ฅผ ๊ฐ€์ง„ ์นด๋ฉ”๋ผ ๊ด‘์„  r(t) = o + td์˜ ์˜ˆ์ƒ ์ƒ‰์ƒ C(r)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค:

์—ฌ๊ธฐ์„œ T(t) = exp[-∫t tn σ(r(s))ds]๋Š” ๊ทผ์ฒ˜ tn๋ถ€ํ„ฐ t๊นŒ์ง€์˜ ๊ด‘์„ ์ด ๋‹ค๋ฅธ ์ž…์ž์— ์ถฉ๋Œํ•˜์ง€ ์•Š๊ณ  tn๋ถ€ํ„ฐ t๊นŒ์ง€ ์ด๋™ํ•  ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์—ฐ์†์ ์ธ ์‹ ๊ฒฝ ๋ฐฉ์‚ฌํ˜• ํ•„๋“œ์—์„œ ๋ทฐ๋ฅผ ๋ Œ๋”๋งํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฐ€์ƒ ์นด๋ฉ”๋ผ์˜ ํ”ฝ์…€์„ ํ†ต๊ณผํ•˜๋Š” ๊ฐ ์นด๋ฉ”๋ผ ๊ด‘์„ ์— ๋Œ€ํ•ด ์ด ์ ๋ถ„ C(r)์„ ์ถ”์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ด ์—ฐ์†์ ์ธ ์ ๋ถ„์„ ์ˆ˜์น˜์ ์œผ๋กœ ์ ๋ถ„๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฒฐ์ •๋ก ์ ์ธ ์ ๋ถ„๋ฒ•์ด ์•„๋‹Œ ๊ณ„์ธต์  ์ƒ˜ํ”Œ๋ง ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” [tn, tf]๋ฅผ N๊ฐœ์˜ ๋™์ผํ•œ ๊ฐ„๊ฒฉ์œผ๋กœ ๊ตฌ๊ฐ„์„ ๋‚˜๋ˆˆ ํ›„ ๊ฐ ๊ตฌ๊ฐ„์—์„œ ๊ท ์ผํ•œ ๋ฌด์ž‘์œ„ ์ƒ˜ํ”Œ์„ ํ•˜๋‚˜์”ฉ ๋ฝ‘์Šต๋‹ˆ๋‹ค:

์ ๋ถ„์„ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ด์‚ฐ์ ์ธ ์ƒ˜ํ”Œ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๊ณ„์ธตํ™”๋œ ์ƒ˜ํ”Œ๋ง์€ ์ตœ์ ํ™” ๊ณผ์ •์—์„œ MLP๊ฐ€ ์—ฐ์†์ ์ธ ์œ„์น˜์—์„œ ํ‰๊ฐ€๋˜๋„๋ก ํ•ด ์—ฐ์†์ ์ธ ์žฅ๋ฉด ํ‘œํ˜„์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ ๋ถ„ C(r)์„ Max์˜ ๋ถ€ํ”ผ ๋ Œ๋”๋ง ๋ฆฌ๋ทฐ์—์„œ ๋…ผ์˜๋œ ์ ๋ถ„ ๊ทœ์น™์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค [26]:

์—ฌ๊ธฐ์„œ Ti = exp[-∑(i-1)j=1 σjδj]๋Š” i๋ฒˆ์งธ ์ƒ˜ํ”Œ๊นŒ์ง€์˜ ๋ˆ„์  ํˆฌ๊ณผ๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, δi = ti+1 - ti๋Š” ์ธ์ ‘ํ•œ ์ƒ˜ํ”Œ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ์ž…๋‹ˆ๋‹ค. ์ด (ci, σi) ๊ฐ’๋“ค๋กœ๋ถ€ํ„ฐ Cˆ(r)๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ด ํ•จ์ˆ˜๋Š” ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๋ฉฐ, αi = 1 - exp(-σiδi)๋กœ ์ •์˜๋œ ์ „ํ†ต์ ์ธ ์•ŒํŒŒ ํ•ฉ์„ฑ๊ณผ ๋™์ผํ•ฉ๋‹ˆ๋‹ค.

 

Fig. 4: ์ด ๊ทธ๋ฆผ์—์„œ๋Š” ์šฐ๋ฆฌ์˜ ์ „์ฒด ๋ชจ๋ธ์ด ๋ฐฉํ–ฅ์— ์˜์กดํ•˜๋Š” ๋ฐฉ์ถœ ๊ด‘๋„์™€ ๊ณ ์ฃผํŒŒ์ˆ˜ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ํ†ต๊ณผํ•จ์œผ๋กœ์จ ์–ด๋–ป๊ฒŒ ์ด์ ์„ ์–ป๋Š”์ง€ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค. ๋ฐฉํ–ฅ ์˜์กด์„ฑ์„ ์ œ๊ฑฐํ•˜๋ฉด ๋ชจ๋ธ์ด ๋ถˆ๋„์ € ํŠธ๋ ˆ๋“œ์˜ ๋ฐ˜์‚ฌ ๊ด‘์„ ์„ ์žฌํ˜„ํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ์ œ๊ฑฐํ•˜๋ฉด ๊ณ ์ฃผํŒŒ์ˆ˜ ์ง€์˜ค๋ฉ”ํŠธ๋ฆฌ์™€ ์งˆ๊ฐ์„ ํ‘œํ˜„ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํฌ๊ฒŒ ๊ฐ์†Œํ•˜์—ฌ ๋„ˆ๋ฌด ๋งค๋„๋Ÿฌ์šด ์™ธ๊ด€์ด ๋˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค.

5. Optimizing a Neural Radiance Field

์ด์ „ ์„น์…˜์—์„œ๋Š” ์‹ ๊ฒฝ ๋ฐฉ์ถœ ๊ด‘๋„ ํ•„๋“œ๋กœ ์žฅ๋ฉด์„ ๋ชจ๋ธ๋งํ•˜๊ณ  ์ด ํ‘œํ˜„์—์„œ ์ƒˆ๋กœ์šด ๋ทฐ๋ฅผ ๋ Œ๋”๋งํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์„ค๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋งŒ์œผ๋กœ๋Š” ์ตœ์ฒจ๋‹จ ํ’ˆ์งˆ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค(์„น์…˜ 6.4์—์„œ ์‹œ์—ฐํ–ˆ์Šต๋‹ˆ๋‹ค). ์šฐ๋ฆฌ๋Š” ๊ณ ํ•ด์ƒ๋„ ๋ณต์žกํ•œ ์žฅ๋ฉด์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋‘ ๊ฐ€์ง€ ๊ฐœ์„ ์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” ์ž…๋ ฅ ์ขŒํ‘œ์˜ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์œผ๋กœ์„œ MLP๊ฐ€ ๊ณ ์ฃผํŒŒ์ˆ˜ ํ•จ์ˆ˜๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ๋Š” ๊ณ ์ฃผํŒŒ์ˆ˜ ํ‘œํ˜„์„ ํšจ์œจ์ ์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ„์ธต์  ์ƒ˜ํ”Œ๋ง ์ ˆ์ฐจ์ž…๋‹ˆ๋‹ค.

5.1 Positional encoding

์‹ ๊ฒฝ๋ง์ด ๋ฒ”์šฉ ํ•จ์ˆ˜ ๊ทผ์‚ฌ๊ธฐ(Universal Function Approximator)๋ผ๋Š” ์‚ฌ์‹ค์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์šฐ๋ฆฌ๋Š” ๋„คํŠธ์›Œํฌ FΘ๊ฐ€ ์ง์ ‘ xyzθφ ์ž…๋ ฅ ์ขŒํ‘œ์— ์ž‘์šฉํ•˜๋Š” ๊ฒƒ์€ ๊ณ ์ฃผํŒŒ์ˆ˜ ์ƒ‰์ƒ๊ณผ ๊ธฐํ•˜ํ•™์  ๋ณ€๋™์„ ์ž˜ ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ Œ๋”๋ง ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ตœ๊ทผ Rahaman ๋“ฑ์˜ ์—ฐ๊ตฌ [35]์™€ ์ผ๊ด€์„ฑ์ด ์žˆ์œผ๋ฉฐ, ๊ทธ ์—ฐ๊ตฌ๋Š” ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์ด ๋‚ฎ์€ ์ฃผํŒŒ์ˆ˜ ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ํŽธํ–ฅ๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ž…๋ ฅ์„ ๊ณ ์ฃผํŒŒ์ˆ˜ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•œ ํ›„ ๋„คํŠธ์›Œํฌ๋กœ ์ „๋‹ฌํ•˜๋Š” ๊ฒƒ์ด ๊ณ ์ฃผํŒŒ์ˆ˜ ๋ณ€๋™์„ ํฌํ•จํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ ํ•ฉ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์‹ ๊ฒฝ์žฅ๋ฉด ํ‘œํ˜„์˜ ๋งฅ๋ฝ์—์„œ ํ™œ์šฉํ•˜๊ณ , FΘ๋ฅผ ๋‘ ๊ฐœ์˜ ํ•จ์ˆ˜ FΘ = F0Θ โ—ฆ γ๋กœ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค(๊ทธ๋ฆผ 4์™€ ํ…Œ์ด๋ธ” 2 ์ฐธ์กฐ). ์—ฌ๊ธฐ์„œ γ๋Š” R์„ ๋” ๋†’์€ ์ฐจ์›์˜ ๊ณต๊ฐ„์ธ R 2L๋กœ ๋งคํ•‘ํ•˜๋Š” ํ•จ์ˆ˜์ด๊ณ , F0Θ๋Š” ์—ฌ์ „ํžˆ ์ผ๋ฐ˜์ ์ธ MLP์ž…๋‹ˆ๋‹ค. ํ˜•์‹์ ์œผ๋กœ, ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ์ธ์ฝ”๋”ฉ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

์ด ํ•จ์ˆ˜ γ(·)๋Š” x์˜ ๊ฐ ์ขŒํ‘œ๊ฐ’๊ณผ ์นด๋ฅดํ…Œ์‹œ์•ˆ ๋ฐฉํ–ฅ ๋‹จ์œ„ ๋ฒกํ„ฐ d์˜ ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ์— ๊ฐ๊ฐ ๋ณ„๋„๋กœ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค(x์˜ ์ขŒํ‘œ๊ฐ’์€ [−1, 1]๋กœ ์ •๊ทœํ™”๋ฉ๋‹ˆ๋‹ค). ์šฐ๋ฆฌ์˜ ์‹คํ—˜์—์„œ๋Š” γ(x)์— ๋Œ€ํ•ด L = 10, γ(d)์— ๋Œ€ํ•ด L = 4๋กœ ์„ค์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด์™€ ์œ ์‚ฌํ•œ ๋งคํ•‘์€ ์ธ๊ธฐ ์žˆ๋Š” Transformer ์•„ํ‚คํ…์ฒ˜ [47]์—์„œ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ด๋ฅผ ์œ„์น˜ ์ธ์ฝ”๋”ฉ(positional encoding)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Transformer๋Š” ์ˆœ์„œ ๊ฐœ๋…์ด ์—†๋Š” ์•„ํ‚คํ…์ฒ˜์— ์‹œํ€€์Šค์˜ ํ† ํฐ๋“ค์˜ ์ด์‚ฐ์ ์ธ ์œ„์น˜๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณตํ•˜๋Š” ๋‹ค๋ฅธ ๋ชฉํ‘œ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋Œ€์กฐ์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ์†์ ์ธ ์ž…๋ ฅ ์ขŒํ‘œ๋ฅผ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜์—ฌ MLP๊ฐ€ ๊ณ ์ฃผํŒŒ์ˆ˜ ํ•จ์ˆ˜๋ฅผ ๋” ์‰ฝ๊ฒŒ ๊ทผ์‚ฌํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ๋ฅผ ํˆฌ์˜์œผ๋กœ๋ถ€ํ„ฐ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ด€๋ จ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋™์‹œ ์—ฐ๊ตฌ [51]๋„ ์œ ์‚ฌํ•œ ์ž…๋ ฅ ์ขŒํ‘œ ๋งคํ•‘์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

5.2 Hierarchical volume sampling

์šฐ๋ฆฌ์˜ ๋ Œ๋”๋ง ์ „๋žต์€ ๊ฐ ์นด๋ฉ”๋ผ ๊ด‘์„ ์„ ๋”ฐ๋ผ N๊ฐœ์˜ ์ฟผ๋ฆฌ ์ง€์ ์—์„œ ์‹ ๊ฒฝ ๋ฐฉ์‚ฌ๋„ ํ•„๋“œ ๋„คํŠธ์›Œํฌ๋ฅผ ๋ฐ€๋„ ์žˆ๊ฒŒ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ๋ Œ๋”๋ง๋œ ์ด๋ฏธ์ง€์— ๊ธฐ์—ฌํ•˜์ง€ ์•Š๋Š” ๋นˆ ๊ณต๊ฐ„๊ณผ ๊ฐ€๋ ค์ง„ ์˜์—ญ๋„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ณผ๋ฅจ ๋ Œ๋”๋ง์˜ ์ดˆ๊ธฐ ์ž‘์—…์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„ ์˜ˆ์ƒ๋˜๋Š” ๋ Œ๋”๋ง์— ๋Œ€ํ•œ ์ƒ˜ํ”Œ์˜ ํšจ๊ณผ์— ๋น„๋ก€ํ•˜์—ฌ ์ƒ˜ํ”Œ์„ ํ• ๋‹นํ•˜์—ฌ ๋ Œ๋”๋ง ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ณ„์ธต์  ํ‘œํ˜„์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์žฅ๋ฉด์„ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ์ผ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  ๋‘ ๊ฐœ์˜ ๋„คํŠธ์›Œํฌ๋ฅผ ๋™์‹œ์— ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค: ํ•˜๋‚˜๋Š” "๊ฑฐ์นœ(coarse)" ๋„คํŠธ์›Œํฌ์ด๊ณ  ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” "์„ธ๋ฐ€(fine)" ๋„คํŠธ์›Œํฌ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋จผ์ € ๊ณ„์ธต์  ์ƒ˜ํ”Œ๋ง์„ ์‚ฌ์šฉํ•˜์—ฌ Nc๊ฐœ์˜ ์œ„์น˜๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ์œ„์—์„œ ์„ค๋ช…ํ•œ๋Œ€๋กœ ์ด๋Ÿฌํ•œ ์œ„์น˜์—์„œ "๊ฑฐ์นœ(coarse)" ๋„คํŠธ์›Œํฌ๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด "๊ฑฐ์นœ(coarse)" ๋„คํŠธ์›Œํฌ์˜ ์ถœ๋ ฅ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ด‘์„ ์„ ๋”ฐ๋ผ ์ ๋“ค์˜ ๋” ์ •๊ตํ•œ ์ƒ˜ํ”Œ๋ง์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ์ƒ˜ํ”Œ์€ ๋ณผ๋ฅจ์˜ ๊ด€๋ จ ๋ถ€๋ถ„์„ ์ค‘์‹ฌ์œผ๋กœ ํŽธํ–ฅ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด "๊ฑฐ์นœ(coarse)" ๋„คํŠธ์›Œํฌ์—์„œ์˜ ์•ŒํŒŒ ์ปดํฌ์ง€ํŠธ๋œ ์ƒ‰์ƒ Cˆc(r)์„ Eqn. 3์˜ ๋ชจ๋“  ์ƒ˜ํ”Œ ์ƒ‰์ƒ ci์˜ ๊ฐ€์ค‘ํ•ฉ์œผ๋กœ ๋‹ค์‹œ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ์ •๊ทœํ™”ํ•˜๋ฉด ˆwi = wi / PNc j=1 wj๋กœ ๊ด‘์„ ์„ ๋”ฐ๋ผ ์กฐ๊ฐ๋ณ„๋กœ ์ผ์ •ํ•œ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜(PDF)๊ฐ€ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์—ญ๋ณ€ํ™˜ ์ƒ˜ํ”Œ๋ง์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๋ถ„ํฌ์—์„œ ๋‘ ๋ฒˆ์งธ๋กœ Nf๊ฐœ์˜ ์œ„์น˜๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ์ฒซ ๋ฒˆ์งธ์™€ ๋‘ ๋ฒˆ์งธ ์ƒ˜ํ”Œ์˜ ํ•ฉ์ง‘ํ•ฉ์—์„œ "์„ธ๋ฐ€(fine)" ๋„คํŠธ์›Œํฌ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ , ๋ชจ๋“  Nc+Nf ๊ฐœ์˜ ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ด‘์„ ์˜ ์ตœ์ข… ๋ Œ๋”๋ง๋œ ์ƒ‰์ƒ Cˆf (r)์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ˆ์ฐจ๋Š” ๊ฐ€์‹œ์ ์ธ ์ฝ˜ํ…์ธ ๊ฐ€ ์žˆ๋Š” ์˜์—ญ์— ๋” ๋งŽ์€ ์ƒ˜ํ”Œ์„ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง๊ณผ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ๊ฐ ์ƒ˜ํ”Œ์„ ์ „์ฒด ์ ๋ถ„์˜ ๋…๋ฆฝ์ ์ธ ํ™•๋ฅ ์  ์ถ”์ •๊ฐ’์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๋Œ€์‹  ์ƒ˜ํ”Œ๋œ ๊ฐ’์„ ์ „์ฒด ์ ๋ถ„ ์˜์—ญ์˜ ๋น„๊ท ์ผํ•œ ์ด์‚ฐํ™”๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

5.3 Implementation details

์šฐ๋ฆฌ๋Š” ๊ฐ๊ฐ์˜ ์žฅ๋ฉด์— ๋Œ€ํ•ด ๋ณ„๋„์˜ ์‹ ๊ฒฝ๋ง ์—ฐ์†์ ์ธ ๋ณผ๋ฅจ ํ‘œํ˜„ ๋„คํŠธ์›Œํฌ๋ฅผ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์žฅ๋ฉด์˜ ์บก์ฒ˜๋œ RGB ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹, ํ•ด๋‹นํ•˜๋Š” ์นด๋ฉ”๋ผ ํฌ์ฆˆ์™€ ๋‚ด๋ถ€ ๋งค๊ฐœ๋ณ€์ˆ˜, ๊ทธ๋ฆฌ๊ณ  ์žฅ๋ฉด ๊ฒฝ๊ณ„๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค(์‹ค์ œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” COLMAP ๊ตฌ์กฐ๋กœ๋ถ€ํ„ฐ ์šฐ๋ฆฌ๋Š” ์นด๋ฉ”๋ผ ํฌ์ฆˆ, ๋‚ด๋ถ€ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฐ ๊ฒฝ๊ณ„๋ฅผ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค). ๊ฐ ์ตœ์ ํ™” ๋ฐ˜๋ณต์—์„œ ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ์…‹์˜ ๋ชจ๋“  ํ”ฝ์…€์—์„œ ๋ฌด์ž‘์œ„๋กœ ์นด๋ฉ”๋ผ ๊ด‘์„ ์˜ ๋ฐฐ์น˜๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , Sec. 5.2์—์„œ ์„ค๋ช…ํ•œ ๊ณ„์ธต์  ์ƒ˜ํ”Œ๋ง์„ ๋”ฐ๋ผ coarse ๋„คํŠธ์›Œํฌ๋กœ๋ถ€ํ„ฐ Nc ๊ฐœ์˜ ์ƒ˜ํ”Œ์„ ์ฟผ๋ฆฌํ•˜๊ณ  fine ๋„คํŠธ์›Œํฌ๋กœ๋ถ€ํ„ฐ Nc + Nf ๊ฐœ์˜ ์ƒ˜ํ”Œ์„ ์ฟผ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ Sec. 4์—์„œ ์„ค๋ช…ํ•œ ๋ณผ๋ฅจ ๋ Œ๋”๋ง ์ ˆ์ฐจ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ๊ด‘์„ ์˜ ์ƒ‰์ƒ์„ ๋‘ ์„ธํŠธ์˜ ์ƒ˜ํ”Œ์—์„œ ๋ Œ๋”๋งํ•ฉ๋‹ˆ๋‹ค. ์†์‹ค์€ ๊ฐ„๋‹จํžˆ coarse์™€ fine ๋ Œ๋”๋ง์˜ ๋ Œ๋”๋ง๋œ ํ”ฝ์…€ ์ƒ‰์ƒ๊ณผ ์‹ค์ œ ์ƒ‰์ƒ ๊ฐ„์˜ ์ด ์ œ๊ณฑ ์˜ค์ฐจ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ R์€ ๊ฐ ๋ฐฐ์น˜์˜ ๊ด‘์„  ์ง‘ํ•ฉ์„ ๋‚˜ํƒ€๋‚ด๊ณ , C(r), Cˆc(r) ๋ฐ Cˆf (r)๋Š” ๊ฐ๊ฐ ๊ด‘์„  r์— ๋Œ€ํ•œ ์‹ค์ œ ์ƒ‰์ƒ, coarse ๋ณผ๋ฅจ ์˜ˆ์ธก ์ƒ‰์ƒ ๋ฐ fine ๋ณผ๋ฅจ ์˜ˆ์ธก ์ƒ‰์ƒ์ž…๋‹ˆ๋‹ค. ์ตœ์ข… ๋ Œ๋”๋ง์ด Cˆf (r)์—์„œ ๋‚˜์˜ค์ง€๋งŒ, coarse ๋„คํŠธ์›Œํฌ์˜ ๊ฐ€์ค‘์น˜ ๋ถ„ํฌ๋ฅผ fine ๋„คํŠธ์›Œํฌ์—์„œ ์ƒ˜ํ”Œ ํ•  ์ˆ˜ ์žˆ๋„๋ก Cˆc(r)์˜ ์†์‹ค๋„ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์‹คํ—˜์—์„œ๋Š” ๊ฐ๊ฐ Nc = 64์˜ ์ขŒํ‘œ๋กœ coarse ๋ณผ๋ฅจ์—์„œ ์ƒ˜ํ”Œ๋ง๋˜๊ณ , ์ถ”๊ฐ€๋กœ Nf = 128์˜ ์ขŒํ‘œ๋กœ fine ๋ณผ๋ฅจ์—์„œ ์ƒ˜ํ”Œ๋ง๋œ 4096๊ฐœ์˜ ๊ด‘์„  ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Adam ์ตœ์ ํ™”๊ธฐ [18]๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ•™์Šต๋ฅ ์€ 5 × 10^−4์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ตœ์ ํ™” ๊ณผ์ • ๋™์•ˆ ์ง€์ˆ˜์ ์œผ๋กœ 5 × 10^−5๊นŒ์ง€ ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค (๋‹ค๋ฅธ Adam ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ธฐ๋ณธ๊ฐ’์ธ β1 = 0.9, β2 = 0.999, ε = 10^−7๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค). ๋‹จ์ผ ์žฅ๋ฉด์˜ ์ตœ์ ํ™”๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹จ์ผ NVIDIA V100 GPU์—์„œ ์•ฝ 100-300k ๋ฐ˜๋ณต์„ ํ†ตํ•ด ์ˆ˜๋ ดํ•˜๋ฉฐ (์•ฝ 1-2์ผ ์†Œ์š”๋ฉ๋‹ˆ๋‹ค).

6. Results

์ €ํฌ๋Š” ์–‘์ ์œผ๋กœ (ํ‘œ 1)์™€ ์งˆ์ ์œผ๋กœ (๊ทธ๋ฆผ 8 ๋ฐ 6) ์ €ํฌ ๋ฐฉ๋ฒ•์ด ์ด์ „ ์—ฐ๊ตฌ๋ฅผ ๋Šฅ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๊ณ , ์ €ํฌ์˜ ๋””์ž์ธ ์„ ํƒ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ํ…Œ์ŠคํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ์„ค๋“๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค (ํ‘œ 2). ๋ถ€๋ก ๋™์˜์ƒ์„ ์‹œ์ฒญํ•˜๋ฉด ์ €ํฌ์˜ ๋ฐฉ๋ฒ•์ด ๊ธฐ์ค€ ๋ฐฉ๋ฒ•์— ๋น„ํ•ด ์ƒˆ๋กœ์šด ๋ทฐ์˜ ๋ถ€๋“œ๋Ÿฌ์šด ๊ฒฝ๋กœ๋ฅผ ๋ Œ๋”๋งํ•  ๋•Œ ์–ผ๋งˆ๋‚˜ ํฐ ๊ฐœ์„ ์„ ๋ณด์—ฌ์ฃผ๋Š”์ง€ ๋”์šฑ ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๐Ÿ’ก
<๋ฆฌ๋ทฐ>

1. Intro

  1. MLP ๋„คํŠธ์›Œํฌ๋กœ continuous scenes with complex geometry and materials์„ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆ
  1. classical volume rendering techniques ๊ธฐ๋ฐ˜์˜ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ Œ๋”๋ง ๋ฐฉ์‹(MLP์˜ ์ˆœ๋ฐฉํ–ฅ ์—ฐ์‚ฐ)์„ ์ œ์•ˆ. MLP๋Š” ๋ Œ๋”๋ง ๊ณผ์ •์—์„œ ์–ป์€ ๊ฐ’๊ณผ ์‹ค์ œ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ ์˜ค์ฐจ๋ฅผ ๋ฏธ๋ถ„ํ•ด(๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ) parameter ํ•™์Šต์„ ์ˆ˜ํ–‰
  1. 5์ฐจ์› ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋กœ mappingํ•˜๋Š” positional encoding์„ ์ œ์•ˆ. positional encoding ๋•๋ถ„์— NeRF๊ฐ€ ๊ณ ์ฃผํŒŒ์˜ scene์„ ์„ฑ๊ณต์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

โ€ป ์—ฌ๊ธฐ์„œ ๋” ๋†’์€ ์ฃผํŒŒ์ˆ˜๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ง์€ ๊ฒฝ๊ณ„์„ ์„ ํ‘œํ˜„ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋” ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๋œป


  • ๊ธฐ์กด์˜ ๋…ผ๋ฌธ๋“ค์€ 2D view๋ฅผ ํ†ตํ•ด์„œ 3D rendering view๋ฅผ ์ƒ์„ฑ์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์—ฌ๋Ÿฌ ๋…ธ๋ ฅ๊ณผ ๋ฐฉ๋ฒ•์„ ์ ์šฉํ–ˆ์Œ
  • ๊ธฐ์กด์˜ ๋ฐฉ๋ฒ•๋“ค์€, ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹๊ฑฐ๋‚˜, ๋„ˆ๋ฌด๋‚˜ ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์š”๊ตฌํ•œ๋‹ค๋Š” ๋‹จ์ ์œผ๋กœ ์ธํ•ด์„œ ์‹ค์ƒํ™œ์— ์ ์šฉ์‹œํ‚ค๊ธฐ ์–ด๋ ค์›€⇒ NeRF๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ๋“ค์„ ํ•ด๊ฒฐํ•˜์—ฌ, ์ ์€ ๋ฉ”๋ชจ๋ฆฌ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์˜ 3D rendering์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๊ณ  ์žˆ์Œ
  • NeRF์˜ ๊ฒฝ์šฐ, Novel View Synthesis ๋ถ„์•ผ์— ์ƒˆ๋กœ์šด ๋ฐฉ์‹์„ ์ œ์•ˆโ€ป Novel View Synthesis๋ž€: Point Cloud๋‚˜ Mesh, Voxel ๋“ฑ์œผ๋กœ ํ‘œํ˜„๋˜๋Š” 3D object ์ž์ฒด๋ฅผ ๋ Œ๋”๋งํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ, 3D object๋ฅผ ๋ฐ”๋ผ๋ณธ ๋ชจ์Šต(์ด๋ฏธ์ง€)๋“ค์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ
  • 3D ์šฉ์–ด
    • Point cloud(ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ): 3D ๊ณต๊ฐ„์—์„œ ๊ฐ์ฒด์˜ ํ‘œ๋ฉด์„ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ (Point)๋“ค๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋กœ, ๊ฐ ์ ์€ 3D ์ขŒํ‘œ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.
    • Mesh(๋ฉ”์‰ฌ): 3D ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ•˜๋Š” ์ •์ (Vertex), ์—์ง€(Edge), ๋ฉด(Face)์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๊ตฌ์กฐ๋กœ, ๊ฐ์ฒด์˜ ํ˜•ํƒœ์™€ ํ‘œ๋ฉด์„ ์ •ํ™•ํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Voxel(๋ณผ๋ฅจ): Voxel์€ 3D ๊ณต๊ฐ„์„ ์ž‘์€ 3D ํ”ฝ์…€๋กœ ๋‚˜๋ˆˆ ๊ฒƒ์œผ๋กœ, ๊ฐ ๋ณผ๋ฅจ ํ”ฝ์…€์€ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋กœ ์‚ฌ์šฉ๋˜์–ด 3D ๊ฐ์ฒด๋ฅผ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ์ฆ‰, ์—ฌ๊ธฐ์„œ๋Š” ๋ฌผ์ฒด๋ฅผ ๋ฐ”๋ผ๋ณธ ๋ชจ์Šต์˜ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋“  ๋ฐฉํ–ฅ์—์„œ ์•Œ ์ˆ˜ ์žˆ๋‹ค๋ฉด(์–ด๋””์„œ ๋ฐ”๋ผ๋ณด๋”๋ผ๋„ ํ•ด๋‹น ๋ฌผ์ฒด์˜ ๋ชจ์Šต์„ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒฝ์šฐ) ์ด๊ฒƒ ์ž์ฒด๋กœ๋„ ๋ฌผ์ฒด๋ฅผ 3D ๋ Œ๋”๋ง ํ–ˆ๋‹ค๊ณ  ๋ด„

 

2. NeRF: Neural Radiance Field

http://youtube.com/watch?embeds_referring_euri=https%3A%2F%2Fwww.matthewtancik.com%2F&source_ve_path=MTM5MTE3LDI4NjY0LDE2NDUwMw&feature=emb_share&v=JuH79E8rdKc

๐Ÿ’ก
<์ „์ฒด ์ง„ํ–‰ ๊ณผ์ •>
  1. ๋ชจ๋“  ์ ๋“ค์— ๋Œ€ํ•ด x,y,z,theta.. (3D์— ๋Œ€ ํ–‰๋ ฌ)๊ฐ’๋“ค์„ ๊ตฌํ•จ
  1. MLP ์— ์ง‘์–ด๋„ฃ์€ ํ›„, RGB ๊ฐ’์œผ๋กœ ๋ฐ˜ํ™˜
  1. ๋‹ค๋ฅธ ์ ๋“ค๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ง„ํ–‰
  1. ์ ๋“ค ์ค‘, sampling์œผ๋กœ ์„ ํƒ๋œ ์• ๋“ค์— ๋Œ€ํ•ด ํ•˜๋‚˜์˜ ๊ฐ’์œผ๋กœ ๋‹ค์‹œ ํ•ฉ์นจ (Volume Rendering) ์ด๋ผ๊ณ  ํ•จ
  1. ํ•˜๋‚˜์˜ ์ ์œผ๋กœ ๋งŒ๋“ค์–ด์คŒ

 

  1. ๋‹ค๋ฅธ ๋ชจ๋“  100์žฅ์˜ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ ์ง„ํ–‰ํ•œ ํ›„, ์ด์ฃผ๋ฉด ๋ฌผ์ฒด๊ฐ€ ์™„์„ฑ๋จ
  • 100๊ฐœ์˜ input ์ด๋ฏธ์ง€์™€ ๊ทธ์— ํ•ด๋‹น๋˜๋Š” 100๊ฐœ์˜ transpose ๊ฐ’๋“ค์„ input์œผ๋กœ ๋„ฃ์Œโ€ป transpose ๊ฐ’: ์ด๋ฏธ์ง€๋ฅผ ์ฐ์€ 3D ์ƒ์˜ ์œ„์น˜๋กœ ๋ณ€ํ™˜์‹œ์ผœ์ฃผ๋Š” ํ–‰๋ ฌ
  • ํ•™์Šต์„ ์ง„ํ–‰ํ•  ๋•Œ ํ•œ iteration๋งˆ๋‹ค ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€๋ฅผ Random Sampling ํ•˜์—ฌ NeRF ๋ชจ๋ธ์— ์ง‘์–ด๋„ฃ๊ฒŒ ๋˜๋Š”๋ฐ,
  • ํ•ด๋‹น input ์ด๋ฏธ์ง€๊ฐ€ 400x400 ํ•ด์ƒ๋„๋ผ๊ณ  ๊ฐ€์ •ํ•˜๋ฉด, ํ•œ ์ด๋ฏธ์ง€์— 160,000๊ฐœ์˜ ํ”ฝ์…€์ด ์žˆ๊ณ ,
  • ํ•™์Šต์˜ ํ•œ iteration์„ ๋Œ๋ฆด ๋•Œ๋งˆ๋‹ค 160,000๊ฐœ์˜ ํ”ฝ์…€ ์ค‘ 4096๊ฐœ์˜ ํ”ฝ์…€์„ Sampling ํ•˜์—ฌ input์œผ๋กœ ๋„ฃ์Œ. (5.3 Implementation Details)

โ€ป Ray: ๋ฌผ์ฒด๋ฅผ ์ฐ์€ ๋ฐฉํ–ฅ์œผ๋กœ๋ถ€ํ„ฐ ๋ฌผ์ฒด๋ฅผ ํ–ฅํ•˜๋„๋ก ์ผ์ง์„ ์œผ๋กœ ์œ ์„ ๋“ค์„ ์˜๋ฏธ

  • ์ฆ‰, 400x400 ์ด๋ฏธ์ง€์—๋Š” 160,000๊ฐœ์˜ Ray๊ฐ€ 3D ๋ฌผ์ฒด ๋ฐฉํ–ฅ์œผ๋กœ ์ผ์ง์„ ์„ ์˜๊ฒŒ ๋จ
  • Ray์˜ ๋ฐฉํ–ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” viewing direction (d)๊ฐ’๊ณผ Ray ์ง์„  ๋‚ด ํฌํ•จ๋˜๋Š” point๋“ค์˜ 3d์ขŒํ‘œ๊ฐ’ coordinates (x : x,y,z)๋“ค์„ ๋ชจ๋ธ input ์— ๋„ฃ๋Š”๋‹ค๊ณ  ํ•จ
  • input์œผ๋กœ ๋“ค์–ด๊ฐˆ ๋•Œ, ๋ชจ๋“  ์ ๋“ค์ด ๋“ค์–ด๊ฐ€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ผ๋ถ€๋งŒ sampling ํ•ด์„œ ์„ ํƒ๋œ ์ ๋“ค๋งŒ ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด๊ฐโ€ป 256๊ฐœ์˜ point๊ฐ€ ํ•œ ray์—์„œ sampling ๋œ๋‹ค๊ณ  ์น˜๋ฉด, ํ•œ๋ฒˆ iteration์ด ๋Œ ๋•Œ 4096 x 256 = 2^20 ๊ฐœ์˜ point๋“ค์ด MLP ๋ชจ๋ธ์˜ input์— ๋“ค์–ด๊ฐ„๋‹ค๊ณ  ์ผ๋‹จ ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค๊ณ  ํ•จ

 

3. Model

  • NeRF: 8๊ฐœ์˜ Linear Layer๋กœ ์ด๋ฃจ์–ด์ง„ MLP
  • F(theta)๊ฐ€ ์ด ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Œ

1. Input

  • sample pixel from image 1024(2^10)๊ฐœ , sample point from ray 64(2^6)๊ฐœ๋ฅผ ์‚ฌ์šฉํ•ด์„œ input point๊ฐ€ ์ด 65536(2^16)๊ฐœ๋ผ๊ณ  ๊ฐ€์ •

3D coordinates (x : x,y,z) ์ขŒํ‘œ๋ฅผ ํฌํ•จํ•˜๋Š” 65536๊ฐœ์˜ point๋กœ [65536 , 3] ์ด input์œผ๋กœ ๋“ค์–ด๊ฐ

2. Positional Encoding

  • 3์„ 63์œผ๋กœ ๋Š˜๋ ค์คŒ ⇒ ์ตœ์ข… [65536,63]์ด Input์œผ๋กœ ๋“ค์–ด๊ฐ
  • Positional encoding: Deep Network์˜ ๊ฒฝ์šฐ, Lower Frequency(์ €์ฃผํŒŒ)๋กœ ํŽธํ–ฅ๋˜์–ด ์ €์ฃผํŒŒ์˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด์„œ ํ•™์Šตํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์กด์žฌโ€ป ๋”ฅ ๋„คํŠธ์›Œํฌ์˜ ์—ฌ๋Ÿฌ ์ธต์„ ํ†ต๊ณผํ•˜๋ฉด์„œ ๊ณ ์ฃผํŒŒ ์„ฑ๋ถ„์ด ๋ถ€๋ถ„์ ์œผ๋กœ ์†์‹ค๋˜๊ฑฐ๋‚˜ ๋ชจํ˜ธํ•ด์ง€๋Š” ํ˜„์ƒ์„ ์˜๋ฏธํ•จ (pooling์ด๋‚˜ stride๊ณผ ๊ฐ™์€ downsampling ํ˜น์€ ํ™œ์„ฑํ™”ํ•จ์ˆ˜์˜ ๋น„์„ ํ˜• ๋ณ€ํ™˜์— ์˜ํ•ด์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ) ⇒ ํ•„์š”ํ•œ ํŠน์ง•๋งŒ ์ถ”์ถœํ•˜๊ธฐ์—
๐Ÿ’ก
- ์ €์ฃผํŒŒ (Low Frequency): ์ €์ฃผํŒŒ ์„ฑ๋ถ„์€ ์ฃผํŒŒ์ˆ˜๊ฐ€ ๋‚ฎ์€ ๋ณ€ํ™”๋‚˜ ํŒจํ„ด์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ €์ฃผํŒŒ ์„ฑ๋ถ„์€ ๋Œ€์ฒด๋กœ ์ „์ฒด์ ์ธ ๊ตฌ์กฐ๋‚˜ ์ผ๋ฐ˜์ ์ธ ํŠน์ง•์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ €์ฃผํŒŒ ์„ฑ๋ถ„์€ ์ด๋ฏธ์ง€์—์„œ ๋Š์Šจํ•œ ๊ฒฝ๊ณ„, ์ „์ฒด์ ์ธ ์ƒ‰์ƒ ๋˜๋Š” ์ผ๋ฐ˜์ ์ธ ํ˜•ํƒœ ๋“ฑ๊ณผ ๊ฐ™์€ ์ „๋ฐ˜์ ์ธ ์ •๋ณด๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

- ๊ณ ์ฃผํŒŒ (High Frequency): ๊ณ ์ฃผํŒŒ ์„ฑ๋ถ„์€ ์ฃผํŒŒ์ˆ˜๊ฐ€ ๋†’์€ ๋ณ€ํ™”๋‚˜ ์„ธ๋ถ€์ ์ธ ํŒจํ„ด์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ณ ์ฃผํŒŒ ์„ฑ๋ถ„์€ ๋ฏธ์„ธํ•œ ์„ธ๋ถ€ ์‚ฌํ•ญ์ด๋‚˜ ๋‚ ์นด๋กœ์šด ๋ณ€ํ™”, ์ž‘์€ ํŠน์ง•์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณ ์ฃผํŒŒ ์„ฑ๋ถ„์€ ์ด๋ฏธ์ง€์—์„œ ๋‚ ์นด๋กœ์šด ๊ฒฝ๊ณ„, ์„ ๋ช…ํ•œ ์„ธ๋ถ€ ํ…์Šค์ฒ˜, ์ž‘์€ ์˜ค๋ธŒ์ ํŠธ ๋“ฑ๊ณผ ๊ฐ™์€ ์„ธ๋ถ€์ ์ธ ์ •๋ณด๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ⇒ ์ดˆ๊ธฐ ์ธต์—์„œ๋Š” ์ฃผ๋กœ ์ €์ฃผํŒŒ ์„ฑ๋ถ„์— ๋ฐ˜์‘ํ•˜๋Š” ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด์„œ ์ „๋ฐ˜์ ์ธ ๊ตฌ์กฐ์™€ ์ผ๋ฐ˜์ ์ธ ํŠน์„ฑ์„ ํ•™์Šต. ์ดํ›„ ์ธต์—์„œ๋Š” ์ ์ฐจ ๊ณ ์ฃผํŒŒ ์„ฑ๋ถ„์— ๋ฏผ๊ฐํ•œ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด์„œ ์„ธ๋ถ€์ ์ธ ํŠน์ง•๊ณผ ๋ณ€ํ™”๋ฅผ ๋ฏผ๊ฐํ•˜๊ฒŒ ํ•™์Šตํ•จ.

  • ๊ทธ๋ž˜์„œ, NeRF๋Š” Positional Encoding ๊ณผ์ •์„ ํ†ตํ•ด input์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋Š˜๋ ค์ฃผ๊ณ ์ž ํ•จ ( Data augmentation) ๊ฐœ๋…์œผ๋กœ ์ƒ๊ฐํ•˜๋ฉด ๋จ
  1. (์–˜๋Š” ์œ„์น˜์— ๋Œ€ํ•œ ๊ฐ’) 3D ์ขŒํ‘œ์— ๋Œ€ํ•ด L=10์ผ ๊ฒฝ์šฐ, sin์€ 2^0 ~ 2^9, cos๋„ 2^0 ~ 2^9์ด๊ธฐ์—, ์ด 20๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ์„ฑ๋จ . ์—ฌ๊ธฐ์„œ x,y,z์— ๋Œ€ํ•œ ๊ฐ’์ด p์— ํ•˜๋‚˜์”ฉ ๋“ค์–ด๊ฐ€์•ผ ํ•˜๊ธฐ์— ๊ฒฐ๊ตญ 20*3=60๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ์„ฑ๋จ.
  1. (์–˜๋Š” ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ๊ฐ’) Viewing Direction(d)(๋’ท์ชฝ ๋ ˆ์ด์–ด์— ์žˆ์Œ. input x) ์— ๋Œ€ํ•ด L=4์ธ ๊ฒฝ์šฐ, sin์€ 2^0 ~ 2^3, cos๋„ 2^0 ~ 2^3์ด๊ธฐ์— ์ด 8๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ์„ฑ๋จ.โ€ป ์—ฌ๊ธฐ์„œ viewing direction์€ ๋ฐฉํ–ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” 3์ฐจ์› ๋ฒกํ„ฐ๋ผ๊ณ  ํ•จ ⇒ ์ฆ‰ ์–˜๋„ 8*3์„ ํ•˜๋ฉด 24๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ์„ฑํ•˜๊ฒŒ ๋จ.

3. 8๊ฐœ์˜ layer์„ ๊ฑฐ์นจ

  • density output์„ ๋ฝ‘์•„๋ƒ„ (x,y,z,theta) ๋ญ์‹œ๊ธฐ

4. Ray์˜ viewing direction (d) ๊ฐ’์„ input์œผ๋กœ ๋„ฃ์Œ

  • positional encoding ํ•œ ๊ฐ’ (24๊ฐœ ๋ฐ์ดํ„ฐ)
๐Ÿ’ก
๐Ÿ’ข viewing direction(๋ฌผ์ฒด๋ฅผ ๋ฐ”๋ผ๋ณด๋Š” ๋ฐฉํ–ฅ) ์ด๋•Œ, viewing direction(d) ๋ฅผ ๋„ฃ๋Š” ์ด์œ ? : ๋ฌผ์ฒด๋ฅผ ๋ฐ”๋ผ๋ณด๋Š” ๋ฐฉํ–ฅ ๋•Œ๋ฌธ์—, RGB ๊ฐ’ ๋˜ํ•œ ๋‹ฌ๋ผ์ง„๋‹ค!! ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์—, density๋ฅผ ์–ป์–ด๋‚ธ ํ›„(์ขŒํ‘œ), input์œผ๋กœ viewing direction ๊ฐ’์ด ๋ชจ๋ธ ํ›„๋ฐ˜์— ์ถ”๊ฐ€์ ์œผ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ๋จ. !!!! (3D ์ขŒํ‘œ๊ฐ’์€ RGB์™€ density ๋‘˜๋‹ค ์˜ํ–ฅ์„ ์ค€๋‹ค๊ณ  ํ•จ)

5. ์ตœ์ข… RGB output ๊ฐ’์„ ์–ป์–ด๋ƒ„

 

 

4. Volume Rendering

  • Model์˜ Output์œผ๋กœ ๋‚˜์˜จ ํ•œ Ray์˜ Color์™€ density ๊ฐ’๋“ค์€ ํ•œ pixel๋กœ ํ•ฉ์ณ์ง€๋Š” Volume Rendering ๊ณผ์ •์„ ๊ฑฐ์นจ.
  • ํ•ฉ์ณ์ง„ pixel rgb๊ฐ’์€ ์‹ค์ œ ์ด๋ฏธ์ง€์˜ pixel rgb๊ฐ’๊ณผ MSE Loss๋ฅผ ๊ฑฐ์ณ Back propagation์„ ํ†ตํ•ด ํ•™์Šต์ด ์ง„ํ–‰๋จ.
  • Ray ๋‚ด์—์„œ point๋“ค์„ ์ƒ˜ํ”Œ๋งํ•  ๋•Œ, ๋ฌผ์ฒด๊ฐ€ ์žˆ์„๋ฒ•ํ•œ ๋ฒ”์œ„๋ฅผ ์ •ํ•ด๋‘๊ณ  ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด point๋ฅผ near, ๊ฐ€์žฅ ๋จผ point๋ฅผ far๋กœ ์ •ํ•จ
๐Ÿ’ก
ํˆฌ๊ณผ๋„T(t): ์•ž์— ๊ฐ€๋ ค์ง„ ๋ถ€๋ถ„์˜ density๊ฐ€ ํด์ˆ˜๋ก(๋ฐฉํ•ด๋˜๋Š” ๊ฒƒ์ด ๋งŽ์„์ˆ˜๋ก), ํ•ด๋‹น weight ๊ฐ’์ด ์ž‘์•„์ง„๋‹ค(์ž˜ ๋ณด์ด์ง€ ์•Š๊ธฐ์—) ๋Š” ๊ฐœ๋… ex) ์šฐ๋ฆฌ๊ฐ€ ๋ฐ”๋ผ๋ณธ ์‹œ์ ์— ๊ฐ์ฒด๊ฐ€ ์—†์œผ๋ฉด ๋ฉ€๋ฆฌ ์žˆ๋Š” ๊ฒƒ๋„ ๋ณด์ด์ง€๋งŒ ์•ž์— ๋ถˆํˆฌ๋ช…ํ•œ ๊ฐ์ฒด๊ฐ€ ์žˆ์œผ๋ฉด ๊ฐ€๊นŒ์ด ์žˆ๋Š” ๊ฐ์ฒด๋งŒ ๋ณด์ธ๋‹ค๋Š” ๊ฐœ๋…์—์„œ wieght๋ฅผ ์ž‘๊ฒŒ ๋ถ€์—ฌ.
  • ์ˆ˜์‹์ ์œผ๋กœ๋Š” t_n ์—์„œ t_f ๊นŒ์ง€ ์ ๋“ค์˜ ํˆฌ๊ณผ๋„ X density X color(rgb) ๋ฅผ ์ ๋ถ„ํ•˜์—ฌ Volume Rendering์„ ์™„์„ฑํ•จ
  • t_n์™€ t_f ์‚ฌ์ด์˜ point๋“ค์„ Random Sampling ํ•˜์—ฌ ๋ชจ๋ธ์— ๋„ฃ์–ด color, denity ๊ฐ’์„ ๊ตฌํ•œ ํ›„,

์œ„ ๊ฐ’๋“ค ( ํˆฌ๊ณผ๋„ density color(rgb) ) ์„ ๋ชจ๋‘ ๋”ํ•จ

  • Random Sampling์„ ํ•˜๋Š” ์ด์œ ๋Š” Ray๋ฅผ ๋“ฑ๋ถ„ํ•ด์„œ discreteํ•œ(์ผ์ •ํ•œ) ๋ฐ์ดํ„ฐ๋ฅผ ๋ฝ‘์•„๋‚ด๊ฒŒ ๋˜๋ฉด, ํ•œ์ •๋œ ์ ๋งŒ ๋ฝ‘ํžˆ๊ธฐ ๋•Œ๋ฌธ์— continuousํ•˜์ง€ ๋ชปํ•œ ๋ชจ๋ธ์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ .
  • ์ด ๊ณผ์ •์ด ์ผ๋‹จ ๊ธฐ๋ณธ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ์ด๊ณ , Coarse Model ์ด๋ผ๊ณ  ํ•จ
  • ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๊ธฐ ์œ„ํ•ด ray ๋‚ด์— density๊ฐ€ ๋†’์€ ๋ถ€๋ถ„์— ์ถ”๊ฐ€์ ์ธ Sampling์„ ์ง„ํ–‰ํ•˜์—ฌ ์ „์ฒด์ ์ธ ๋ชจ๋ธ์„ ์™„์„ฑ์‹œํ‚ด ⇒ Fine Model์ด๋ผ๊ณ  ํ‘œํ˜„ (6. Hierarchival Volume Sampling)

 

 

5. Hierarchical Volume Sampling

  • ๋ฐ”๋กœ ์œ— ๋‹จ๊ณ„์—์„œ NeRF๋Š” ํ•œ ๋‹จ๊ณ„ ๋” ์ง„ํ–‰ํ•จ.
  • density๊ฐ€ ๋†’์€ ๊ฐ’๋“ค์„ ์œ„์ฃผ๋กœ ๋‹ค์‹œ Sampling ํ•˜์—ฌ Volume Rendering์‹œํ‚ด.
  • density๊ฐ€ ๋†’์€ ์ชฝ์— ๋ถ„ํฌํ•œ point๋“ค์ด ์‹ค์ œ๋กœ ์˜๋ฏธ์žˆ๋Š” ๊ฐ’๋“ค์ด ๋งŽ์„ ๊ฒƒ์ด๋ผ๋Š” ๊ฐ€์ •์ด ์ˆ˜์‹์˜ ํ‘œํ˜„
  • Coarse Model(C_c)์„ ๋Œ๋ ค์„œ ๋‚˜์˜จ ๊ฐ’๊ณผ GT(์‹ค์ œ๊ฐ’)์™€์˜ Loss, Fine Model(C_f)์„ ๋Œ๋ ค์„œ ๋‚˜์˜จ ๊ฐ’๊ณผ GT์™€์˜ Loss ๋ฅผ ๊ฐ๊ฐ ๊ตฌํ•˜์—ฌ ๋”ํ•œ ๊ฒƒ์œผ๋กœ ์ „์ฒด Loss๋ฅผ ์ •ํ•จ.
  • Coarse Network ์™€ Fine Network์˜ Loss๋ฅผ ๋”ํ•ด์คŒ

 

 

6. Results

  • PE๋Š” ‘Positional Encoding’, VD๋Š” ‘View Dependence’, H๋Š” ‘Hierarchical Sampling’์„ ์˜๋ฏธ

 

7. Reference

https://nuggy875.tistory.com/168

https://velog.io/@minkyu4506/NeRF-Representing-Scenes-asNeural-Radiance-Fields-for-View-Synthesis-๋ฆฌ๋ทฐ

<๋ฌดํ•œํ•œ ๊ฐ์‚ฌ…ํ•ฉ๋‹ˆ๋‹ค.. ์—†์—ˆ๋‹ค๋ฉด ์ดํ•ดํ•˜๊ธฐ ๋„ˆ๋ฌด ํž˜๋“ค์—ˆ์„ ๊ฒƒ ๊ฐ™์•„์š” ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค!>

 


728x90
๋ฐ˜์‘ํ˜•