๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Deep Learning/2023 DL ๊ธฐ์ดˆ ์ด๋ก  ๊ณต๋ถ€

[๋ฐ‘๋ฐ”๋‹ฅ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ 1] chap4(์‹ ๊ฒฝ๋ง ํ•™์Šต)

by ์ œ๋ฃฝ 2023. 7. 8.
728x90
๋ฐ˜์‘ํ˜•

 

4-1) ์†์‹คํ•จ์ˆ˜
  • ์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์ด์šฉํ•ด ๊ฐ€์ค‘์น˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ ํ•ฉํ•˜๊ฒŒ ๋ฝ‘ํ˜”๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋งŒ๋“ค์–ด์ง
  • ์ตœ์†Œ๋กœ ํ•˜๋Š” ๊ฒƒ์ด ์‹ ๊ฒฝ๋ง์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ฒƒ
  • ์ง€ํ‘œ๋ฅผ ์ข‹๊ฒŒ ํ•ด์ฃผ๋Š” ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜ ํƒ์ƒ‰.
์˜ค์ฐจ์ œ๊ณฑํ•ฉ(Sum of Squares for Error, SSE) - ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ
  • yk: ์‹ ๊ฒฝ๋ง์˜ ์ถœ๋ ฅ(์‹ ๊ฒฝ๋ง์ด ์ถ”์ •ํ•œ ๊ฐ’)
  • tk: ์ •๋‹ต ๋ ˆ์ด๋ธ”
  • k: ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›
๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์˜ค์ฐจ- ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ ๋ถ„๋ฅ˜
  • ์—”ํŠธ๋กœํ”ผ: ์‚ฌ๊ฑด A๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด ๋‚ฎ์„์ˆ˜๋ก ์ปค์ง€๋Š” ์กด์žฌ
  • tk(์ •๋‹ต ๋ ˆ์ด๋ธ”): ์ •๋‹ต๋งŒ1์ด๊ณ  ๋‚˜๋จธ์ง€๋Š” 0 ⇒ ์›ํ•ซ ๋ฒกํ„ฐ ์‚ฌ์šฉ
  • ๋”ฐ๋ผ์„œ, ์‹ค์งˆ์ ์œผ๋กœ ์ •๋‹ต์ผ ๋•Œ์˜ ์ž์—ฐ๋กœ๊ทธ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Œ
  • ์ปค์งˆ์ˆ˜๋ก 0๊ณผ ๋ฉ€์–ด์ง(์ •๋‹ต๊ณผ ๋ฉ€์–ด์ง€๋Š” ๊ฒƒ์„ ์˜๋ฏธ ⇒ ์ž‘๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ)

 

 

4-2) ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ํ•™์Šต
  1. ํ‰๊ท  ์†์‹ค ํ•จ์ˆ˜

⇒ ๋ฐฐ์น˜ํ•™์Šต์‹œ, ๋ฐฐ์น˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์†์‹คํ•จ์ˆ˜ ๊ฐ’๋“ค์˜ ํ•ฉ์„ ์ง€ํ‘œ๋กœ ์‚ผ์Œ.

⇒ ๊ฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ตฌํ•œ ํ›„, ๊ฐ’๋“ค์˜ ํ‰๊ท ๊ฐ’์„ ๊ตฌํ•ด ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ตฌํ•จ

  1. ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์ง€๋ฉด ํ•™์Šต ์‹œ๊ฐ„์ด ์˜ค๋ž˜๊ฑธ๋ฆฌ๊ฒŒ ๋จ ⇒ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ํ™œ์šฉ
  1. ๋ฏธ๋‹ˆ ๋ฐฐ์น˜
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ์ง€์ •ํ•œ ์ˆ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๊ณจ๋ผ๋ƒ„.
  • ์ผ๋ถ€ ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ๋กœ ์ „์ฒด๋ฅผ ๋น„์Šทํ•˜๊ฒŒ ์˜ˆ์ธก
4-3) ๋ฏธ๋ถ„
  • ๋ฏธ๋ถ„: ํ•œ ์ ์—์„œ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ์˜๋ฏธ
  • ๊ธฐ์šธ๊ธฐ: ๋‘ ์  ์‚ฌ์ด์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ฒฝ์‚ฌ
  • ์ˆ˜์น˜ ๋ฏธ๋ถ„(์ „๋ฐฉ์ฐจ๋ถ„ ↔ ์ค‘์‹ฌ์ฐจ๋ถ„(์ค‘์•™์ฐจ๋ถ„):
    • ์ฐจ๋ถ„์„ ํ†ตํ•ด ๋ฏธ๋ถ„ํ•˜๋Š” ๊ฒƒ (์ฐจ๋ถ„: ์ž„์˜์˜ ๋‘ ์ ์—์„œ์˜ ํ•จ์ˆ˜ ๊ฐ’๋“ค์˜ ์ฐจ์ด๋ฅผ ๋งํ•œ๋‹ค)

    ์‹์˜ ์˜๋ฏธ: x์˜ ๋ณ€ํ™”๊ฐ€ ํ•จ์ˆ˜ f(x)๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ™”์‹œํ‚ค๋Š”๊ฐ€๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ. h๋ฅผ 0์œผ๋กœ ๊ทผ์ ‘์‹œ์ผœ ํ•œ ์ˆœ๊ฐ„์˜ ๋ณ€ํ™”๋Ÿ‰์„ ๋‚˜ํƒ€๋ƒ„.

    • ์ˆ˜์น˜ ๋ฏธ๋ถ„์˜ ๋ฌธ์ œ์  (๋ฐ˜์˜ฌ๋ฆผ ์˜ค์ฐจ, ์ฐจ๋ถ„ ๋ฌธ์ œ)
      1. ๋ฐ˜์˜ฌ๋ฆผ์˜ค์ฐจ
        • ์ž‘์€๊ฐ’์ด ์ƒ๋žต๋˜์–ด ์ตœ์ข… ๊ณ„์‚ฐ ๊ฒฐ๊ณผ์— ์˜ค์ฐจ ๋ฐœ์ƒ
        • ex) np.float32(1e-50) ⇒ 0.0 ๋ฐ˜ํ™˜
        • ๋„ˆ๋ฌด ์ž‘์€ ๊ฐ’์„ ์ด์šฉํ•˜๋ฉด ์ปดํ“จํ„ฐ๋กœ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒ.
        • ๋”ฐ๋ผ์„œ h-10^-4์˜ ๊ฐ’์„ ํ™œ์šฉ
      1. ์ฐจ๋ถ„ ๋ฌธ์ œ
      • ์ง„์ •ํ•œ ์ ‘์„ : x์—์„œ์˜ ํ•จ์ˆ˜ ๊ธฐ์šธ๊ธฐ(์ ‘์„ )
      • but ํ˜„์žฌ ์‹์˜ ๊ฒฝ์šฐ, x+h์™€ x ์‚ฌ์ด์˜ ๊ธฐ์šธ๊ธฐ
      • ⇒ h๋ฅผ ๋ฌดํ•œํžˆ 0์œผ๋กœ ๊ทผ์ ‘์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋ถˆ๊ฐ€๋Šฅํ•ด์„œ ๋ฐœ์ƒํ•œ ํ•œ๊ณ„
      • ๋”ฐ๋ผ์„œ ์ค‘์‹ฌ์ฐจ๋ถ„(์ค‘์•™์ฐจ๋ถ„)์„ ํ™œ์šฉ

      (x+h) ์™€ (x-h) ์‚ฌ์ด์˜ ํ•จ์ˆ˜ ์ฐจ๋ถ„์„ ๊ณ„์‚ฐ ( x๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์ „ํ›„๋ฅผ ๊ณ„์‚ฐ)

       

  • ํŽธ๋ฏธ๋ถ„

    .

4-4) ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(๊ฒฝ์‚ฌ๋ฒ•)
  • ์ตœ์ ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜(๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ) ์ฐพ๊ธฐ (์ตœ์ ํ™”๋œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ฐพ๊ธฐ)
  • ์ตœ์ : ์†์‹คํ•จ์ˆ˜๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋  ๋•Œ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ (w,b)
  • ํ•™์Šต๋ฅ : ํ•œ ๋ฒˆ ํ•™์Šต ์‹œ๋งˆ๋‹ค ์–ผ๋งˆ๋‚˜ ๊ฐˆ ๊ฒƒ์ธ์ง€(์ ์ • ์„ ์œผ๋กœ ์„ค์ •, ๋ณดํ†ต 0.01 or 0.001)

x์ถ•: w,b

y์ถ•: cost(w,b) ๊ฐ’์œผ๋กœ ํ‘œํ˜„

⇒ cost(w,b)๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ์ง€์ ์„ ์ฐพ๊ณ ์ž ํ•จ ⇒ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•

ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•
  • 1๋‹จ๊ณ„: ๋ฏธ๋‹ˆ๋ฐฐ์น˜(๋ฌด์ž‘์œ„๋กœ ์„ ์ •)
  • 2๋‹จ๊ณ„: ๊ธฐ์šธ๊ธฐ ์‚ฐ์ถœ
  • 3๋‹จ๊ณ„: ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐฑ์‹ 
  • 4๋‹จ๊ณ„: 1~3๋‹จ๊ณ„ ๋ฐ˜๋ณต

⇒ ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• (๋ฏธ๋‹ˆ๋ฐฐ์น˜+ ํ•˜๊ฐ•๋ฒ• ์‚ฌ์šฉ)

→ ๋ฐฐ์น˜ ํฌ๊ธฐ= ํ•™์Šต ๋ฐ์ดํ„ฐ

↔ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•: ๋ฐฐ์น˜ ํฌ๊ธฐ<ํ•™์Šต ๋ฐ์ดํ„ฐ ์…‹ ํฌ๊ธฐ

728x90
๋ฐ˜์‘ํ˜•