๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90
๋ฐ˜์‘ํ˜•

Deep Learning/2023 DL ๊ธฐ์ดˆ ์ด๋ก  ๊ณต๋ถ€28

[ํŒŒ์ด์ฌ ๋”ฅ๋Ÿฌ๋‹ ํŒŒ์ดํ† ์น˜] Part3 ๊ธฐ์กด ์‹ ๊ฒฝ๋ง์˜ ๋‹จ์ : ๊ณผ์ ํ•ฉ Gradient Vanishing ++ Internal Covariance Shift ํ˜„์ƒ ๋ฐœ์ƒ ( Input ๋ถ„ํฌ๊ฐ€ ๋‹ฌ๋ผ์ง์— ๋”ฐ๋ผ ํ•™์Šต ์†๋„๊ฐ€ ๋Š๋ ค์ง€๋Š” ํ˜„์ƒ ⇒ ์ด๋ฅผ ์™„ํ™”์‹œํ‚ค๊ณ ์ž ๋”ฅ๋Ÿฌ๋‹์ด ๋‚˜์˜ค๊ฒŒ ๋จ ๊ณผ์ ํ•ฉ๊ณผ ๊ธฐ์šธ๊ธฐ ๊ฐํ‡ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ ๋”ฅ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ• drop - out ํ•™์Šต ์‹œ์—๋Š” dropout ์‹คํ–‰ ํ‰๊ฐ€ ์‹œ์—๋Š” drop out ์‚ฌ์šฉx (๋ชจ๋“  ๋…ธ๋“œ๋ฅผ ํ™œ์šฉํ•ด output ๊ณ„์‚ฐ) activation ํ•จ์ˆ˜ relu ํ•จ์ˆ˜ ์ž…๋ ฅ ๊ฐ’์ด 0 ์ด์ƒ ๋ถ€๋ถ„์ด๋ฉด ๊ธฐ์šธ๊ธฐ 1, 0 ์ดํ•˜ ๋ถ€๋ถ„์€ 0 ⇒ ๋”ฐ๋ผ์„œ ์•„์˜ˆ ์—†์–ด์ง€๊ฑฐ๋‚˜ ์™„์ „ํžˆ ์‚ด๋ฆฌ๋Š” ๊ฒƒ์œผ๋กœ ํ•ด์„ ๊ฐ€๋Šฅ ⇒ ๋ ˆ์ด์–ด๊ฐ€ ๊นŠ์–ด์ ธ๋„ Gradient Vanishing์ด ์ผ์–ด๋‚˜๋Š” ๊ฒƒ์„ ์™„ํ™”์‹œํ‚ด Batch Normalization Internal Covarian.. 2023. 7. 8.
[ํŒŒ์ด์ฌ ๋”ฅ๋Ÿฌ๋‹ ํŒŒ์ดํ† ์น˜] Part5 part5-1 Data & Task: ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์„๊นŒ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) : text ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๋ชจ๋ธ๋ง ํ•˜๋Š” ๋ถ„์•ผ (NLU+NLG) ์ž์—ฐ์–ด ์ดํ•ด(NLU): ์ž์—ฐ์–ด ์ดํ•ดํ•˜๋Š” ์˜์—ญ ์ž์—ฐ์–ด ์ƒ์„ฑ(NLG): ์ž์—ฐ์–ด ์ƒ์„ฑ ๊ฐ์ •๋ถ„์„ (sentiment analysis) ์š”์•ฝ(summarization) ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(machine translation) ์งˆ๋ฌธ ์‘๋‹ต(question answering) +a (ํ’ˆ์‚ฌ ์˜ˆ์ธก ๋ถ„์•ผ, ์ฑ—๋ด‡ ์—ฐ๊ตฌ, ๋ฌธ์žฅ ๊ฐ„์˜ ๋…ผ๋ฆฌ์  ๊ด€๊ณ„์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜ ๋ชจ๋ธ, ์ค‘์˜์  ํ‘œํ˜„ ๊ตฌ๋ณ„, ์ด๋ฏธ์ง€ ์† ์ƒํ™ฉ ์„ค๋ช… ๊ธ€ ๋งŒ๋“ค๊ธฐ ๋“ฑ๋“ฑ part5-2 ๋ฌธ์ž๋ฅผ ์ˆซ์ž๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ• Tokenization: ๋ฌธ์žฅ์„ ์˜๋ฏธ ์žˆ๋Š” ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ„๋Š” ๊ณผ์ • ์—ฐ์†๋œ ๋ฌธ์ž์˜ ๋‚˜์—ด(๋ฌธ์žฅ)์„ ์ ์ ˆํ•˜๊ฒŒ ์˜๋ฏธ๋ฅผ ์ง€๋‹Œ ๋ถ€๋ถ„์˜ ๋‚˜์—ด๋กœ ๋ฐ”.. 2023. 7. 8.
[Standford_cs231n] Lecture 2 ) Image Classification 0. Image Classification Semantic gap: ์ด๋ฏธ์ง€๊ฐ€ ๊ณ ์–‘์ด๋ผ๋Š” ์‚ฌ์‹ค๊ณผ, ์‹ค์ œ ์ปดํ“จํ„ฐ๊ฐ€ ๋ณด๋Š” ์ € ์ˆซ์ž๊ฐ’์—๋Š” ํฐ ๊ฒฉ์ฐจ๊ฐ€ ์กด์žฌ ⇒ ์ด๋ฅผ ์‹œ๋ฉ˜ํ‹ฑ ๊ฐญ์ด๋ผ๊ณ  ์นญํ•จ. ์ฐ๋Š” ๊ตฌ๋„๋‚˜ ์กฐ๋ช…, ์ž์„ธ ๋ณ€ํ™”, ์‚ฌ๋ฌผ์— ๊ฐ€๋ ค์ง€๋Š” ๋“ฑ ์ด๋Ÿฌํ•œ ๋ณ€ํ™”์— ๋”ฐ๋ผ ํ”ฝ์…€๊ฐ’๋“ค์€ ๋ณ€ํ•˜๊ฒŒ ๋˜๋Š”๋ฐ, ๊ทธ๋Ÿผ์—๋„ ์ปดํ“จํ„ฐ๋Š” ‘๊ณ ์–‘์ด’๋ผ๊ณ  ์ธ์‹ ํ•  ์ˆ˜ ์žˆ์–ด์•ผํ•จ. ๊ทธ๋ž˜์„œ ์ด๋ฏธ์ง€์—์„œ edges์„ ์ถ”์ถœํ•˜๊ณ , ๊ท€๋ชจ์–‘์ด๋‚˜ ์ฝ”๋ชจ์–‘ ๊ฐ™์€ ๊ณ ์–‘์ด์—๊ฒŒ ํ•„์š”ํ•œ ์ง‘ํ•ฉ๋“ค์„ ํ•˜๋‚˜์”ฉ ์ฐพ์•„์„œ ์ด๋Ÿฌํ•œ ์ง‘ํ•ฉ๋“ค์ด ๋‹ค ์žˆ์œผ๋ฉด ๊ณ ์–‘์ด๋‹ค ๋ผ๊ณ  ์ธ์‹ํ•˜๊ฒŒ ํ•จ.⇒ ํ•˜์ง€๋งŒ ๋น„ํšจ์œจ์ , ์ž˜ ์ž‘๋™ํ•˜์ง€ ์•Š์Œ ⇒ ๋‹ค๋ฅธ ๊ฐ์ฒด(๊ฐ•์•„์ง€๋‚˜ ์ง‘)๋“ค์„ ์ธ์‹ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ทธ ํด๋ž˜์Šค์— ๋งž๋Š” ์ง‘ํ•ฉ์„ ๋˜ ํ•˜๋‚˜์”ฉ ๋‹ค ๋งŒ๋“ค์–ด์ค˜์•ผ ํ•˜๋Š” ๋ฌธ์ œ ๋ฐœ์ƒ. ↔ ์ด๋ž˜์„œ ๋‚˜์˜จ ๋ฐฉ๋ฒ•์ด ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ ๋ฐฉ๋ฒ•(Data-Driv.. 2023. 7. 8.
[Standford_cs231n] Lecture 3 ) Loss Functions and Optimization 1. Loss Function ์‚ฌ์ง„์—์„œ ๋ณด์ด๋Š” score๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก W์˜ ์˜ํ–ฅ๋ ฅ๋„ ์•ˆ์ข‹์€ ๊ฒƒ์ด๋ผ๊ณ  ๋งํ•  ์ˆ˜ ์žˆ์Œ( ๋ถ„๋ฅ˜๋ฅผ ์ž˜ ํ•˜์ง€ ๋ชปํ–ˆ์œผ๋ฏ€๋กœ ) W๊ฐ€ ์ข‹๋‹ค ์•ˆ์ข‹๋‹ค ์ •๋„๋กœ ์ •๋Ÿ‰ํ™” ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•จ ⇒ loss function W(๊ฐ€์ค‘์น˜)๊ฐ€ ์–ผ๋งŒํผ ์ข‹๊ณ  ์•ˆ์ข‹๋‹ค๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ ์†์‹คํ•จ์ˆ˜์ž„. SVM loss( hinge loss ) softmax loss( cross entropy ) 1-1) Multiclass SVM loss ์ •๋‹ตํด๋ž˜์Šค≥์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค+1 ⇒ loss=0 ( ๋งค์šฐ ์ข‹์Œ ) ex) cat๊ณผ car์˜ ๊ฒฝ์šฐ : ์ •๋‹ตํด๋ž˜์Šค(3.2)≥์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค(5.1)+1 ์ด ์•„๋‹ˆ๋ฏ€๋กœ ํ•ด๋‹น ๊ฐ’์„ loss ๊ฐ’์œผ๋กœ cat๊ณผ frog์˜ ๊ฒฝ์šฐ : ์ •๋‹ตํด๋ž˜์Šค(3.2)≥ ์ •๋‹ต์•„๋‹Œํด๋ž˜์Šค(-1.7)+1 ์ด๋ฏ€.. 2023. 7. 8.
[Standford_cs231n] Lecture 4 ) Introduction to Neural Networks 4-1) Computational graphs 4-2) Backpropagation 4-3) Gradient for vectorized code ์•ž์—์„œ ํ•œ ๋‚ด์šฉ๋“ค์€ ์–ด๋–ค ํ•œ ๋ณ€์ˆ˜ ๊ฐ’์œผ๋กœ Gradient์„ ๊ณ„์‚ฐ ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ž…๋ ฅ๊ฐ’์€ scaler ๊ฐ’ ์ด ์•„๋‹Œ vector๊ฐ’ ์ด๋Ÿฌํ•œ vector๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค๋ณ€์ˆ˜ ๋ฒกํ„ฐ ํ•จ์ˆ˜(vector-valued function of multiple variables) ์— ๋Œ€ํ•œ ์ผ์ฐจ๋ฏธ๋ถ„๊ฐ’์ด ํ•„์š” ์ด๋ฅผ Jacobian (์•ผ์ฝ”๋น„์•ˆ) matrix ๋ผ๊ณ  ํ•จ. 4-4) Neural Networks Neural Networks(์ธ๊ณต ์‹ ๊ฒฝ๋ง)์€ ์•ž์—์„œ ๋ฐฐ์šด Linear Classifier์„ 2๊ฐœ ์ด์ƒ ์Œ“์•„์˜ฌ๋ฆฌ๋Š” ํ˜•ํƒœ. ์ด ์‚ฌ์ด์— Non-linear functio.. 2023. 7. 8.
[Standford_cs231n] Lecture 5 ) Convolutional Neural Networks 1. Convolutional Neural networks 1. Convolutional Layer Stride ์ŠคํŠธ๋ผ์ด๋“œ(stride) ์ด๋ฏธ์ง€๋ฅผ ์Šฌ๋ผ์ด๋”ฉ ํ•  ๋•Œ ์›€์ง์ด๋Š” step์˜ ํฌ๊ธฐ. ์–˜๋Š” ์ŠคํŠธ๋ผ์ด๋“œ 2 2. Convolutional Layer Pad ํ•„ํ„ฐ ํฌ๊ธฐ์— ๋”ฐ๋ผ์„œ ์ถœ๋ ฅ ๊ฐ€๋กœ ์„ธ๋กœ ๊ธธ์ด๊ฐ€ ์ค„์–ด๋“ฌ padding์„ ์“ฐ๋ฉด ์›๋ณธ ํฌ๊ธฐ ์œ ์ง€, ์ด๋ฏธ์ง€ ๊ฐ€์žฅ์ž๋ฆฌ ๊ณ„์‚ฐ ๋œ ๋˜๋Š” ๊ฒƒ์„ ๋ง‰์„ ์ˆ˜ ์žˆ์Œ 3. Convolutional Layer Output Size W : input image width F : Filter width S : Stride P : Pad Output W : (W - F + 2*P)/S + 1 4. Convolution Layer์˜ Backpropagation ์ฒ˜์Œ์— ํ•„ํ„ฐ๊ฐ€ ๋นจํŒŒ๋…ธ์ดˆ ํ•„.. 2023. 7. 7.
728x90
๋ฐ˜์‘ํ˜•