๋ ์ง: 2023๋ 7์ 2์ผ
Part 1. Matrix Decomposition(ํ๋ ฌ ๋ถํด)
1. Determinant(ํ๋ ฌ์)
- 3x3 matrix์ Determinant๋ฅผ 2x2 matrix์ Determinant๋ก ๋ค์ ์ ์ํ ์ ์์ → Laplace expansion์ด๋ผ๊ณ ์นญํจ
- Determinant์ ์ฑ์ง
2. Trace
- Determinant์ ์ ์ฌํ ์๋ฏธ
- Matrix์ ์ด๋ค Diagonal Entry๋ฅผ ๋ค ๋ํ ํํ๋ฅผ Trace๋ผ๊ณ ํจ
- ๋ง์ ๋ถํด๊ฐ ๊ฐ๋ฅํจ
3. Eigenvalue and Eigenvector
- Ax = lambdax ๋ก ํํ๋ ๋, lambda์ scala value์ธ lambda์ ์ด๋ฐ x Vector๋ฅผ Eigenvalue์ Eigenvector๋ผ๊ณ ๋ถ๋ฅด๊ฒ ๋จ
- Eigenvector๋ค์ด unique ํ์ง๋ ์๋๋ค๋ ํน์ง์ ์ง๋
1. Determinant A๋ Eigenvalue๋ค์ ๊ณฑ์ ์ผ๋ก ํํ์ด ๋จ
2. Trace๋ Eigenvalue๋ค์ ๋ง์ ์ผ๋ก ํํ์ด ๋จ
4. Cholesky Decomposition
5.Diagnonal Matrix
- Diagonal Entry๋ง ์กด์ฌํ๊ณ , ๋๋จธ์ง Entry๋ ๋ค 0์ธ ํํ๋ฅผ Diagonal Matrix๋ผ๊ณ ํจ
- ๋ค์ํ ์ฐ์ฐ๋ค์ด ๋งค์ฐ ์ฝ๊ฒ ๋๋ ์ฅ์ ์ ์ง๋
- ๊ฐ๋จํ ํํ๋ก ๋ง๋ค ์ ์์
6. Singular Value Decomposition
- ์ด๋ค Matrix A๊ฐ ์ฃผ์ด์ก์ ๋, UsigmaV๋ก ๋ถํดํ๋ ๊ผด์ Singular Value Decomposition์ด๋ผ๊ณ ํจ
- ํญ์ ์กด์ฌ → ๋ ์ ์ฉํ๊ฒ ์ฐ์
Part 2. Convex Optimization
1. Unconstrained Optimization and Gradient Algorithms
- ๋ด์ ํด์ 0์ด ๋๋ ๋ฐฉํฅ ์ค์ ๋ฐ๋๋ฐฉํฅ์ผ๋ก d๋ฅผ ์ ํํ๋ ๊ฒ์ Steepest Gradient Descent๋ผ๊ณ ๋ถ๋ฆ = Gradient Descent
2. Batch gradient
- ๋ชจ๋ data point๋ฅผ ๋ค ๊ณ ๋ คํด์ ๊ณ์ฐํ๋ ์ ๋ฐ์ดํธ๋ฅผ batch gradient๋ผ๊ณ ๋ถ๋ฆ
3. Mini-batch gradient
- Data point๊ฐ n๊ฐ ์์ ๋, ์ด๋ค ํน์ subset์ ๊ตฌํด์ ๊ทธ subset์ ์๋ Gradient๋ง ๊ณ์ฐํด์ ์ ๋ฐ์ดํธ
4. Stochastic Gradient Descent(SGD)
- mini-batch gradient์ ์ด๋ค gradient๊ฐ ์ด๋ค original batch gradient๋ฅผ ์ ๊ทผ์ฌํ ์ ์๊ฒ ์ด๋ฐ์์ผ๋ก ๋์์ธํด์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ stochastic gradient๋ผ๊ณ ํจ
⇒ ๋ฐ์ดํฐ๊ฐ ๋๋ฌด ๋ง์ ๋ ํ์ฉ
5. Adaptivity for Better Convergence: Momentum
- ์ด์ ์ ์ ๋ฐ์ดํธ ํ๋ ๋ฐฉํฅ์ ์ถ๊ฐ์ ์ผ๋ก ๋ํด์ค (๊ด์ฑ์ ๋ฒ์น)
6. Convex Optimization
- Set์ด ์์ ๋, point๋ฅผ ๋๊ฐ๋ฅผ ์ก๊ณ x1๊ณผ x2๋ฅผ ๊ฐ๋ฅด๋ ์ ๋ถ์ ๊ทธ์. ์ด ์ ๋ถ์ด ํญ์ Set ์์ ์์ ๋๋ฅผ convex set์ด๋ผ๊ณ ์นญํจ
⇒ ์ฒซ๋ฒ์งธ ๋ํ๋ง convex set
- f๋ผ๋ ํจ์๋ฅผ ์ต์ํํ๊ณ , f์ ๋ํ ์กฐ๊ฑด์ ๋ค๋ฃจ๋ ์ด๋ค f๊ฐ ์ด๋ค x๋ผ๋ ์ด๋ค Set ์์ ์ํด ์๋ค๊ณ ๊ฐ์ ์ ํ๋ฉด, f๊ฐ convex ํจ์์ด๊ณ , ์ด๋ฐ subset์ ์ด๋ฃจ๋ x๊ฐ convex set์ด ๋ ๋, convex optimization์ด๋ผ๊ณ ์๊ธฐํจ
- Examples of Convex or Concave Functions
Part 3. PCA
1. PCA
ex) ์ง์ ์ด ๋ ๊ณ ๋ คํด์ผํ๋ 5๊ฐ์ง ๊ฒฝ์ฐ๊ฐ ์๋ค๊ณ ๊ฐ์
- 5๊ฐ์ง๋ฅผ ๊ณ ๋ คํ๋ ๊ฒ๋ณด๋ค, size์ ๋ํ ์์ ํ๋, location์ ๋ํ ์์ ํ๋, ์ฆ 2๊ฐ์ง๋ก ์ค์ฌ์ค๋ค๋ ๋ฐฉ๋ฒ๋ก ์ด ์๋ค๊ณ ๊ฐ์ ํ์ ๋, ๋ ์์ํ๊ฒ ์ง์ ์ด์ง ๋ง์ง๋ฅผ ๊ฒฐ์ ํ ์ ์๊ฒ ๋จ ⇒ ์ด ๊ณผ์ ์ด ๋ฐ๋ก PCA๋ผ๊ณ ํ ์ ์์
2. PCA Algorithm
1. Centering: ๊ฐ ๋ฐ์ดํฐ์ ๋ํ ํ๊ท ์ ๊ตฌํ๊ณ (x1,x2,x3) ๊ฐ ์ฐจ์๋ง๋ค ํ๊ท ์ ๊ตฌํด ๊ทธ ํ๊ท ์ ๋นผ์ค ( ์์ ์ ์ค์ฌ์ผ๋ก ์ ๋ ฌํ๋ ๊ณผ์ )
2. Standardization: ๋ถ์ฐ์ ๊ตฌํ๊ณ , ๋ถ์ฐ์ผ๋ก normalizationํด์ฃผ๋ ๊ณผ์
→ ๊ฐ ์ฐจ์์ ํ๊ท ์ด 0์ด๊ณ , ๋ถ์ฐ์ด 1์ด ๋ ์ ์๋๋ก ๋ง๋๋ ์ ํ ๋ณํ์ ๊ณผ์
3. Digenvalue/vector: M๊ฐ(์ถ์ํ๊ณ ์ถ์ ์ฐจ์์ ๊ฐ์ ex) 5→ 2, M= 2)์ Eigenvector์ ๊ตฌํจ
4. Projection: Data point๋ฅผ ์ถ์์ํค๋ ๊ณผ์
5. Undo stadardization and centering: 1,2๋ฒ์ ๊ณผ์ ์ ๋ค์ ์๋์ ๋ถํฌ๋ก ์ฎ๊ฒจ์ฃผ๋ ์ญํ
1. ์์ ์ผ๋ก ์ด๋ํ๋ ๊ฒ์ ๋ณผ ์ ์์
2. ๋๋ ์ฃผ๋ฉด ๋ถ์ฐ์ด 1์ด ๋๋ ํจ๊ณผ๊ฐ ๋จ
3. step2์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ดํฐ๋ผ๊ณ ๊ฐ์ ํ๊ณ , ์ด ๋ฐ์ดํฐ์ data covariance Matrix๋ฅผ ๊ตฌํ๊ฒ ๋จ ⇒ Eigenvector์ ๊ตฌํ๊ฒ ๋๋ฉด ๋๊ฐ์ ๋ฐฉํฅ์ eigenvector์ด ๋ ํฌ๊ธฐ ๋๋ฌธ์ ๋๊ฐ์ ๋ฐฉํฅ์ผ๋ก projection ์ํด
โป ์ด ํ๋ฉด์ผ๋ก ๊ฐ์ฅ ๊ฐ๊น์ด point๋ฅผ ์ฐพ์์ ๋ฐ์ดํฐ๋ฅผ squeezing ํจ (step 4)
4. ๋ง์ง๋ง์ ์ฒซ๋ฒ์งธ ๊ณผ์ ์ผ๋ก ๊ฑฐ๊พธ๋ก ๋ค์ ๊ณ์ฐํ๋ ๊ณผ์
⇒ ์๋๋ 2์ฐจ์ ๋ฐ์ดํฐ์๋๋ฐ, ์ ๋ถ ์์ ์๋ 1์ฐจ์ ๋ฐ์ดํฐ๊ฐ ๋จ.
3. Idea
- ๋ถ์ฐ์ด ํฐ ๋ฐฉํฅ์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฅ ๋ง์ด ํผ์ ธ์๋ ๋ฐฉํฅ์ด๋ฏ๋ก, ํด๋น ์ถ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํฌ์ํ๋ฉด ์ต๋ํ ๋ง์ ์ ๋ณด๋ฅผ ์ ์งํ ์ ์์.
- ๋ถ์ฐ์ด ์์ ๋ฐฉํฅ์ ๋ฐ์ดํฐ์ ๋ณ๋์ฑ์ด ์๊ธฐ ๋๋ฌธ์ ํด๋น ์ถ์ผ๋ก ํฌ์ํ๋ฉด ๋ฐ์ดํฐ์ ์ ๋ณด ์์ค์ด ํฌ๊ฒ ์ผ์ด๋ ์ ์์
4. ์์