728x90
๋ฐ์ํ
๋ ์ง: 2023๋ 7์ 13์ผ
Part 1. MDP and Planning
: Markov Decision Process์ ์ฝ์
- Sequential Decision Making under Uncertainty๋ฅผ ์ํ ๊ธฐ๋ฒ
- ๊ฐํํ์ต(Reinforcement Learning, RL)์ ์ํ ๊ธฐ๋ณธ ๊ธฐ๋ฒ
- ์๊ณ ๋ฆฌ์ฆ(transition probability, reward function)์ ์๊ณ ์์ ๋๋ MDP(stocasitc control ๊ธฐ๋ฒ)์ ์ด์ฉ
- ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ฅด๊ณ simulation ๊ฒฐ๊ณผ(reward ๊ฐ)๋ฅผ ํ์ฉํ ๋๋ ๊ฐํํ์ต์ ์ด์ฉ
https://velog.io/@recoder/MDP%EC%9D%98%EA%B0%9C%EB%85%90
S : set of states(state space)
- state s t∈S : the status of the system, environment
- discrete์ธ ๊ฒฝ์ฐ, S={1,2,...,n}, continuous์ธ ๊ฒฝ์ฐ, S=ℜn
A : set of actions(action space)
- action a t∈A : input to the system
- discrete์ธ ๊ฒฝ์ฐ, A={1,2,...,n}, continuous์ธ ๊ฒฝ์ฐ, A=ℜn
- the decision maker observes the system state and choose an action either randomly or deterministically
p : state transition probability
- p(s ′โฃs,a):=Prob(s t+1=s ′โฃs t=s,a t=a)
- ํ์ฌ state๊ฐ s, action์ a ์ผ ๋, ๋ค์ state๊ฐ s'์ด ์ฌ ํ๋ฅ
- deterministc์ ๊ฒฝ์ฐ, ํ๋์ state(s')์ ๋ํด์๋ง 1, ๋๋จธ์ง๋ 0์ผ๋ก ํ๋ค.
reward function rt
- rt =r(st,at) : ํ์ฌ ์ํ st์์ action at๋ฅผ ์ํํ ์์ ๊ฒฐ๊ณผ
- ํ์ฌ(t) step์ agent๊ฐ ์ผ๋ง๋ ์ ํ๊ณ ์๋๊ฐ
- long term effect์ ์ธก์ ํ ์ ์๋ค. ์ฆ๊ฐ์ ์ธ ๊ฒ๋ง ๋ฐฉ์ํ๋ค.
- ์ฅ๊ธฐ์ ์ธ ์ํฅ์ ์ดํ ์ด๋ฅผ ๋์ ํด์ ํ๋จํ๋ค.
discount factor γ
- γ∈(0,1]
- ๋ฏธ๋์ ๋ํ discount ์ ๋
- 0์ ๊ฐ๊น์ธ ์๋ก, ๋ฏธ๋์ ๋ํ ๊ฐ์ค์น๋ฅผ ํฌ๊ฒ ๊ฐ์์ํค๋ ๊ฒ์ด๊ณ
- 1์ ๊ฐ๊น์ธ ์๋ก, ๋ฏธ๋์ ํ์ฌ์ ๊ฐ์ค์น๋ฅผ ๊ฑฐ์ ๋์ผํ๊ฒ ์ฃผ๋ ๊ฒ์ด๋ค.
728x90
๋ฐ์ํ
'๋์ธํ๋ > 2023 LG Aimers 3๊ธฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
LG Aimers 3๊ธฐ ์๋ฃ (0) | 2023.12.31 |
---|---|
Module 7. ๋ฅ๋ฌ๋ (Deep Learning) (KAIST ์ฃผ์ฌ๊ฑธ ๊ต์) (0) | 2023.07.15 |
Module 5. ์ง๋ํ์ต (๋ถ๋ฅ/ํ๊ท) (์ดํ์ฌ์๋ํ๊ต ๊ฐ์ ์ ๊ต์) (0) | 2023.07.08 |
Module 4. Bayesian (๊ณ ๋ ค๋ํ๊ต ๊น์ฌํ) (0) | 2023.07.04 |
Module 3. SCM & ์์์์ธก (๊ณ ๋ ค๋ํ๊ต ์ดํ์ ๊ต์) (0) | 2023.07.04 |