AI Study/강화학습
-
Markov Decision Process (MDP)AI Study/강화학습 2022. 4. 26. 13:53
Markov Chain (정의) 메모리를 갖지 않는 이산 시간 확률 과정 Markov Process 의 두가지 조건 1) Markov Property 2) 이산 확률 과정 확률 과정 : 시간이 진행함에 따라 상태가 확률적으로 변하는 과정 Markov Property 현재의 state가 직전 state에만 영향을 받는다. (memoryless property) $$ Pr(S_{t+1}=s' | S_0, S_1, ... , S_{t-1}, S_t) = Pr(S_{t+1}=s'|S_t) $$ 메모리를 갖지 않는다는 것은 Markov Property를 뜻합니다. 이전에 어떤 state들을 거쳐왔든 현재의 state만이 다음 state에 영향을 미친다는 것입니다. 또한, 이산 확률 과정이라 함은 시간 간격이 연속..
-
강화학습 1강. Q-LearningAI Study/강화학습 2022. 4. 21. 23:25
https://youtu.be/3Ch14GDY5Y8 * "혁펜하임"님의 유튜브 강의를 보고 주로 공부하고 이해한 게시물입니다. 추가적으로 참고한 곳은 링크를 걸어두었습니다. 좋은 정보 제공 감사합니다! Q-Learning이란? 강화학습의 Model-Free 알고리즘 중 하나 (강화학습 알고리즘에는 Model-Free, Model-Based 알고리즘이 있다. 자세한 내용은 https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html) Q-Learning 은 아래와 같은 격자에서 맵을 모른채로 목적지(Ending Point)를 찾아가는 것과 같습니다. 어떻게 이동할까? Greedy Action 으로 이동할 것입니다. Greedy 로 이동한다는 것은 매..