바닥부터 배우는 강화학습1 [강화학습] MDP를 알 때의 플래닝 모델을 알고 있을 때 == 모든 정보를 알고 있을 때 == MDP를 알고 있을 때 이때 사용하는 방법이 크게 3가지가 있다. 1. Policy evaluation 2. Policy iterative 3. Value iterative 1. Policy evaluation 모든 상태의 값을 임의의 값으로 초기화한다. 하나의 상태에 대해 벨만 기대방정식으로 값을 업데이트 한다. 다른 모든 상태에 대해서도 값을 업데이트한다. 수렴할 때 까지 2,3을 계속 반복한다. 이렇게 하면 임의의 값만 있었는데도 실제 값(reward)이 조금씩 섞여 들어가면서 결과적으로는 우리가 찾으려는 목표에 수렴한다. 정책이 고정된 상황에서의 문제 해결 방법이다. 2. Policy iteration 1은 정책을 평가했다 == 벨만 기대.. 2021. 10. 3. 이전 1 다음