-
RL 개념 흐름 정리강화학습일기 2021. 11. 11. 23:32728x90반응형
DP, MC, TD, Sarsa, Q-learning, n-step TD, TD(lamda), Forward, Backward, Eligibility 흐름으로 왜 해당개념이 나왔는지 생각하며 정리.
728x90반응형'강화학습일기' 카테고리의 다른 글
[Temporal Difference method] Cliff example implementation (0) 2021.11.24 [MC BlackJack] 오류 수정 및 결과도출 (0) 2021.11.13 RL 개념 흐름 정리 (0) 2021.11.11 [MC BlackJack 결과 시각화] 학습결과 그래프로 나타내기 (0) 2021.11.10 [MC Blackjack-최종] 코드작성과 결과코드 및 실행영상 (2) 2021.11.04 [MC-blackjack]MC에서 Q-table 어떻게 만들어? (2) Dictionary 자료형 (0) 2021.11.03