728x90
반응형
DP, MC, TD, Sarsa, Q-learning, n-step TD, TD(lamda), Forward, Backward, Eligibility 흐름으로 왜 해당개념이 나왔는지 생각하며 정리.
728x90
반응형
'기계공학부 시절의 기록 > 강화학습일기' 카테고리의 다른 글
[Temporal Difference method] Cliff example implementation (0) | 2021.11.24 |
---|---|
[MC BlackJack] 오류 수정 및 결과도출 (0) | 2021.11.13 |
[MC BlackJack 결과 시각화] 학습결과 그래프로 나타내기 (0) | 2021.11.10 |
[MC Blackjack-최종] 코드작성과 결과코드 및 실행영상 (2) | 2021.11.04 |
[MC-blackjack]MC에서 Q-table 어떻게 만들어? (2) Dictionary 자료형 (0) | 2021.11.03 |
댓글