본문 바로가기

전체 글186

[MC BlackJack] 오류 수정 및 결과도출 pi_table. action 초기화가 모두 0인지 확인하고 랜덤으로 바꾸기 왜 pi_table에 playersum이 11이 나오는지 확인하기 그런데 교재를 확인하니 Optimal policy 부분에 playerCardSum이 11부터 시작한다?! policy improvement에서 코드오류발견 - 제대로 improve되지 않는 것 수정 playerSum이 12보다 작을 때도 그대로 state로 전달하는 오류 발견. 12보다 작으면 카드를 한 장 더 뽑았을 때 무조건 21보다 작으므로 hit을 자동으로 하여 12이상의 상황에서 시작해야함. 이를 반영하여 코드 수정. not natural 상황, stack을 했을 때 비기는 상황을 만들어 놓지 않은 것 발견 - 수정 episode 5000000회 진행. .. 2021. 11. 13.
RL 개념 흐름 정리 DP, MC, TD, Sarsa, Q-learning, n-step TD, TD(lamda), Forward, Backward, Eligibility 흐름으로 왜 해당개념이 나왔는지 생각하며 정리. 2021. 11. 11.
[MC BlackJack 결과 시각화] 학습결과 그래프로 나타내기 1. 3D plot 아래 사진과 같이 모든 state(playerCardSum, DealerShowing, usableAce)에 대한 Optimal Value를 나타내려고 하였다. 아직 오류가 있어 playerCardSum이 11인 값도 나타나고 있다. 원래 12 미만의 값은 없어야 한다. 현재 이를 해결하고 있다. 아무튼 아래와 같은 3D plot자체를 만들기 위해서 꽤나 어려움을 겪었다. 아래의 소스코드 맨아래를 참고하였다. 조르디교수님코드 코드를 보면 먼저 x와 y의 범위를 지정한다. 그리고 이를 통해 meshgrid를 만든다. 똑같은 x 배열을 y길이방향으로 쭉 복사한다. 마찬가지로 y배열을 x길이방향으로 쭉 복사한다. 이렇게 만든 각각의 장판을 겹쳐서 보면 2차원상에 (x,y)쌍이 만들어진다. .. 2021. 11. 10.
10 week HW (3) action programming : action server node 1. make package 2. make python file 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 import rclpy # import ActionServer class to make actionserver from rclpy.action import ActionServer from rclpy.node import Node # import Fibonacci interface type from my_interface_example.action import Fibonacci class FibonacciAction.. 2021. 11. 9.
10 week HM (2) : create action interface [make action file] goal --- result --- feedback [revise CmakeList.txt] [check the interface] 2021. 11. 9.
10 week HM (1) service programming Message, Service interface programming - Test the created msg interface [pub_node] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 import rclpy # Node class import. In Node class, there are create_publisher(), create_timer().. 2021. 11. 9.
상상 : 일상 환경에서 로봇이 강화학습을 시작한다면 강화학습 알고리즘을 가진 로봇은 시간이 지날 수록 지능이 견고해진다. 알파고가 시간이 지날 수록 더 많은 대국을 통해 엄청난 경험을 가진 실력자가 되는 것 처럼. 많은 사람들에게서 사용되는 강화학습 로봇이 있고 그 로봇들이 서로 지능을 하나의 클라우드로 공유하며 마치 스마트폰 SW업데이트처럼 주기적으로 업데이트된다면, 상상하기 어렵지만 언젠가는 인간의 삶 속에서 뛰어난 운동지능과 사회적 규칙을 준수하며 생활할 수 있을 것이다. 로봇의 몸체인 HW는 계속해서 발전될 것이고 SW 역시 끝없이 발전되고 업데이트 될 것이다. 시작은 걸음마도 떼기 힘든 수준의 운동지능이라도 단 몇 세대만 거쳐도 어마어마할 것이다. 아직 가정에, 우리 주변에서 로봇이 없고 때문에 이러한 환경에서 학습을 하고 있지 못하지만 수많은 .. 2021. 11. 6.
[MC Blackjack-최종] 코드작성과 결과코드 및 실행영상 ** 코드 GitHub - needs-searcher/RL_Example: This is my RL Example codes This is my RL Example codes. Contribute to needs-searcher/RL_Example development by creating an account on GitHub. github.com ** 실행영상 # 기본적인 몇가지 함수는 gym 코드 참고하였다. # gym을 이용하지 않고 게임진행(episode_generate) 코드를 짜기 위해서 새롭게 코드를 작성하였다. 이에 필요한 딜러턴에서 딜러카드 score계산 함수, 학습에 필요한 pair(s,a) 중복 확인 함수, policy_improvement함수를 만들었다. # 중요하고 어려웠던 점은 .. 2021. 11. 4.
캘리브레이션(Calibartion) 기능 추가 지난 글에서 myo를 착용한 팔의 움직임을 추종하는 작업을 완료하였다. 또, 주먹을 쥠에 따라 그리퍼가 닫히고 손가락을 모두 폄에 따라 그리퍼가 열리는 기능도 추가하였다. Myo로 OpenManipulator 동작시키기 성공!!! 구동영상 최대한 단순하게 코드를 작성하였다. myo_raw/myo_ori 토픽에서 생성되는 데이터를 봤을 때, (https://needs-searcher.tistory.com/196?category=885778참고) 먼저 로봇컨트롤러에서 모든 모터각 = 0으로.. needs-searcher.tistory.com 한 가지 문제점은 센서를 착용할 때마다 센서가 인식하는 roll=pitch=yaw=0의 초기위치가 다르다는 점이다. myo를 다시 착용했을 때 똑같이 정면으로 팔을 뻗어.. 2021. 11. 3.
[MC-blackjack]MC에서 Q-table 어떻게 만들어? (2) Dictionary 자료형 지난글 : 에피소드 리스트 생성 지난 글에서 여러 states들을 하나의 튜플로 묶어 저장하고 스텝에 따른 state 시퀀스를 episode list [] 에 append하여 차곡차곡 쌓아 나가는 것을 공부하였다. (에피소드 리스트 생성) [MC-블랙잭] Monte Carlo에서 Q-table 어떻게 만들어? (1) 튜플 참고하기 위한 코드와 글들을 찾으며 공부한 내용을 기록하였다. 클래스를 활용한 코드들도 있고 그렇지 않은 코드들도 있었다. 코드진행을 이해하기 위해서 파이썬에서의 클래스 문법을 공부 needs-searcher.tistory.com Q-table 만들기 [문제점] 가장 중요한 것은 Q-table만들기였는데 아래와 같은 문제점이 있었다. [해결방법 : dictionary 자료형] 즉, 수많.. 2021. 11. 3.
[MC-블랙잭] Monte Carlo에서 Q-table 어떻게 만들어? (1) 튜플 참고하기 위한 코드와 글들을 찾으며 공부한 내용을 기록하였다. 클래스를 활용한 코드들도 있고 그렇지 않은 코드들도 있었다. 코드진행을 이해하기 위해서 파이썬에서의 클래스 문법을 공부하였고 블랙잭게임에서의 state 데이터를 나타내고 처리하기 위해서 튜플을 활용함을 발견하여 튜플에 대해서 공부하였다. 파이썬도 클래스 몬테카를로 방법으로 BlackJack 예제를 풀고 있다. 이전 Gambler's Problem과 같이 간단한 예제는 함수로만 진행했는데 게임룰이 조금 복잡해지고 다른 사람들의 코드들을 보다보니 클래스를 많이 쓰는 것을 볼 수 있었다. 파이썬은 절차형, cpp은 객체형 언어로 알고 있었는데 파이썬에서도 객체를 쓰나보다. '아무튼 워라벨'님의 블로그. 파이썬에서의 클래스 설명 monte carlo.. 2021. 11. 2.
Myo로 OpenManipulator 동작시키기 성공!!! 구동영상 최대한 단순하게 코드를 작성하였다. myo_raw/myo_ori 토픽에서 생성되는 데이터를 봤을 때, (https://needs-searcher.tistory.com/196?category=885778참고) 먼저 로봇컨트롤러에서 모든 모터각 = 0으로 초기자세를 잡은 뒤 myo에서 생성되는 roll, pitch, yaw값을 그대로 모터각으로 전달하면 쉽게 구현할 수 있겠다고 생각하였다. 하지만 센서장착 후 팔을 정면으로 뻗었을 때, 장착할 때마다 roll, pitch, yaw값이 조금씩 다르다는 단점이 있다. (대부분의 경우 정면으로 팔을 뻗었을 때 roll = pitch = yaw = 0가 된다.) 그래서 1. teleop노드를 실행했을 때, 즉시 로봇이 초기자세(모든 모터각 = 0)를 잡게 .. 2021. 10. 28.