-
[자료 읽기] 혁펜하임의 “트이는” 강화 학습자료 읽기 2022. 3. 29. 09:49
출처 : https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4
제목 : [강화학습] 2-2강. 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy 개념
* Markov Decision Process
action -> action -> action -> ...
Goal = maximize Expected Return
* Expected Return의 표현
- State value function
지금 state부터 기대되는 Return
지금 이 state로부터 시작해서 기대되는 Return
지금 현재 state에 대한 평가, 가치
- Action value function
지금 action(행동)으로부터 기대되는 Return
지금 state와 action 모두 주어졌을때 이 시점부터 시작해서 기대되는 Return
* Optimal policy
policy를 잘 찾는 것
state value function을 maximize 하는 policy 찾는 것
과거와 무관하게 현재부터 잘하자
policy : p(at|St), p(at+1|St+1), ...
출처 : https://www.youtube.com/watch?v=gA-6J-nl4c4&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=5
제목 : [강화학습] 2-3강. 벨만 방정식 (Bellman equation)
* Bellman equation
베이즈룰(베이시안룰) : p(x,y) = p(x|y)p(y) or p(x,y|z) = p(x|y,z)p(y|z)
Vt를 Qt로 표현하거나 Vt를 Vt+1로 표현
Qt를 Vt+1로 표현하거나 Qt를 Qt+1로 표현
출처 : https://www.youtube.com/watch?v=cn7IAfgPasE&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=6
제목 : [강화학습] 3-1강. Optimal policy
* Optimal policy (derivation)
Q*라 가정하고 Vt를 maximize하는 action p(at|St)를 구하는 것
Q*가 가장 큰 값을 가지는 위치에서 p(at|St)가 delta function이면 된다.
at* = argmaxQ* -> Greedy
ε-Greedy 사용 이유 : explore하기 위해서
출처 : https://www.youtube.com/watch?v=bCifW0SENGs&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=7
제목 : [강화학습] 3-2강. Monte Carlo (MC) 방법
* How can we get Q*?
알고리즘을 통해 수렴하는 방법 밖에 없다.
Q를 점점 update하여 Q*에 점점 다가가게끔.
- Monte-Carlo
출처 : https://www.youtube.com/watch?v=vfLrBPYwuFA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=8
제목 : [강화학습] 3-3강. Temporal difference (TD) & SARSA 소개
* How can we get Q*?
- Incremental Monte Carlo updates
- Temporal difference (TD)
출처 : https://www.youtube.com/watch?v=36tvs0H2mww&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=14
제목 : [강화학습] 5-1강. Deep Q Network 논문 읽기
* Q-learning
* Regression with DNN
state, 즉 객체의 모양이나 포즈가 복잡해지면서 regression으로 Q값을 구해야 되는 상황이 발생
Q가 샘플들과 가까워지도록 w를 조정하여 Q 추세선을 찾는다.
* DQN = Deep Q Network = Q-learning + DNN
네트워크(CNN) 입력 : state인 이미지
네트워크(CNN) 출력 : action에 따른 Qw값
target으로 하는 action에 따른 Qw값을 update?
* 기여
1) CNN 사용 -> 인간처럼
2) Experience Replay
'자료 읽기' 카테고리의 다른 글
베이즈정리 (조건부확률, 사전확률, 사후확률) (0) 2023.03.04 3D Depth 카메라의 accuracy, precision, repeatability (0) 2022.07.17 [자료 읽기] New Wave of Robot Grasping (0) 2022.03.25 [자료 읽기] 앰비 로보틱스, 상품 번들링 및 포장위한 로봇 솔루션 '앰비키트' 발표 (0) 2022.03.21 [자료 읽기] 합성데이터셋 (Photorealistic vs. Domain Randomization) (0) 2022.03.18