Study Log (2021.08)
2021-08-22
- 바닥부터 배우는 강화학습
-
- Deep RL 첫 걸음
- 7.1 함수를 이용한 근사
- 7.2 인공 신경망의 도입
- Deep RL 첫 걸음
-
- 가치 기반 에이전트
- 8.1 밸류 네트워크의 학습
- 8.2 딥 Q러닝
- 가치 기반 에이전트
-
- 정책 기반 에이전트
- 9.1 Policy Gradient
- 9.2 REINFORCE 알고리즘
- 9.3 액터-크리틱
- 정책 기반 에이전트
-
- 알파고와 MCTS
- 10.1 알파고
- 10.2 알파고 제로
- 알파고와 MCTS
-
- 블레이드 & 소울 비무 AI 만들기
- 11.1 블레이드 & 소울 비무
- 11.2 비무에 강화학습 적용하기
- 11.3 전투 스타일 유도를 통한 새로운 방식의 Self-Play 학습
- 블레이드 & 소울 비무 AI 만들기
-
2021-08-16
- 바닥부터 배우는 강화학습
-
- MDP를 모를 때 최고의 정책 찾기
- 6.1 몬테카를로 컨트롤
- 6.2 TD 컨트롤 1 - SARSA
- 6.3 TD 컨트롤 2 - Q러닝
- MDP를 모를 때 최고의 정책 찾기
-
2021-08-15
- 바닥부터 배우는 강화학습
-
- MDP를 모를 때 밸류 평가하기
- 5.1 몬테카를로 학습
- 5.2 Temporal Difference 학습
- 5.3 몬테카를로 vs TD
- 5.4 몬테카를로와 TD의 중간?
- MDP를 모를 때 밸류 평가하기
-
2021-08-14
- 바닥부터 배우는 강화학습
-
- MDP를 알 때의 플래닝
- 4.1 밸류 평가하기 - 반복적 정책 평가
- 4.2 최고의 정책 찾기 - 정책 이터레이션
- 4.3 최고의 정책 찾기 - 밸류 이터레이션
- MDP를 알 때의 플래닝
-
2021-08-13
- 바닥부터 배우는 강화학습
-
- 강화학습이란
- 1.1 지도학습과 강화학습
- 1.2 순차적 의사결정 문제
- 1.3 보상
- 1.4 에이전트와 환경
- 1.5 강화학습의 위력
- 강화학습이란
-
- 마르코프 결정 프로세스 (Markov Decision Process)
- 2.1 마르코프 프로세스 (Markov Process)
- 2.2 마르코프 리워드 프로세스 (Markov Reward Process)
- 2.3 마르코프 결정 프로세스 (Markov Decision Process)
- 2.4 Prediction과 Control
- 마르코프 결정 프로세스 (Markov Decision Process)
-
- 벨만 방정식
- 3.1 벨만 기대 방정식
- 3.2 벨만 최적 방정식
- 벨만 방정식
-
2021-08-01
- S-K RL
- train_FT10_ppo_node_only.py
- do_simulate_on_aggregated_state()
- value_loss, action_loss, dist_entropy = agent.fit(eval=0, reward_setting=’utilization’, device=device, return_scaled=False)
- eval_performance = evaluate_agent_on_aggregated_state(simulator=sim, agent=agent, device=’cpu’, mode=’node_mode’)
- val_performance = validation(agent, path, mode=’node_mode’)
- pyjssp 버전 구분
- GNN-MARL Lastest용
- GNN-MARL Stable용
- train_FT10_ppo_node_only.py
Template
- Fundamental of Reinforcement Learning
- Chapter #.
- 모두를 위한 머신러닝/딥러닝 강의
- Lecture #.
- UCL Course on RL
- Lecture #.
- Reinforcement Learning
- Page #.
- 팡요랩
- 강화학습 1강 - 강화학습 introduction
- 강화학습 2강 - Markov Decision Process
- 강화학습 3강 - Planning by Dynamic Programming
- 강화학습 4강 - Model Free Prediction
- 강화학습 5강 - Model Free Control
- 강화학습 6강 - Value Function Approximation
- 강화학습 7강 - Policy Gradient
- 강화학습 8강 - Integrating Learning and Planning
- 강화학습 9강 - Exploration and Exploitation
- 강화학습 10강 - Classic Games
- Pattern Recognition & Machine Learning
- S-K RL
- multi_step_actor
Comments