Study Log (2021.12)
2021-12-29
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 2. 가치기반 강화학습의 풀이법
- Ch 03. 모델없이 세상 알아가기
- 05. TD 를 활용한 정책추정 실습
- Ch 03. 모델없이 세상 알아가기
- Part 2. 가치기반 강화학습의 풀이법
2021-12-28
- 단단한 강화학습
- Ch 04. 동적 프로그래밍
- 4.7 동적 프로그래밍의 효율성
- 4.8 요약
- Ch 04. 동적 프로그래밍
2021-12-27
- 단단한 강화학습
- Ch 04. 동적 프로그래밍
- 4.4 가치 반복
- 4.5 비동기 동적 프로그래밍
- 4.6 일반화된 정책 반복
- Ch 04. 동적 프로그래밍
2021-12-26
- 단단한 강화학습
- Ch 04. 동적 프로그래밍
- 4.1 정책 평가(예측)
- 4.2 정책 향상
- 4.3 정책 반복
- Ch 04. 동적 프로그래밍
2021-12-25
- 단단한 강화학습
- Ch 03. 유한 마르코프 결정 과정
- 3.5 정책과 가치 함수
- 3.6 최적 정책과 최적 가치 함수
- 3.7 최적성과 근사
- 3.8 요약
- Ch 03. 유한 마르코프 결정 과정
2021-12-24
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 2. 가치기반 강화학습의 풀이법
- Ch 03. 모델없이 세상 알아가기
- 04. Temporal Difference (TD) 정책추정
- Ch 03. 모델없이 세상 알아가기
- Part 2. 가치기반 강화학습의 풀이법
- 단단한 강화학습
- Ch 03. 유한 마르코프 결정 과정
- 3.1 에이전트-환경 인터페이스
- 3.2 목표와 보상
- 3.3 보상과 에피소드
- 3.4 에피소딕 작업과 연속적인 작업을 위한 통합 표기법
- Ch 03. 유한 마르코프 결정 과정
2021-12-23
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 2. 가치기반 강화학습의 풀이법
- Ch 03. 모델없이 세상 알아가기
-
- 몬테카를로 정책추정 실습
-
- Ch 03. 모델없이 세상 알아가기
- Part 2. 가치기반 강화학습의 풀이법
- 단단한 강화학습
- Ch 02. 다중 선택
- 2.1 다중 선택 문제
- 2.2 행동 가치 방법
- 2.3 10중 선택 테스트
- 2.4 점증적 구현
- 2.5 비정상 문제의 흔적
- 2.6 긍정적 초기값
- 2.7 신뢰 상한 행동 선택
- 2.8 경사도 다중 선택 알고리즘
- 2.9 연관 탐색(맥락적 다중 선택)
- 2.10 요약
- Ch 02. 다중 선택
2021-12-22
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 2. 가치기반 강화학습의 풀이법
- Ch 03. 모델없이 세상 알아가기
-
- 도박의 도시 몬테카를로 (MC) 그리고 MC 정책추정 - 1
-
- 도박의 도시 몬테카를로 (MC) 그리고 MC 정책추정 - 2
-
- Ch 03. 모델없이 세상 알아가기
- Part 2. 가치기반 강화학습의 풀이법
2021-12-21
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 2. 가치기반 강화학습의 풀이법
- Ch 02. 동적 계획법
-
- DP 실습 2 - 정책반복, 가치반복
-
- DP 실습 3 비동기적 DP
-
- Ch 02. 동적 계획법
- Part 2. 가치기반 강화학습의 풀이법
- 단단한 강화학습
- Ch 01. 소개
- 1.1 강화학습
- 1.2 예제
- 1.3 강화학습의 구성 요소
- 1.4 한계와 범위
- 1.5 확장된 예제: 틱택토
- 1.6 요약
- 1.7 강화학습의 초기 역사
- Ch 02. 다중 선택
- 2.1 다중 선택 문제
- 2.2 행동 가치 방법
- 2.3 10중 선택 테스트
- 2.4 점증적 구현
- 2.5 비정상 문제의 흔적
- 2.6 긍정적 초기값
- 2.7 신뢰 상한 행동 선택
- 2.8 경사도 다중 선택 알고리즘
- 2.9 연관 탐색(맥락적 다중 선택)
- 2.10 요약
- Ch 01. 소개
2021-12-20
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 2. 가치기반 강화학습의 풀이법
- Ch 02. 동적 계획법
-
- 강화학습의 근간 - 동적계획법
-
- DP 실습 1 - 정책평가와 정책개선
-
- 더 효율적인 DP - 비동기적 동적계획법
-
- Ch 02. 동적 계획법
- Part 2. 가치기반 강화학습의 풀이법
2021-12-17
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 2. 가치기반 강화학습의 풀이법
- Ch 01. 마르코프 결정과정
-
- 강화학습의 놀이터 - MP, MRP
-
- 강화학습의 놀이터 - MDP
-
- MDP 실습 - Gridworld 로 알아보는 MDP
-
- Ch 01. 마르코프 결정과정
- Part 2. 가치기반 강화학습의 풀이법
2021-12-16
- 모델 성능 개선으로 익히는 강화학습 A-Z
- Part 1. 강화학습 소개
-
- 강화학습 소개 - ‘강화’학습이 무엇인가요 어디에 쓸수 있죠
-
- 강화학습에 쓰이는 수식 읽기 - 강.대.넓.얕 강화학습 대화를 위한 넓고 얕은 수식
-
- 강화학습 환경 설정 -강화학습 구현을 위한 환경설정
-
- Part 1. 강화학습 소개
2021-12-01
- S-K RL
- train_FT10_ppo_node_only.py
- do_simulate_on_aggregated_state()
- value_loss, action_loss, dist_entropy = agent.fit(eval=0, reward_setting=’utilization’, device=device, return_scaled=False)
- eval_performance = evaluate_agent_on_aggregated_state(simulator=sim, agent=agent, device=’cpu’, mode=’node_mode’)
- val_performance = validation(agent, path, mode=’node_mode’)
- pyjssp 버전 구분
- GNN-MARL Lastest용
- GNN-MARL Stable용
- train_FT10_ppo_node_only.py
Template
- Fundamental of Reinforcement Learning
- Chapter #.
- 모두를 위한 머신러닝/딥러닝 강의
- Lecture #.
- UCL Course on RL
- Lecture #.
- Reinforcement Learning
- Page #.
- 팡요랩
- 강화학습 1강 - 강화학습 introduction
- 강화학습 2강 - Markov Decision Process
- 강화학습 3강 - Planning by Dynamic Programming
- 강화학습 4강 - Model Free Prediction
- 강화학습 5강 - Model Free Control
- 강화학습 6강 - Value Function Approximation
- 강화학습 7강 - Policy Gradient
- 강화학습 8강 - Integrating Learning and Planning
- 강화학습 9강 - Exploration and Exploitation
- 강화학습 10강 - Classic Games
- Pattern Recognition & Machine Learning
- S-K RL
- multi_step_actor
Comments