Sang Hun Kim

AI/Optimization/Scheduling/Etc

Study Log (2021.08)

1 minute read

2021-08-22

바닥부터 배우는 강화학습
- 1. Deep RL 첫 걸음
    - 7.1 함수를 이용한 근사
    - 7.2 인공 신경망의 도입
- 1. 가치 기반 에이전트
    - 8.1 밸류 네트워크의 학습
    - 8.2 딥 Q러닝
- 1. 정책 기반 에이전트
    - 9.1 Policy Gradient
    - 9.2 REINFORCE 알고리즘
    - 9.3 액터-크리틱
- 1. 알파고와 MCTS
    - 10.1 알파고
    - 10.2 알파고 제로
- 1. 블레이드 & 소울 비무 AI 만들기
    - 11.1 블레이드 & 소울 비무
    - 11.2 비무에 강화학습 적용하기
    - 11.3 전투 스타일 유도를 통한 새로운 방식의 Self-Play 학습

2021-08-16

바닥부터 배우는 강화학습
- 1. MDP를 모를 때 최고의 정책 찾기
    - 6.1 몬테카를로 컨트롤
    - 6.2 TD 컨트롤 1 - SARSA
    - 6.3 TD 컨트롤 2 - Q러닝

2021-08-15

바닥부터 배우는 강화학습
- 1. MDP를 모를 때 밸류 평가하기
    - 5.1 몬테카를로 학습
    - 5.2 Temporal Difference 학습
    - 5.3 몬테카를로 vs TD
    - 5.4 몬테카를로와 TD의 중간?

2021-08-14

바닥부터 배우는 강화학습
- 1. MDP를 알 때의 플래닝
    - 4.1 밸류 평가하기 - 반복적 정책 평가
    - 4.2 최고의 정책 찾기 - 정책 이터레이션
    - 4.3 최고의 정책 찾기 - 밸류 이터레이션

2021-08-13

바닥부터 배우는 강화학습
- 1. 강화학습이란
    - 1.1 지도학습과 강화학습
    - 1.2 순차적 의사결정 문제
    - 1.3 보상
    - 1.4 에이전트와 환경
    - 1.5 강화학습의 위력
- 1. 마르코프 결정 프로세스 (Markov Decision Process)
    - 2.1 마르코프 프로세스 (Markov Process)
    - 2.2 마르코프 리워드 프로세스 (Markov Reward Process)
    - 2.3 마르코프 결정 프로세스 (Markov Decision Process)
    - 2.4 Prediction과 Control
- 1. 벨만 방정식
    - 3.1 벨만 기대 방정식
    - 3.2 벨만 최적 방정식

2021-08-01

S-K RL
- train_FT10_ppo_node_only.py
  - do_simulate_on_aggregated_state()
  - value_loss, action_loss, dist_entropy = agent.fit(eval=0, reward_setting=’utilization’, device=device, return_scaled=False)
  - eval_performance = evaluate_agent_on_aggregated_state(simulator=sim, agent=agent, device=’cpu’, mode=’node_mode’)
  - val_performance = validation(agent, path, mode=’node_mode’)
- pyjssp 버전 구분
  - GNN-MARL Lastest용
  - GNN-MARL Stable용

Template

Twitter Facebook LinkedIn

Comments

You May Also Enjoy

Study Log (2022.09)

less than 1 minute read

Study Log (2022.09)

1 minute read

2022-09-20 모델 성능 개선으로 익히는 강화학습 A-Z Part06. 모델 기반 강화학습 Ch 03. 최적제어와 모델기반 강화학습 07. pytorch 모델 MPC 구...

Study Log (2022.08)

1 minute read

2022-08-31 모델 성능 개선으로 익히는 강화학습 A-Z Part 5. 심층강화학습 Ch 01. 심층강화학습 논문 읽기 ...

Study Log (2022.07)

less than 1 minute read

2022-07-05 모델 성능 개선으로 익히는 강화학습 A-Z Part 5. 심층강화학습 Ch 01. 심층강화학습 논문 읽기 11. Asynchrnous Advantage A...