Study Log (2021.08)

1 minute read

2021-08-22

  • 바닥부터 배우는 강화학습
      1. Deep RL 첫 걸음
        • 7.1 함수를 이용한 근사
        • 7.2 인공 신경망의 도입
      1. 가치 기반 에이전트
        • 8.1 밸류 네트워크의 학습
        • 8.2 딥 Q러닝
      1. 정책 기반 에이전트
        • 9.1 Policy Gradient
        • 9.2 REINFORCE 알고리즘
        • 9.3 액터-크리틱
      1. 알파고와 MCTS
        • 10.1 알파고
        • 10.2 알파고 제로
      1. 블레이드 & 소울 비무 AI 만들기
        • 11.1 블레이드 & 소울 비무
        • 11.2 비무에 강화학습 적용하기
        • 11.3 전투 스타일 유도를 통한 새로운 방식의 Self-Play 학습

2021-08-16


2021-08-15

  • 바닥부터 배우는 강화학습
      1. MDP를 모를 때 밸류 평가하기
        • 5.1 몬테카를로 학습
        • 5.2 Temporal Difference 학습
        • 5.3 몬테카를로 vs TD
        • 5.4 몬테카를로와 TD의 중간?

2021-08-14

  • 바닥부터 배우는 강화학습
      1. MDP를 알 때의 플래닝
        • 4.1 밸류 평가하기 - 반복적 정책 평가
        • 4.2 최고의 정책 찾기 - 정책 이터레이션
        • 4.3 최고의 정책 찾기 - 밸류 이터레이션

2021-08-13

  • 바닥부터 배우는 강화학습
      1. 강화학습이란
        • 1.1 지도학습과 강화학습
        • 1.2 순차적 의사결정 문제
        • 1.3 보상
        • 1.4 에이전트와 환경
        • 1.5 강화학습의 위력
      1. 마르코프 결정 프로세스 (Markov Decision Process)
        • 2.1 마르코프 프로세스 (Markov Process)
        • 2.2 마르코프 리워드 프로세스 (Markov Reward Process)
        • 2.3 마르코프 결정 프로세스 (Markov Decision Process)
        • 2.4 Prediction과 Control
      1. 벨만 방정식
        • 3.1 벨만 기대 방정식
        • 3.2 벨만 최적 방정식

2021-08-01

  • S-K RL
    • train_FT10_ppo_node_only.py
      • do_simulate_on_aggregated_state()
      • value_loss, action_loss, dist_entropy = agent.fit(eval=0, reward_setting=’utilization’, device=device, return_scaled=False)
      • eval_performance = evaluate_agent_on_aggregated_state(simulator=sim, agent=agent, device=’cpu’, mode=’node_mode’)
      • val_performance = validation(agent, path, mode=’node_mode’)
    • pyjssp 버전 구분
      • GNN-MARL Lastest용
      • GNN-MARL Stable용

Template

Updated:

Comments