Study Log (2021.09)

less than 1 minute read

2021-09-04

  • 단단한 강화학습
    • Chapter #2. 다중선택
      • 2.1 다중 선택 문제
      • 2.2 행동 가치 방법
      • 2.3 10중 선택 테스트
      • 2.4 점증적 구현
      • 2.5 비정상 문제의 흔적
      • 2.6 긍정적 초깃값
      • 2.7 신뢰 상한 행동 선택
      • 2.8 경사도 다중 선택 알고리즘
      • 2.9 연관 탐색(맥락적 다중 선택)
      • 2.10 요약

2021-09-03

  • 단단한 강화학습
    • Chapter #1. 소개
      • 1.1 강화학습
      • 1.2 예제
      • 1.3 강화학습의 구성 요소
      • 1.4 한계와 범위
      • 1.5 확장된 예제: 틱택토
      • 1.6 요약
      • 1.7 강화학습의 초기 역사

2021-09-01

  • S-K RL
    • train_FT10_ppo_node_only.py
      • do_simulate_on_aggregated_state()
      • value_loss, action_loss, dist_entropy = agent.fit(eval=0, reward_setting=’utilization’, device=device, return_scaled=False)
      • eval_performance = evaluate_agent_on_aggregated_state(simulator=sim, agent=agent, device=’cpu’, mode=’node_mode’)
      • val_performance = validation(agent, path, mode=’node_mode’)
    • pyjssp 버전 구분
      • GNN-MARL Lastest용
      • GNN-MARL Stable용

Template

Updated:

Comments