과정 커리큘럼
가. 강화학습 기초
- 실습 환경 구축하기
- 강화학습 개념 이해하기
- MDP (Markov Decision Process) 이해하기
- 벨만(Bellman) 방정식 이해하기
나. Dynamic 프로그래밍과 강화 학습
- Grid World와 Dynamic Programming 구현하기
- Dynamic Programming 1 - 정책 이터레이션 구현하기
- Dynamic Programming 2 - 가치 이터레이션 구현하기
다. 강화학습 알고리즘 살사와 큐러닝
- 몬테 카를로 예측과 시간차 예측 이해 및 구현하기
- 강화 학습 알고리즘 살사 (SARSA) 이해 및 구현하기
- 강화 학습 알고리즘 큐러닝 (Q-Laerning) 이해 및 구현하기
라. 강화학습과 인공신경망
- Value Function Approximation 이해하기
- 인공신경망을 결합한 강화학습 Deep Q-Networks 구현하기
- 인공신경망을 결합한 강화학습 Policy Gradient 구현하기
마. 강화학습 DQN 구현 사례
- 강화학습 DQN 구현 사례 1 - 카트폴 구현하기
- 강화학습 DQN 구현 사례 2 - 아타리 게임 구현하기
바. 강화학습 Actor-Critic 구현 사례
- 강화학습 Actor-Critic(A2C) 구현 사례 1 - 카트폴 구현하기
- 강화학습 Actor-Critic(A3C) 구현 사례 2 - 아타리 게임 구현하기
비대면 과정
해당 과정은 Zoom을 통한 비대면 라이브 과정입니다.
필수는 아니오나 과정 수강 시 캠 활성화 요청 드립니다.
문의센터
[판교 교육장] 031-606-9337, [가산 교육장] 02-6278-9353
연관과정
[비대면] Python과 Tensorflow를 이용한 강화학습의 이해와 활용