Project README

Reinforcement Learning

여러 환경에 적용해보는 강화학습 예제(파이토치로 옮기고 있습니다)

Here is my new Repo for Policy Gradient!!

Alt text

[Breakout / Use DQN(Nature2015)]

1. Q-Learning / SARSA

FrozenLake(Gridword)
WindyGridWorld(in Sutton's book)
- Q-Learning / SARSA

2. Q-Network (Action-Value Function Approximation)

3. DQN

DQN(NIPS2013)은 (Experience Replay Memory / CNN) 을 사용.

CartPole(Classic Control) - Cartpole 같은 경우에는 CNN을 사용하지 않고 센서 정보를 통해서 학습

DQN(Nature2015)은 (Experience Replay Memory / Target Network / CNN) 을 사용

CartPole(Classic Control)
Breakout(atari)
Breakout(atari)
- this code is made by pytorch and more efficient memory and train

5. Vanilla Policy Gradient(REINFORCE)

6. Advantage Actor Critic

episodic
- CartPole(Classic Control)
- Pong(atari)
one-step
- CartPole(Classic Control)
n-step
- CartPole(Classic Control)

7. Deep Deterministic Policy Gradient

Pendulum(Classic Control)

8. Parallel Advantage Actor Critic(is called 'A2C' in OpenAI)

CartPole(Classic Control)(used a single thread instead of multi thread)
CartPole(Classic Control)(used multiprocessing in pytorch)
Super Mario Bros(used multiprocessing in pytorch)

9. C51(Distributional RL)

DDQN
- CartPole(Classic Control)

10. PPO(Proximal Policy Optimization)

CartPole(Classic Control)

Open Source Agenda is not affiliated with "Jcwleo Reinforcement Learning" Project. README Source: jcwleo/Reinforcement_Learning

Stars

116

Open Issues

Last Commit

5 years ago

Repository

jcwleo/Reinforcement_Learning

Open Source Agenda Badge

<a href="https://www.opensourceagenda.com/projects/jcwleo-reinforcement-learning"><img src="https://www.opensourceagenda.com/projects/jcwleo-reinforcement-learning/reviews/badge.svg" alt="Open Source Agenda"></a>

Submit Review Review Your Favorite Project

Submit Resource Articles, Courses, Videos

Submit Article Submit a post to our blog

From the blog

Dec 11, 2022

Jcwleo Reinforcement Learning Save

Reinforcement Learning

여러 환경에 적용해보는 강화학습 예제(파이토치로 옮기고 있습니다)

Here is my new Repo for Policy Gradient!!

[Breakout / Use DQN(Nature2015)]

1. Q-Learning / SARSA

2. Q-Network (Action-Value Function Approximation)

3. DQN

5. Vanilla Policy Gradient(REINFORCE)

6. Advantage Actor Critic

7. Deep Deterministic Policy Gradient

8. Parallel Advantage Actor Critic(is called 'A2C' in OpenAI)

9. C51(Distributional RL)

10. PPO(Proximal Policy Optimization)

Open Source Agenda Badge

From the blog

How to Choose Which Programming Language to Learn First?

From the blog

How to Choose Which Programming Language to Learn First?