policy-optimization

Star

Here are 20 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

Star

Multi-Agent Constrained Policy Optimisation (MACPO; MAPPO-L).

multi-agent-reinforcement-learning policy-optimization safe-reinforcement-learning

Updated Apr 17, 2024
Python

elsheikh21 / car-racing-ppo

Star

Implementation of a Deep Reinforcement Learning algorithm, Proximal Policy Optimization (SOTA), on a continuous action space openai gym (Box2D/Car Racing v0)

deep-reinforcement-learning openai-gym proximal-policy-optimization ppo policy-optimization

Updated Apr 2, 2019
Python

cxxgtxy / POP3D

Star

Policy Optimization with Penalized Point Probability Distance: an Alternative to Proximal Policy Optimization

reinforcement-learning deep-learning proximal-policy-optimization policy-optimization

Updated Nov 8, 2018
Python

manantomar / Mirror-Descent-Policy-Optimization

Star

Mirror Descent Policy Optimization

reinforcement-learning deep-learning deep-reinforcement-learning deep-learning-algorithms sac trpo deep-rl ppo deep-learning-ai policy-optimization stable-baselines model-free-rl mirror-descent mdpo

Updated Oct 31, 2020
Python

Guowei-Zou / d2ppo-release

Star

[AAAI 2026] D²PPO: Diffusion Policy Policy Optimization with Dispersive Loss.

control robotics rl manipulation fine-tuning post-training policy-optimization online-rl diffusion-policy

Updated Nov 22, 2025
Python

MahanFathi / Model-Based-RL

Star

Model-based Policy Gradients

reinforcement-learning openai-gym pytorch computation-graph gym policy-gradient finite-difference backpropagation computational-graphs mujoco model-based ilqg ilqr ilqg-mujoco mujoco-py policy-gradients policy-optimization direct-policy-search mujoco-dynamics

Updated Mar 12, 2020
Python

CLAIRE-Labo / no-representation-no-trust

Star

Codebase to fully reproduce the results of "No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO" (Moalla et al. 2024). Uses TorchRL and provides extensive tools for studying representation dynamics in policy optimization.

reinforcement-learning deep-learning policy-optimization

Updated Nov 20, 2024
Python

liziniu / policy_optimization

Star

Code for Paper (Policy Optimization in RLHF: The Impact of Out-of-preference Data)

bandit stochastic-approximation policy-optimization large-language-models rlhf

Updated Dec 19, 2023
Python

sarmueller / gibo

Star

This repository contains the code for the paper "Local policy search with Bayesian optimization".

reinforcement-learning pytorch gym policy-gradient gradient-descent bayesian-optimization active-learning mujoco policy-optimization

Updated Oct 27, 2022
Jupyter Notebook

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

Star

reinforcement-learning deep-reinforcement-learning openai-gym pytorch policy-gradient proximal-policy-optimization ppo atari-pong policy-optimization

Updated Feb 28, 2023
Jupyter Notebook

shaheennabi / Reinforcement-Learning-Zero-to-Hero

Sponsor

Star

Reinforcement Learning (RL)! This repository is your hands-on guide to implementing RL algorithms, from Markov Decision Processes (MDPs) to advanced methods like PPO and DDPG. Build smart agents, learn the math behind policies, and experiment with real-world applications!

agent research reinforcement-learning monte-carlo policy-gradient markov-decision-processes temporal-differencing-learning proximal-policy-optimization model-based-rl actor-critic-algorithm policy-optimization model-free-rl

Updated Dec 23, 2025
Python

proceduralia / randomist

Star

Code for Policy Optimization as Online Learning with Mediator Feedback

thompson-sampling exploration mcmc multi-armed-bandits policy-optimization

Updated Dec 27, 2020
Python

Sahel13 / particle-pomdp

Star

Code accompanying the NeurIPS 2025 paper "Sequential Monte Carlo for Policy Optimization in Continuous POMDPs".

reinforcement-learning pomdps sequential-monte-carlo policy-optimization

Updated Oct 8, 2025
Python

grassking100 / reinforcement_learning

Star

An implementation of the reinforcement learning for CartPole-v0 by policy optimization

reinforcement-learning deep-learning pytorch cartpole-v0 policy-optimization

Updated Dec 17, 2021
Python

kantkrishan0206-crypto / AlignGPT

Star

“This project implements a mini LLM alignment pipeline using Reinforcement Learning from Human Feedback (RLHF). It includes training a reward model from human-annotated preference data, fine-tuning the language model via policy optimization, and performing ablation studies to evaluate robustness, fairness, and alignment trade-offs.”

python nlp machine-learning deep-learning transformers pytorch alignment language-models tokenization ai-safety fine-tuning preference-learning ppo policy-optimization dpo human-feedback rlhf reward-model

Updated Oct 19, 2025
Jupyter Notebook

MehdiShahbazi / REINFORCE-Cart-Pole-Gymnasium

Star

This repo implements the REINFORCE algorithm for solving the Cart Pole V1 environment of the Gymnasium library using Python 3.8 and PyTorch 2.0.1.

Updated Mar 19, 2024
Python

Rohityalavarthy / grpo-codegen

Star

Implementation of a GRPO (Gradient Regularized Policy Optimization) training and evaluation pipeline. Includes utilities for dataset preparation, model training, and evaluation on structured tasks. Designed for experimenting with policy optimization techniques in reinforcement learning and generative AI settings.

machine-learning reinforcement-learning deep-learning policy-optimization gpt2 llm

Updated Oct 3, 2025
Python

najeh-halawani / RL-Basics-QLearning-SARSA-PPO

Star

A collection of Jupyter notebooks implementing core reinforcement learning algorithms: Q-Learning, SARSA, and PPO.

q-learning sarsa gymnasium ppo policy-optimization reinforement-learning

Updated Jun 21, 2025
Jupyter Notebook

gibo-neurips-2021 / GIBO

Star

This repository contains the code for the NeurIPS 2021 submission "Local policy search with Bayesian optimization".

reinforcement-learning gym policy-gradient bayesian-optimization active-learning mujoco policy-optimization

Updated May 28, 2021
Jupyter Notebook

Smooth-humvee686 / onpolicydistillation

Star

🛠️ Apply on-policy distillation to enhance Qwen3-0.6b's performance on GSM8K by learning from its own outputs, reducing bias during inference.

data-science machine-learning research reinforcement-learning ai deep-learning simulation tensorflow pytorch algorithm-development performance-evaluation educational-resources model-training policy-optimization on-policy-distillation

Updated Dec 23, 2025
Jupyter Notebook

Improve this page

Add a description, image, and links to the policy-optimization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the policy-optimization topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

policy-optimization

Here are 20 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

elsheikh21 / car-racing-ppo

cxxgtxy / POP3D

manantomar / Mirror-Descent-Policy-Optimization

Guowei-Zou / d2ppo-release

MahanFathi / Model-Based-RL

CLAIRE-Labo / no-representation-no-trust

liziniu / policy_optimization

sarmueller / gibo

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

shaheennabi / Reinforcement-Learning-Zero-to-Hero

proceduralia / randomist

Sahel13 / particle-pomdp

grassking100 / reinforcement_learning

kantkrishan0206-crypto / AlignGPT

MehdiShahbazi / REINFORCE-Cart-Pole-Gymnasium

Rohityalavarthy / grpo-codegen

najeh-halawani / RL-Basics-QLearning-SARSA-PPO

gibo-neurips-2021 / GIBO

Smooth-humvee686 / onpolicydistillation

Improve this page

Add this topic to your repo

Search code, repositories, users, issues, pull requests...

policy-optimization

Here are 20 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

elsheikh21 / car-racing-ppo

cxxgtxy / POP3D

manantomar / Mirror-Descent-Policy-Optimization

Guowei-Zou / d2ppo-release

MahanFathi / Model-Based-RL

CLAIRE-Labo / no-representation-no-trust

liziniu / policy_optimization

sarmueller / gibo

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

shaheennabi / Reinforcement-Learning-Zero-to-Hero

proceduralia / randomist

Sahel13 / particle-pomdp

grassking100 / reinforcement_learning

kantkrishan0206-crypto / AlignGPT

MehdiShahbazi / REINFORCE-Cart-Pole-Gymnasium

Rohityalavarthy / grpo-codegen

najeh-halawani / RL-Basics-QLearning-SARSA-PPO

gibo-neurips-2021 / GIBO

Smooth-humvee686 / onpolicydistillation

Improve this page

Add this topic to your repo