Jake Tuero

rl

17 items with this tag.

Jun 23, 2026
A2C
Jun 23, 2026
Actor Critic Methods
- rl
- actor-critic
Jun 23, 2026
Deterministic Policy Gradient Methods
Jun 23, 2026
Generalized Advantage Estimation
Jun 23, 2026
LLMs for RL
- rl
- llm
Jun 23, 2026
Markov Decision Process
- rl
Jun 23, 2026
Model-Based RL
- rl
- mbrl
- dyna
Jun 23, 2026
Off-Policy Methods
Jun 23, 2026
Policy Gradient Methods
Jun 23, 2026
Policy Improvement Methods
Jun 23, 2026
Q Learning
Jun 23, 2026
REINFORCE
Jun 23, 2026
RL as Inference
- rl
- off-policy
Jun 23, 2026
RL for LLMs
- rl
- llm
- ppo
- grpo
- dapo
- gspo
- drgrpo
- rlft
- rlvr
- rlhf
- cot
Jun 23, 2026
Soft Actor Critic (SAC)
Jun 23, 2026
Value Based RL
Jun 23, 2026
World Models
- rl
- mbrl

Created with Quartz v5.0.0 © 2026

GitHub
Twitter
LinkedIn
Scholar