Block 1: Reinforcement learning

1. Week 1: Introduction et programmation dynamique
2. Week 2: Approches sans modèles et échantillonnage
3. Week 3: Approximation de la fonction de valeur
4. Week 4: Policy Gradient
5. Week 5: Actor Critic et ouvertures