Travail joint avec Damien Lamberton.
Nous avons revisité de très anciennes familles d’algorithmes d’apprentissage, issues de la psychologie mathématique et des automates d’apprentissage et connues en approximation stochatique récursive pour leur comportement atypique et longtemps mal élucidé. Dans leur forme historique, la problématique est plutôt ici de détecter on line le meilleur des bras d’un bandit, plutôt que de maximiser le gain que l’on retire à les actionner. Nous analyserons le comportement de ces procédures en termes de convergence et de vitesse. Diverses extensions (en cours) seront aussi évoquées si le temps le permet, ainsi que les applications possibles en gestion d’actifs (les ordres de bourse).
- SMILE in Paris