Peut-on faire confiance à un bandit pour exécuter un ordre (de bourse) ?
ENS 45 rue d'Ulm salle WTravail joint avec Damien Lamberton. Nous avons revisité de très anciennes familles d'algorithmes d'apprentissage, issues de la psychologie mathématique et des automates d'apprentissage et connues en approximation stochatique récursive pour leur comportement atypique et longtemps mal élucidé. Dans leur forme historique, la problématique est plutôt ici de détecter on line le meilleur des bras d'un bandit, plutôt que de maximiser le gain que l'on retire à les actionner. Nous analyserons le comportement de ces procédures en termes de convergence et de vitesse. Diverses extensions (en cours) seront aussi évoquées si […]