Apprentissage automatique

L'apprentissage automatique (machine learning) est un champ d'étude de l'intelligence artificielle qui regroupe un ensemble de techniques permettant aux ordinateurs "d'apprendre" à réaliser certaines tâches à partir de différents jeux de données. Dans ce cadre, nous nous intéressons aux techniques de classification, qui permettent, comme leur nom l'indique, de classer automatiquement les éléments d'un jeu de données. Un exemple typique consiste à classer un ensemble de photos d'animaux selon l'animal qu'elles contiennent (photos de chats, de chiens...). Une classification peut être supervisée si l'on connait les classes, ou non supervisée si on ne les connait pas (clustering). Nos travaux incluent, mais ne se limitent pas, aux approches développées ci-dessous.

La régression logistique est une approche d'apprentissage statistique de référence pour la modélisation de réponses binaires. Elle peut être étendue aux données multinomiales dans le cas d’une réponse à plusieurs modalités. Y introduire des facteurs à effets aléatoires permet encore d'enrichir cette famille de modèles et de répondre à un plus grand nombre de questions applicatives, en tenant compte de structures de dépendance entre les observations. Nos travaux s’intéressent aux méthodes d’estimation des paramètres de ces divers modèles.

L'apprentissage profond (deep learning) a montré son efficacité pour réaliser des tâches de classification sur des jeux de données contenant un grand nombre de dimensions (e.g. images, sons, textes). Toutefois, l’explicabilité des résultats ou encore la définition d’une bonne architecture restent des exercices très expérimentaux et constituent de réels défis pour la communauté scientifique. Dans ce cadre, nous proposons de nouveaux modèles d’apprentissage ainsi que des méthodes d’aide à l’explicabilité, notamment à l’aide de techniques de visualisation analytique (voir axe "Visualisation de données").

Nous étendons certaines méthodes de projection sur structures latentes telles que l'analyse en composante indépendante, ou la méthode PLS, en tâchant de les rendre applicables sur des jeux de données très volumineux, et en y incorporant des termes de pénalisation permettant d'opérer une sélection de variable explicatives. Nous travaillons également à proposer des versions permettant de considérer des combinaisons non linéaires des variables observées, et aussi de nous écarter des mesures de dépendance linéaires classiquement utilisées dans ce contexte pour lier deux groupes de variables.

Dernière mise à jour : 16/04/2021