Classification et problème de classes déséquilibrées
Published:
Il arrive souvent dans les cas de classification en Machine Learning que l’une des classes soit minoritaire par rapport à la population globale. Cela peut être un problème car la plupart des algorithmes de classification se basent sur l’exactitude (ou l’accuracy) pour construire leurs modèles. Voyant que la grande majorité des observations appartient à la même catégorie, vous risquez de vous retrouver avec un modèle peu intelligent qui va toujours prédire la classe dominante.
Les cas d’usages de classes déséquilibrées sont multiples : détection de pannes, dépistage de maladies, moteur de recherche, filtrage de spams, ciblage marketing ou commercial… C’est pourquoi il est important de savoir aborder ce genre de problèmes. Dans cet article nous allons décrire plusieurs méthodes permettant de classifier des jeux de données à classes déséquilibrées. Nous parlerons en particulier de deux types d’approches : algorithmique et d’échantillonnage.