MACHINE LEARNING WITH SCIKIT-LEARN <> Partie III : k plus proches voisins (k-means) & validation croisée
Published:
Dans cette partie III nous allons apprendre à manipuler :
1. la classe KNeighborsClassifier qui permet de réaliser de la classification par la méthode des k plus proches voisins ou k-means
2. les fonctions cross_val_score et cross_val_predict qui permettent de réaliser des expériences de validation croisée.
Dans les parties I et II de cette chaine d'articles, nous avons abordé respectivement les régressions linéaires et polynomiales et l'analyse en composante principale (ACP) que je vous conseille à y regarder.
Nous travaillerons pour cela sur le jeu de données breast cancer que l'on peut charger à partir de scikit-learn et dont on trouve un descriptif sur le site de l'UCI .
Nous apprendrons également l'importance de standardiser les descripteurs avec les k plus proches voisins.