Python sklearn – Tribulation d'un Bernie perdu à Liège

Scikit-learn est une bibliothèque libre Python destinée à l’apprentissage automatique. Elle est développée par de nombreux contributeurs notamment dans le monde académique par des instituts français d’enseignement supérieur et de recherche comme l’Inria.

Comment l’installer ?

pip install scikit-learn pandas

C’est quoi `"scikit-learn`« (ou `sklearn`) ?

📦 Une bibliothèque open-source pour :

Apprentissage automatique (machine learning)
Traitement de données
Prétraitement de texte
Évaluation de modèles
Sélection de caractéristiques (features)
Pipelines de traitement

Ce que `scikit-learn` peut faire :

Domaine	Fonctions disponibles
Classification	SVM, k-NN, Random Forest, Logistic Regression…
Régression	Régression linéaire, Lasso, Ridge…
Clustering	K-means, DBSCAN, Agglomerative Clustering…
Réduction de dimensions	PCA, t-SNE, TruncatedSVD…
Prétraitement NLP	`TfidfVectorizer`, `CountVectorizer`, `LabelEncoder`
Évaluation de modèles	accuracy, confusion matrix, cross-validation…

✨ Pourquoi il est populaire ?

Facile à utiliser
Bien documenté
Compatible avec NumPy, pandas, matplotlib
Très utile pour prototyper rapidement un modèle

📚 Exemple rapide :

from sklearn.linear_model import LogisticRegression

# Création d’un modèle
model = LogisticRegression()

# Entraînement
model.fit(X_train, y_train)

# Prédiction
y_pred = model.predict(X_test)

Et dans ton cas :

Tu l’utilises pour transformer du texte en vecteurs grâce à :

from sklearn.feature_extraction.text import TfidfVectorizer

C’est quoi "scikit-learn« (ou sklearn) ?