Python sklearn

Scikit-learn est une bibliothèque libre Python destinée à l’apprentissage automatique. Elle est développée par de nombreux contributeurs notamment dans le monde académique par des instituts français d’enseignement supérieur et de recherche comme l’Inria.

Comment l’installer ?

pip install scikit-learn pandas

C’est quoi "scikit-learn«  (ou sklearn) ?

📦 Une bibliothèque open-source pour :

  • Apprentissage automatique (machine learning)
  • Traitement de données
  • Prétraitement de texte
  • Évaluation de modèles
  • Sélection de caractéristiques (features)
  • Pipelines de traitement

Ce que scikit-learn peut faire :

DomaineFonctions disponibles
ClassificationSVM, k-NN, Random Forest, Logistic Regression…
RégressionRégression linéaire, Lasso, Ridge…
ClusteringK-means, DBSCAN, Agglomerative Clustering…
Réduction de dimensionsPCA, t-SNE, TruncatedSVD…
Prétraitement NLPTfidfVectorizer, CountVectorizer, LabelEncoder
Évaluation de modèlesaccuracy, confusion matrix, cross-validation…

✨ Pourquoi il est populaire ?

  • Facile à utiliser
  • Bien documenté
  • Compatible avec NumPy, pandas, matplotlib
  • Très utile pour prototyper rapidement un modèle

📚 Exemple rapide :

from sklearn.linear_model import LogisticRegression

# Création d’un modèle
model = LogisticRegression()

# Entraînement
model.fit(X_train, y_train)

# Prédiction
y_pred = model.predict(X_test)

Et dans ton cas :

Tu l’utilises pour transformer du texte en vecteurs grâce à :

from sklearn.feature_extraction.text import TfidfVectorizer