Scikit-learn est une bibliothèque libre Python destinée à l’apprentissage automatique. Elle est développée par de nombreux contributeurs notamment dans le monde académique par des instituts français d’enseignement supérieur et de recherche comme l’Inria.
Comment l’installer ?
pip install scikit-learn pandas
C’est quoi "scikit-learn
«
(ou sklearn
) ?
📦 Une bibliothèque open-source pour :
- Apprentissage automatique (machine learning)
- Traitement de données
- Prétraitement de texte
- Évaluation de modèles
- Sélection de caractéristiques (features)
- Pipelines de traitement
Ce que scikit-learn
peut faire :
Domaine | Fonctions disponibles |
---|---|
Classification | SVM, k-NN, Random Forest, Logistic Regression… |
Régression | Régression linéaire, Lasso, Ridge… |
Clustering | K-means, DBSCAN, Agglomerative Clustering… |
Réduction de dimensions | PCA, t-SNE, TruncatedSVD… |
Prétraitement NLP | TfidfVectorizer , CountVectorizer , LabelEncoder |
Évaluation de modèles | accuracy, confusion matrix, cross-validation… |
✨ Pourquoi il est populaire ?
- Facile à utiliser
- Bien documenté
- Compatible avec NumPy, pandas, matplotlib
- Très utile pour prototyper rapidement un modèle
📚 Exemple rapide :
from sklearn.linear_model import LogisticRegression
# Création d’un modèle
model = LogisticRegression()
# Entraînement
model.fit(X_train, y_train)
# Prédiction
y_pred = model.predict(X_test)
Et dans ton cas :
Tu l’utilises pour transformer du texte en vecteurs grâce à :
from sklearn.feature_extraction.text import TfidfVectorizer