Introduction au Machine Learning
- Principe général et concepts basiques
- Exemples de cas d’usage dans différents secteurs : industrie, marketing, IoT, web, énergie…
- Cadre d’utilisation : possibilités et limitations
- Bien formuler la problématique : comment passer d’un problème métier à un problème Machine Learning
Ecosystème Python
- Python scientifique : numpy, pandas, matplotlib, scipy
- La librairie Scikit-learn
- Notebook Jupyter, Anaconda
Algorithmes de Machine Learning, première partie : les bases
- Régression linéaire et régression logistique
- K plus proches voisins : KNN
- Arbres de décision et Random Forests
Critères d’évaluation
- Régression : MAE, MSE, RMSLE, R²…
- Classification : accuracy, precision, recall, F1 score…
- Procédures d’évaluation : train-test split, cross-validation, validation set
Optimisation des hyper-paramètres
- Gridsearch, randomsearch
- Soft optimisation et hard optimisation
Méthodologie et bonnes pratiques
- Déroulé d’un projet de data science : une procédure itérative
- Workflow complet du projet
- Pipeline de transformation
- Ecueils à éviter et comment s’en prémunir : surrapprentissage (overfitting) et fuite de données
Data prepration et feature extraction
- Traitement des données aberrantes et manquantes
- Normalisation et standardisation
- Combinaison de features
Mise en production
- Déployer un modèle en production via une API
- Monitoring des modèles et mise à jour des modèles
Algorithmes de Machine Learning, deuxième partie : les autres catégories
- Boosting et gradient boosting
- Clustering et détection d’anomalie
- Réseaux de neurones et Deep Learning
Adapter selon le type de données
- Comment traiter du texte
- Comment traiter des séries temporelles