Les deux ennemis du Machine Learning
Pourquoi un modèle qui fonctionne parfaitement
peut être complètement… inutile ?
L'équilibre complexité/simplicité
Le modèle est trop simple
Il ne capture pas les patterns
❌ Train : Mauvais
❌ Test : Mauvais
Le modèle est trop complexe
Il mémorise au lieu d'apprendre
✅ Train : Excellent
❌ Test : Mauvais
Prédire le prix d'une maison
Règle du modèle : Prix = 150 000 € (fixe pour toutes les maisons)
Maison A : 50m², quartier moyen → Prédiction : 150 000 €
Réalité : 100 000 €
❌ Erreur : -50 000 €
Maison B : 200m², quartier luxueux → Prédiction : 150 000 €
Réalité : 500 000 €
❌ Erreur : -350 000 €
⚠️ Le modèle ignore la surface, le quartier, l'état...
Il est trop simple pour capturer la réalité !
Le modèle qui mémorise
Le modèle mémorise : Chaque détail de chaque maison d'entraînement
Maison connue :
120m², 3 chambres, jardin 50m²
✓ Prédiction parfaite : 280 000 €
Nouvelle maison :
120m², 3 chambres, jardin 45m²
✗ Prédiction absurde : 890 000 €
⚠️ Le modèle a mémorisé les maisons d'entraînement
mais ne généralise pas aux nouvelles !
Le juste milieu
Règle apprise : Prix = f(surface, quartier, état, chambres)
Maison A : 100m², bon quartier
Réalité : 250 000 €
Prédiction : 248 000 €
✓ Erreur : 2 000 € (0.8%)
Maison B : 150m², excellent quartier
Réalité : 420 000 €
Prédiction : 415 000 €
✓ Erreur : 5 000 € (1.2%)
✅ Le modèle a appris les bonnes relations
Il généralise bien aux nouvelles maisons !
Comment les reconnaître visuellement
Modèle trop simple
Équilibre parfait
Modèle trop complexe
Les indicateurs Train vs Test
⚠️ Les DEUX sont mauvais
Le modèle n'apprend pas
✅ Performances proches
Bonne généralisation
⚠️ Écart énorme
Le modèle mémorise
Les causes principales
Faire apprendre davantage
Empêcher la mémorisation
À toujours retenir
❌ Ne cherchez pas 100% sur Train
✅ Cherchez la stabilité Train/Test
Ce qu'il faut retenir