🧠 Overfitting & Underfitting

Les deux ennemis du Machine Learning

Pourquoi un modèle qui fonctionne parfaitement
peut être complètement… inutile ?

🎯 Objectif : Comprendre la différence entre mémoriser et apprendre

1 / 12

⚖️ Le Problème Fondamental

L'équilibre complexité/simplicité

🔵 Underfitting

Le modèle est trop simple

Il ne capture pas les patterns

❌ Train : Mauvais
❌ Test : Mauvais

🔴 Overfitting

Le modèle est trop complexe

Il mémorise au lieu d'apprendre

✅ Train : Excellent
❌ Test : Mauvais

🎯 Le but : Trouver le juste milieu

2 / 12

🏠 Exemple Immobilier : Underfitting

Prédire le prix d'une maison

📊 Modèle trop simple

Règle du modèle : Prix = 150 000 € (fixe pour toutes les maisons)

Maison A : 50m², quartier moyen → Prédiction : 150 000 €

Réalité : 100 000 €

❌ Erreur : -50 000 €

Maison B : 200m², quartier luxueux → Prédiction : 150 000 €

Réalité : 500 000 €

❌ Erreur : -350 000 €

⚠️ Le modèle ignore la surface, le quartier, l'état...
Il est trop simple pour capturer la réalité !

3 / 12

🏠 Exemple Immobilier : Overfitting

Le modèle qui mémorise

📊 Modèle trop complexe

Le modèle mémorise : Chaque détail de chaque maison d'entraînement

✅ Sur données d'entraînement

Maison connue :

120m², 3 chambres, jardin 50m²

✓ Prédiction parfaite : 280 000 €

❌ Sur nouvelles données

Nouvelle maison :

120m², 3 chambres, jardin 45m²

✗ Prédiction absurde : 890 000 €

⚠️ Le modèle a mémorisé les maisons d'entraînement
mais ne généralise pas aux nouvelles !

4 / 12

🏠 Exemple Immobilier : Modèle Optimal

Le juste milieu

📊 Modèle équilibré

Règle apprise : Prix = f(surface, quartier, état, chambres)

✅ Sur données d'entraînement

Maison A : 100m², bon quartier

Réalité : 250 000 €

Prédiction : 248 000 €

✓ Erreur : 2 000 € (0.8%)

✅ Sur nouvelles données

Maison B : 150m², excellent quartier

Réalité : 420 000 €

Prédiction : 415 000 €

✓ Erreur : 5 000 € (1.2%)

✅ Le modèle a appris les bonnes relations
Il généralise bien aux nouvelles maisons !

5 / 12

📊 Visualisation des 3 Cas

Comment les reconnaître visuellement

Underfitting

Modèle trop simple

Optimal

Équilibre parfait

Overfitting

Modèle trop complexe

👀 Le bon modèle capture la tendance, pas le bruit

6 / 12

🔍 Comment les Détecter ?

Les indicateurs Train vs Test

🔵 Underfitting

Train : 45%

Test : 42%

⚠️ Les DEUX sont mauvais
Le modèle n'apprend pas

🟢 Modèle Optimal

Train : 87%

Test : 84%

✅ Performances proches
Bonne généralisation

🔴 Overfitting Détecté

Train : 99%

Test : 52%

⚠️ Écart énorme
Le modèle mémorise

🔍 Toujours regarder Train ET Test, jamais un seul !

7 / 12

⚠️ D'où viennent ces problèmes ?

Les causes principales

🔵 Causes de l'Underfitting

Modèle trop simple
Pas assez de variables
Features mal choisies
Temps d'entraînement insuffisant

🔴 Causes de l'Overfitting

Modèle trop complexe
Trop peu de données
Bruit dans les données
Pas de régularisation

⚖️ Plus de complexité ≠ meilleur modèle

8 / 12

🛠️ Corriger l'Underfitting

Faire apprendre davantage

Utiliser un modèle plus complexe
Ajouter des variables pertinentes
Créer de meilleures features
Augmenter le temps d'entraînement

📈 Objectif : Augmenter la capacité du modèle

9 / 12

🧯 Corriger l'Overfitting

Empêcher la mémorisation

Ajouter de la régularisation (L1, L2)
Réduire la complexité du modèle
Augmenter la taille du dataset
Utiliser la validation croisée

🎯 Objectif : Forcer la généralisation

10 / 12

🥇 La Règle d'Or du ML

À toujours retenir

❌ Ne cherchez pas 100% sur Train
✅ Cherchez la stabilité Train/Test

💡 Un bon modèle est ennuyeux… mais efficace !

11 / 12

🎯 Conclusion

Ce qu'il faut retenir

Underfitting = modèle trop simple
Overfitting = modèle trop complexe
Le bon modèle généralise
Train ≈ Test = victoire 🏆

🚀 Prochaine étape : Validation croisée & régularisation

12 / 12