🧠 Overfitting & Underfitting

Les deux ennemis du Machine Learning

Pourquoi un modèle qui fonctionne parfaitement
peut être complètement… inutile ?

🎯 Objectif : Comprendre la différence entre mémoriser et apprendre
1 / 12

⚖️ Le Problème Fondamental

L'équilibre complexité/simplicité

🔵 Underfitting

Le modèle est trop simple

Il ne capture pas les patterns

❌ Train : Mauvais
❌ Test : Mauvais

🔴 Overfitting

Le modèle est trop complexe

Il mémorise au lieu d'apprendre

✅ Train : Excellent
❌ Test : Mauvais

🎯 Le but : Trouver le juste milieu
2 / 12

🏠 Exemple Immobilier : Underfitting

Prédire le prix d'une maison

📊 Modèle trop simple

Règle du modèle : Prix = 150 000 € (fixe pour toutes les maisons)

Maison A : 50m², quartier moyen → Prédiction : 150 000 €

Réalité : 100 000 €

❌ Erreur : -50 000 €

Maison B : 200m², quartier luxueux → Prédiction : 150 000 €

Réalité : 500 000 €

❌ Erreur : -350 000 €

⚠️ Le modèle ignore la surface, le quartier, l'état...
Il est trop simple pour capturer la réalité !

3 / 12

🏠 Exemple Immobilier : Overfitting

Le modèle qui mémorise

📊 Modèle trop complexe

Le modèle mémorise : Chaque détail de chaque maison d'entraînement

✅ Sur données d'entraînement

Maison connue :

120m², 3 chambres, jardin 50m²

✓ Prédiction parfaite : 280 000 €

❌ Sur nouvelles données

Nouvelle maison :

120m², 3 chambres, jardin 45m²

✗ Prédiction absurde : 890 000 €

⚠️ Le modèle a mémorisé les maisons d'entraînement
mais ne généralise pas aux nouvelles !

4 / 12

🏠 Exemple Immobilier : Modèle Optimal

Le juste milieu

📊 Modèle équilibré

Règle apprise : Prix = f(surface, quartier, état, chambres)

✅ Sur données d'entraînement

Maison A : 100m², bon quartier

Réalité : 250 000 €

Prédiction : 248 000 €

✓ Erreur : 2 000 € (0.8%)

✅ Sur nouvelles données

Maison B : 150m², excellent quartier

Réalité : 420 000 €

Prédiction : 415 000 €

✓ Erreur : 5 000 € (1.2%)

✅ Le modèle a appris les bonnes relations
Il généralise bien aux nouvelles maisons !

5 / 12

📊 Visualisation des 3 Cas

Comment les reconnaître visuellement

Underfitting

Modèle trop simple

Optimal

Équilibre parfait

Overfitting

Modèle trop complexe

👀 Le bon modèle capture la tendance, pas le bruit
6 / 12

🔍 Comment les Détecter ?

Les indicateurs Train vs Test

🔵 Underfitting

Train : 45%
Test : 42%

⚠️ Les DEUX sont mauvais
Le modèle n'apprend pas

🟢 Modèle Optimal

Train : 87%
Test : 84%

Performances proches
Bonne généralisation

🔴 Overfitting Détecté

Train : 99%
Test : 52%

⚠️ Écart énorme
Le modèle mémorise

🔍 Toujours regarder Train ET Test, jamais un seul !
7 / 12

⚠️ D'où viennent ces problèmes ?

Les causes principales

🔵 Causes de l'Underfitting

  • Modèle trop simple
  • Pas assez de variables
  • Features mal choisies
  • Temps d'entraînement insuffisant

🔴 Causes de l'Overfitting

  • Modèle trop complexe
  • Trop peu de données
  • Bruit dans les données
  • Pas de régularisation
⚖️ Plus de complexité ≠ meilleur modèle
8 / 12

🛠️ Corriger l'Underfitting

Faire apprendre davantage

  • Utiliser un modèle plus complexe
  • Ajouter des variables pertinentes
  • Créer de meilleures features
  • Augmenter le temps d'entraînement
📈 Objectif : Augmenter la capacité du modèle
9 / 12

🧯 Corriger l'Overfitting

Empêcher la mémorisation

  • Ajouter de la régularisation (L1, L2)
  • Réduire la complexité du modèle
  • Augmenter la taille du dataset
  • Utiliser la validation croisée
🎯 Objectif : Forcer la généralisation
10 / 12

🥇 La Règle d'Or du ML

À toujours retenir

Ne cherchez pas 100% sur Train
Cherchez la stabilité Train/Test

💡 Un bon modèle est ennuyeux… mais efficace !
11 / 12

🎯 Conclusion

Ce qu'il faut retenir

  • Underfitting = modèle trop simple
  • Overfitting = modèle trop complexe
  • Le bon modèle généralise
  • Train ≈ Test = victoire 🏆
🚀 Prochaine étape : Validation croisée & régularisation
12 / 12