readme update

db3bf33a · Adrien Payen · 0d2a52a3 · db3bf33a
--- a/README.md
+++ b/README.md
@@ -99,6 +99,39 @@ Un dossier MODIFY est existant simplement à des fins de compréhension et n'est
 ### 4. MODEL
+Différents modèles supervisés et non-supervisés ont été utilisés afin de mener des comparaisons sur les prédictions qui ont été faites sur le 'booking status'. À partir de cette section, la plupart des analyses ont été faites via Orange Data Mining.
+Voici un aperçu de ce qui a été fait dans Orange Data Mining : 
+1. Analyse supervisée :
+L’objectif de cette phase est d’entraîner des modèles d’apprentissage supervisé (Arbre, réseaux de
+neurones, forêt aléatoire et régression logistique) sur base de données d’entraînement afin de prédire
+la valeur cible (booking status) d’un ensemble de données qui peut être donné au module prédiction
+comme montré ci-dessus. Nos diﬀérents modèles sont connectés au module ‘Test and Score’
+permettant ainsi d’évaluer l’eﬃcacité de chacun d’entre eux via diﬀérents indicateurs (Area under ROC
+Curve, Classification Accuracy, Precision, Recall, …). L’évaluation se fera avec 2 bases de données
+diﬀérentes, un ensemble de validation et un ensemble de test, afin d’apprécier les valeurs retournées
+par les modèles supervisés. Les 2 bases seront évaluées par le biais d’une ‘cross-validation’ pour la base
+de données de validation et par le biais d’un ‘test on test data’ pour les données de test. Ceci permettra
+de juger d’un potentiel overfiwng des modèles et de les ajuster en fonction des valeurs retournées.
+Après ces nombreuses étapes d’entraînement et d’évaluation de mes modèles, le(s) meilleur(s) de
+ceux-ci peuvent être utilisé(s) afin de prédire la valeur cible d’un ensemble de données que nous
+possédons. Les diﬀérents modèles ont été testés via l’interface Orange Data mining, mais aussi sur
+Python. Cela nous a permis de comparer les informations fournies par les 2 outils de Data mining.
+Afin d’améliorer les modèles, nous avons ajouté un apprentissage AdaBoost et un modèle de Gradient
+Boosting dans le but de comparer la mesure avec les données du Random Forest.
+2. Analyse non-supervisée :
+Afin de faire ce type d’analyse, nous avons utilisé l’algorithme de K-Means permeDant de faire des
+clusters de nos données. Ce type de modèle ne permet pas de prédire notre variable Target, mais
+permet de représenter comment se présentent les données dans notre base d’apprentissage.
+Ensuite, nous avons réalisé une analyse non-supervisée ayant pour finalité la prédiction. En eﬀet, une
+de nos problématiques était de pouvoir créer et entraîner un modèle pour permeDre d’identifier les
+profils de clients étant sensibles d’annuler leur réservation. Pour ce faire, nous avons fait du clustering
+afin de comprendre la manière dont sont regroupées nos données. Le cluster de type K-Means a été
+réalisé via l’interface Orange Data Mining, mais aussi sur python avec diﬀérents modules.
 Dans la partie 'model' vous trouverez deux différents dossiers :
 1. code 
@@ -114,13 +147,43 @@ Ce dossier donne l'output en python du clustering effectué en k-means.
 La partie 'assessment' est agrémentée des différents graphes et mesures que nous avons utilisés dans afin de mener nos analyses sur les modèles supervisés.
+Voici ce qui a pu être conclus lors de l'assessment :
+En conclusion, l'analyse complète des modèles supervisés sur l’ensemble d'entraînement révèle des
+tendances intéressantes et des performances variées. Les courbes ROC et l'Area Under Curve (AUC)
+ont été des outils cruciaux pour évaluer la capacité de discrimination des modèles. Le Random Forest
+émerge comme le leader incontesté avec la meilleure AUC de 0,926, suivi de près par le Gradient
+Boosting et le Neural Network, tous deux qualifiés d'excellents.
+Cependant, lors de l'application sur le Test Set, il est crucial de noter que le surapprentissage a été
+observé chez les modèles d'AdaBoost et de Tree. Ces modèles ne sont donc pas recommandés pour
+prédire de nouvelles données, car ils risquent de ne pas généraliser correctement. En revanche, les
+modèles de régression logistique, Random Forest et Gradient Boosting montrent une robustesse et une
+capacité à généraliser aux nouvelles observations.
+Les matrices de confusion fournissent une compréhension approfondie des performances, mettant en
+évidence des aspects tels que l'exactitude, le taux d'erreur, la précision, la spécificité et la sensibilité.
+Ces métriques sont essentielles pour choisir le modèle en fonction des objectifs spécifiques de la tâche.
+En fin de compte, la Cross-Validation reste la meilleure façon d’évaluer nos diﬀérents modèles
+supervisés pour sélectionner les modèles les plus performants tout en ne tombant pas dans le
+surapprentissage. Le choix des modèles doit être fait en fonction des besoins spécifiques de notre
+problème, en tenant compte de la capacité à généraliser aux nouvelles données.
+En cas de nécessité de prédire les réservations pour l'année 2018 en se basant sur des modèles suivis
+avec les données de 2017, notre recommandation serait d'opter pour l'utilisation du Random Forest et
+du Gradient Boosting. Ces deux modèles se sont démarqués lors de l'entraînement sur les données
+antérieures, indiquant une capacité significative à l'évaluation si une réservation est susceptible d'être
+annulée ou non.
 ### REMERCIEMENTS
-Nous tenons a exprimé notre gratitude envers Professeur Abdessamad AIT EL CADI pour son enseignement et ses conseils en vue de réaliser notre projet.
+Nous tenons a exprimé notre gratitude envers Professeur Abdessamad AIT EL CADI pour son enseignement et ses conseils en vue de réaliser notre projet de Data Mining.
 ### AUTEURS 
- Ghilain Audrey
+- Audrey Ghilain : audrey.ghilain@student.uclouvain.be
- Payen Adrien
+- Adrien Payen : adrien.payen@student.uclouvain.be
- Sandron Simon
+- Simon Sandron : simon.sandron@student.uclouvain.be