Skip to content
Extraits de code Groupes Projets
Valider db3bf33a rédigé par Adrien Payen's avatar Adrien Payen
Parcourir les fichiers

readme update

parent 0d2a52a3
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
...@@ -99,6 +99,39 @@ Un dossier MODIFY est existant simplement à des fins de compréhension et n'est ...@@ -99,6 +99,39 @@ Un dossier MODIFY est existant simplement à des fins de compréhension et n'est
### 4. MODEL ### 4. MODEL
Différents modèles supervisés et non-supervisés ont été utilisés afin de mener des comparaisons sur les prédictions qui ont été faites sur le 'booking status'. À partir de cette section, la plupart des analyses ont été faites via Orange Data Mining.
Voici un aperçu de ce qui a été fait dans Orange Data Mining :
1. Analyse supervisée :
L’objectif de cette phase est d’entraîner des modèles d’apprentissage supervisé (Arbre, réseaux de
neurones, forêt aléatoire et régression logistique) sur base de données d’entraînement afin de prédire
la valeur cible (booking status) d’un ensemble de données qui peut être donné au module prédiction
comme montré ci-dessus. Nos différents modèles sont connectés au module ‘Test and Score’
permettant ainsi d’évaluer l’efficacité de chacun d’entre eux via différents indicateurs (Area under ROC
Curve, Classification Accuracy, Precision, Recall, …). L’évaluation se fera avec 2 bases de données
différentes, un ensemble de validation et un ensemble de test, afin d’apprécier les valeurs retournées
par les modèles supervisés. Les 2 bases seront évaluées par le biais d’une ‘cross-validation’ pour la base
de données de validation et par le biais d’un ‘test on test data’ pour les données de test. Ceci permettra
de juger d’un potentiel overfiwng des modèles et de les ajuster en fonction des valeurs retournées.
Après ces nombreuses étapes d’entraînement et d’évaluation de mes modèles, le(s) meilleur(s) de
ceux-ci peuvent être utilisé(s) afin de prédire la valeur cible d’un ensemble de données que nous
possédons. Les différents modèles ont été testés via l’interface Orange Data mining, mais aussi sur
Python. Cela nous a permis de comparer les informations fournies par les 2 outils de Data mining.
Afin d’améliorer les modèles, nous avons ajouté un apprentissage AdaBoost et un modèle de Gradient
Boosting dans le but de comparer la mesure avec les données du Random Forest.
2. Analyse non-supervisée :
Afin de faire ce type d’analyse, nous avons utilisé l’algorithme de K-Means permeDant de faire des
clusters de nos données. Ce type de modèle ne permet pas de prédire notre variable Target, mais
permet de représenter comment se présentent les données dans notre base d’apprentissage.
Ensuite, nous avons réalisé une analyse non-supervisée ayant pour finalité la prédiction. En effet, une
de nos problématiques était de pouvoir créer et entraîner un modèle pour permeDre d’identifier les
profils de clients étant sensibles d’annuler leur réservation. Pour ce faire, nous avons fait du clustering
afin de comprendre la manière dont sont regroupées nos données. Le cluster de type K-Means a été
réalisé via l’interface Orange Data Mining, mais aussi sur python avec différents modules.
Dans la partie 'model' vous trouverez deux différents dossiers : Dans la partie 'model' vous trouverez deux différents dossiers :
1. code 1. code
...@@ -114,13 +147,43 @@ Ce dossier donne l'output en python du clustering effectué en k-means. ...@@ -114,13 +147,43 @@ Ce dossier donne l'output en python du clustering effectué en k-means.
La partie 'assessment' est agrémentée des différents graphes et mesures que nous avons utilisés dans afin de mener nos analyses sur les modèles supervisés. La partie 'assessment' est agrémentée des différents graphes et mesures que nous avons utilisés dans afin de mener nos analyses sur les modèles supervisés.
Voici ce qui a pu être conclus lors de l'assessment :
En conclusion, l'analyse complète des modèles supervisés sur l’ensemble d'entraînement révèle des
tendances intéressantes et des performances variées. Les courbes ROC et l'Area Under Curve (AUC)
ont été des outils cruciaux pour évaluer la capacité de discrimination des modèles. Le Random Forest
émerge comme le leader incontesté avec la meilleure AUC de 0,926, suivi de près par le Gradient
Boosting et le Neural Network, tous deux qualifiés d'excellents.
Cependant, lors de l'application sur le Test Set, il est crucial de noter que le surapprentissage a été
observé chez les modèles d'AdaBoost et de Tree. Ces modèles ne sont donc pas recommandés pour
prédire de nouvelles données, car ils risquent de ne pas généraliser correctement. En revanche, les
modèles de régression logistique, Random Forest et Gradient Boosting montrent une robustesse et une
capacité à généraliser aux nouvelles observations.
Les matrices de confusion fournissent une compréhension approfondie des performances, mettant en
évidence des aspects tels que l'exactitude, le taux d'erreur, la précision, la spécificité et la sensibilité.
Ces métriques sont essentielles pour choisir le modèle en fonction des objectifs spécifiques de la tâche.
En fin de compte, la Cross-Validation reste la meilleure façon d’évaluer nos différents modèles
supervisés pour sélectionner les modèles les plus performants tout en ne tombant pas dans le
surapprentissage. Le choix des modèles doit être fait en fonction des besoins spécifiques de notre
problème, en tenant compte de la capacité à généraliser aux nouvelles données.
En cas de nécessité de prédire les réservations pour l'année 2018 en se basant sur des modèles suivis
avec les données de 2017, notre recommandation serait d'opter pour l'utilisation du Random Forest et
du Gradient Boosting. Ces deux modèles se sont démarqués lors de l'entraînement sur les données
antérieures, indiquant une capacité significative à l'évaluation si une réservation est susceptible d'être
annulée ou non.
### REMERCIEMENTS ### REMERCIEMENTS
Nous tenons a exprimé notre gratitude envers Professeur Abdessamad AIT EL CADI pour son enseignement et ses conseils en vue de réaliser notre projet. Nous tenons a exprimé notre gratitude envers Professeur Abdessamad AIT EL CADI pour son enseignement et ses conseils en vue de réaliser notre projet de Data Mining.
### AUTEURS ### AUTEURS
- Ghilain Audrey - Audrey Ghilain : audrey.ghilain@student.uclouvain.be
- Payen Adrien - Adrien Payen : adrien.payen@student.uclouvain.be
- Sandron Simon - Simon Sandron : simon.sandron@student.uclouvain.be
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Veuillez vous inscrire ou vous pour commenter