update

4c44fb82 · Adrien Payen · a7471cdc · 4c44fb82
--- a/content_based.ipynb
+++ b/content_based.ipynb
@@ -556,7 +556,8 @@
    "cb = ContentBased(\"movie_year\", \"random_sample\")\n",
    "\n",
    "print(cb.explain('11'))\n",
-    "\n"
+    "\n",
+    "print('test')"
   ]
  },
  {

 %% Cell type:markdown id:82d5ca82 tags:

 # Packages

 %% Cell type:code id:277473a3 tags:

 ``` python
 %load_ext autoreload
 %autoreload 2

 import numpy as np
 import pandas as pd
 import random as rd
 from surprise import AlgoBase
 from surprise.prediction_algorithms.predictions import PredictionImpossible

 from loaders import load_ratings
 from loaders import load_items
 from constants import Constant as C

 from sklearn.linear_model import LinearRegression
 from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
 from sklearn.svm import SVR
 from sklearn.feature_extraction.text import TfidfVectorizer
 ```

 %% Output

    The autoreload extension is already loaded. To reload it, use:
      %reload_ext autoreload

 %% Cell type:markdown id:a42c16bf tags:

 # Explore and select content features

 %% Cell type:code id:e8378976 tags:

 ``` python
 # All the dataframes
 df_items = load_items()
 df_ratings = load_ratings()
 df_tag = pd.read_csv(C.CONTENT_PATH/C.TAGS_FILENAME)
 df_genome_score = pd.read_csv("data/hackathon/content/genome-scores.csv")
 df_genome_tag = pd.read_csv("data/hackathon/content/genome-tags.csv")


 # Example 1 : create title_length features
 df_features = df_items[C.LABEL_COL].apply(lambda x: len(x)).to_frame('n_character_title')
 display(df_features.head())

 df_tag = pd.read_csv(C.CONTENT_PATH/C.TAGS_FILENAME)
 df_features = df_tag[C.TAG]
 display(df_features.head())

 # (explore here other features)
 ```

 %% Output



 %% Cell type:markdown id:a2c9a2b6 tags:

 # Build a content-based model
 When ready, move the following class in the *models.py* script

 %% Cell type:code id:16b0a602 tags:

 ``` python
 class ContentBased(AlgoBase):
    def __init__(self, features_method, regressor_method):
        AlgoBase.__init__(self)
        self.regressor_method = regressor_method
        self.content_features = self.create_content_features(features_method)
        self.user_profile_explain = {}

    def create_content_features(self, features_method):
        """Content Analyzer"""
        df_items = load_items()
        df_ratings = load_ratings()
        df_tag = df_tag = pd.read_csv(C.CONTENT_PATH/C.TAGS_FILENAME)
        df_genome_score = pd.read_csv("data/hackathon/content/genome-scores.csv")
        df_genome_tag = pd.read_csv("data/hackathon/content/genome-tags.csv")

        if features_method is None:
            df_features = None

        elif features_method == "relevance" :
            df_features = df_genome_score.groupby('movieId')["relevance"].transform('mean').to_frame('avg_relevance')

        elif features_method == "title_length": # a naive method that creates only 1 feature based on title length
            df_features = df_items[C.LABEL_COL].apply(lambda x: len(x)).to_frame('n_character_title')

        elif features_method == "movie_year" :
            df_features = df_items['movie_year'] = df_items['title'].str.extract(r'\((\d{4})\)', expand=False).to_frame('movie_year')

        elif features_method == "genres" :
            genres_list = df_items['genres'].str.split('|').explode().unique()
            for genre in genres_list:
                df_features = df_items['genres'].str.contains(genre).astype(int).to_frame('genres')

        elif features_method == "combination":
            df_length = df_items[C.LABEL_COL].apply(lambda x: len(x)).to_frame('n_character_title')
            df_movie = df_items['title'].str.extract(r'\((\d{4})\)', expand=False).to_frame('movie_year')
            genres_list = df_items['genres'].str.split('|').explode().unique()
            for genre in genres_list:
                df_genre = df_items['genres'].str.contains(genre).astype(int).to_frame('genres')

            df_features = pd.concat([df_genre, df_length, df_movie], axis=1)

        elif features_method == "rating" :
            df_features = df_ratings.groupby('movieId')['rating'].transform('mean').to_frame('avg_rating')

        elif features_method == "tags" :
            df_features = df_tag['tag'].apply(lambda x: len(x.split(',')) if isinstance(x, str) else 0).to_frame('tags')

        elif features_method == "tags_length" :

            df_features = df_tag['tag'].apply(lambda x: sum(len(tag) for tag in x.split(','))if isinstance(x, str) else 0).to_frame('n_character_tags')


        else: # (implement other feature creations here)
            raise NotImplementedError(f'Feature method {features_method} not yet implemented')
        return df_features


    def fit(self, trainset):
        """Profile Learner"""
        AlgoBase.fit(self, trainset)

        # Preallocate user profiles
        self.user_profile = {u: None for u in trainset.all_users()}

        self.user_profile_explain = {u: {} for u in trainset.all_users()}

        for u in self.user_profile :
            user_ratings = np.array([rating for _, rating in trainset.ur[u]])
            feature_values = self.content_features.values

            weighted_features = feature_values.T.dot(user_ratings)

            feature_importance = weighted_features / np.sum(user_ratings)

            self.user_profile_explain[u] = dict(zip(self.content_features.columns, feature_importance))


        if self.regressor_method == 'random_score':
            for u in self.user_profile :
                self.user_profile[u] = rd.uniform(0.5,5)

        elif self.regressor_method == 'random_sample':
            for u in self.user_profile:
                self.user_profile[u] = [rating for _, rating in self.trainset.ur[u]]

        elif self.regressor_method == 'linear_regression' :
            for u in self.user_profile:

                user_ratings = [rating for _, rating in trainset.ur[u]]
                item_ids = [iid for iid, _ in trainset.ur[u]]

                df_user = pd.DataFrame({'item_id': item_ids, 'user_ratings': user_ratings})

                df_user["item_id"] = df_user["item_id"].map(trainset.to_raw_iid)

                df_user = df_user.merge(self.content_features, left_on = "item_id", right_index = True, how = 'left')

                if 'n_character_title' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['n_character_title'].values.reshape(-1, 1)

                elif 'avg_relevance' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_relevance'].values.reshape(-1, 1)

                elif 'movie_year' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['movie_year'].values.reshape(-1, 1)

                elif 'genres' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['genres'].values.reshape(-1, 1)

                elif 'combination' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['combination'].values.reshape(-1, 1)

                elif 'avg_rating' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_rating'].values.reshape(-1, 1)

                elif 'tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['tags'].values.reshape(-1, 1)

                elif 'n_character_tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['n_character_tags'].values.reshape(-1, 1)

                else:
                    # Si aucune caractéristique appropriée n'est disponible
                    continue  # Ou gère le cas d'erreur/exception ici

                y = df_user['user_ratings'].values

                linear_regressor = LinearRegression(fit_intercept = False)

                linear_regressor.fit(X,y)

                # Store the computed user profile
                self.user_profile[u] = linear_regressor

        elif self.regressor_method == 'svr_regression':
            for u in self.user_profile:

                user_ratings = [rating for _, rating in trainset.ur[u]]
                item_ids = [iid for iid, _ in trainset.ur[u]]

                df_user = pd.DataFrame({'item_id': item_ids, 'user_ratings': user_ratings})

                df_user["item_id"] = df_user["item_id"].map(trainset.to_raw_iid)

                df_user = df_user.merge(self.content_features, left_on = "item_id", right_index = True, how = 'left')

                if 'n_character_title' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['n_character_title'].values.reshape(-1, 1)

                elif 'avg_relevance' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_relevance'].values.reshape(-1, 1)

                elif 'movie_year' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['movie_year'].values.reshape(-1, 1)

                elif 'genres' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['genres'].values.reshape(-1, 1)

                elif 'combination' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['combination'].values.reshape(-1, 1)

                elif 'avg_rating' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_rating'].values.reshape(-1, 1)

                elif 'tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['tags'].values.reshape(-1, 1)

                elif 'n_character_tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['n_character_tags'].values.reshape(-1, 1)

                else:
                    # Si aucune caractéristique appropriée n'est disponible
                    continue  # Ou gère le cas d'erreur/exception ici
                y = df_user['user_ratings'].values
                svr_regressor = SVR(kernel='rbf', C=10, epsilon=0.2)
                svr_regressor.fit(X, y)
                self.user_profile[u] = svr_regressor

        elif self.regressor_method == 'gradient_boosting':
            for u in self.user_profile:

                user_ratings = [rating for _, rating in trainset.ur[u]]
                item_ids = [iid for iid, _ in trainset.ur[u]]

                df_user = pd.DataFrame({'item_id': item_ids, 'user_ratings': user_ratings})

                df_user["item_id"] = df_user["item_id"].map(trainset.to_raw_iid)

                df_user = df_user.merge(self.content_features, left_on = "item_id", right_index = True, how = 'left')

                if 'n_character_title' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['n_character_title'].values.reshape(-1, 1)

                elif 'avg_relevance' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_relevance'].values.reshape(-1, 1)

                elif 'movie_year' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['movie_year'].values.reshape(-1, 1)

                elif 'genres' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['genres'].values.reshape(-1, 1)

                elif 'combination' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['combination'].values.reshape(-1, 1)

                elif 'avg_rating' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_rating'].values.reshape(-1, 1)

                elif 'tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['tags'].values.reshape(-1, 1)

                elif 'n_character_tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['n_character_tags'].values.reshape(-1, 1)

                else:
                    # Si aucune caractéristique appropriée n'est disponible
                    continue  # Ou gère le cas d'erreur/exception ici

                y = df_user['user_ratings'].values
                gb_regressor = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3)
                gb_regressor.fit(X, y)
                self.user_profile[u] = gb_regressor


        elif self.regressor_method == 'random_forest':
            for u in self.user_profile:

                user_ratings = [rating for _, rating in trainset.ur[u]]
                item_ids = [iid for iid, _ in trainset.ur[u]]

                df_user = pd.DataFrame({'item_id': item_ids, 'user_ratings': user_ratings})

                df_user["item_id"] = df_user["item_id"].map(trainset.to_raw_iid)

                df_user = df_user.merge(self.content_features, left_on = "item_id", right_index = True, how = 'left')

                if 'n_character_title' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['n_character_title'].values.reshape(-1, 1)

                elif 'avg_relevance' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_relevance'].values.reshape(-1, 1)

                elif 'movie_year' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['movie_year'].values.reshape(-1, 1)

                elif 'genres' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['genres'].values.reshape(-1, 1)

                elif 'combination' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['combination'].values.reshape(-1, 1)

                elif 'avg_rating' in df_user.columns:
                    # Si 'n_character_title' est disponible comme caractéristique
                    X = df_user['avg_rating'].values.reshape(-1, 1)

                elif 'tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['tags'].values.reshape(-1, 1)

                elif 'n_character_tags' in df_user.columns:
                    # Si une autre caractéristique est disponible (remplace 'other_feature' par le nom de ta caractéristique)
                    X = df_user['n_character_tags'].values.reshape(-1, 1)

                else:
                    # Si aucune caractéristique appropriée n'est disponible
                    continue  # Ou gère le cas d'erreur/exception ici
                y = df_user['user_ratings'].values
                rf_regressor = RandomForestRegressor(n_estimators=100)
                rf_regressor.fit(X, y)
                self.user_profile[u] = rf_regressor

        else :
            pass

            # (implement here the regressor fitting)

    def estimate(self, u, i):
        """Scoring component used for item filtering"""
        # First, handle cases for unknown users and items
        if not (self.trainset.knows_user(u) and self.trainset.knows_item(i)):
            raise PredictionImpossible('User and/or item is unkown.')


        if self.regressor_method == 'random_score':
            rd.seed()
            score = rd.uniform(0.5,5)

        elif self.regressor_method == 'random_sample':
            rd.seed()
            score = rd.choice(self.user_profile[u])

        elif self.regressor_method == 'linear_regression':

            raw_item_id = self.trainset.to_raw_iid(i)

            item_features = self.content_features.loc[raw_item_id:raw_item_id, :].values

            linear_regressor = self.user_profile[u]

            score= linear_regressor.predict(item_features)[0]

        elif self.regressor_method == 'svr_regression':

            raw_item_id = self.trainset.to_raw_iid(i)

            item_features = self.content_features.loc[raw_item_id:raw_item_id, :].values

            svr_regressor = self.user_profile[u]
            score = svr_regressor.predict(item_features)[0]

        elif self.regressor_method == 'gradient_boosting':

            raw_item_id = self.trainset.to_raw_iid(i)

            item_features = self.content_features.loc[raw_item_id:raw_item_id, :].values

            gradient_boosting = self.user_profile[u]
            score = gradient_boosting.predict(item_features)[0]

        elif self.regressor_method == 'random_forest':

            raw_item_id = self.trainset.to_raw_iid(i)

            item_features = self.content_features.loc[raw_item_id:raw_item_id, :].values

            randomforest = self.user_profile[u]
            score = randomforest.predict(item_features)[0]

        else :
            score = None

            # (implement here the regressor prediction)

        return score

    def explain(self, u) :
        if u in self.user_profile_explain :
            return self.user_profile_explain[u]
        else :
            return {}


 cb = ContentBased("movie_year", "random_sample")

 print(cb.explain('11'))

+print('test')
 ```

 %% Output

    {}

 %% Cell type:code id:baab88b7 tags:

 ``` python
 from pprint import pprint

 # Créer une instance de TfidfVectorizer pour les genres
 tfidf_vectorizer = TfidfVectorizer()

 # Fit et transform pour calculer la matrice TF-IDF des genres
 tfidf_matrix = tfidf_vectorizer.fit_transform(df_items['genres'])

 # Obtenir les noms des genres (features)
 genre_names = tfidf_vectorizer.get_feature_names_out()

 # Créer un DataFrame à partir de la matrice TF-IDF des genres
 df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=genre_names)

 print("Matrice TF-IDF des genres :")
 display(df_tfidf)
 ```

 %% Output

    Matrice TF-IDF des genres :


 %% Cell type:markdown id:ffd75b7e tags:

 The following script test the ContentBased class

 %% Cell type:code id:69d12f7d tags:

 ``` python
 def test_contentbased_class(feature_method, regressor_method):
    """Test the ContentBased class.
    Tries to make a prediction on the first (user,item ) tuple of the anti_test_set
    """
    sp_ratings = load_ratings(surprise_format=True)
    train_set = sp_ratings.build_full_trainset()
    content_algo = ContentBased(feature_method, regressor_method)
    content_algo.fit(train_set)
    anti_test_set_first = train_set.build_anti_testset()[0]
    prediction = content_algo.predict(anti_test_set_first[0], anti_test_set_first[1])
    print(prediction)



 # print("title_length :")
 # test_contentbased_class(feature_method = "title_length" , regressor_method = "random_score")
 # test_contentbased_class(feature_method = "title_length" , regressor_method = "random_sample")
 # test_contentbased_class(feature_method = "title_length" , regressor_method = "linear_regression")
 # test_contentbased_class(feature_method= "title_length", regressor_method= "svr_regression")
 # test_contentbased_class(feature_method= "title_length", regressor_method= "gradient_boosting")
 # test_contentbased_class(feature_method= "title_length", regressor_method= "random_forest")
 # print("\n")
 # print("movie_year : ")
 # test_contentbased_class(feature_method= "movie_year", regressor_method= "random_score")
 # test_contentbased_class(feature_method= "movie_year", regressor_method= "random_sample")
 # test_contentbased_class(feature_method= "movie_year", regressor_method= "linear_regression")
 # test_contentbased_class(feature_method= "movie_year", regressor_method= "svr_regression")
 # test_contentbased_class(feature_method= "movie_year", regressor_method= "gradient_boosting")
 # test_contentbased_class(feature_method= "movie_year", regressor_method= "random_forest")
 # print("\n")
 # print("relevance : ")
 # test_contentbased_class(feature_method= "relevance", regressor_method= "random_score")
 # test_contentbased_class(feature_method= "relevance", regressor_method= "random_sample")
 # test_contentbased_class(feature_method= "relevance", regressor_method= "linear_regression")
 # test_contentbased_class(feature_method= "relevance", regressor_method= "svr_regression")
 # test_contentbased_class(feature_method= "relevance", regressor_method= "gradient_boosting")
 # test_contentbased_class(feature_method= "relevance", regressor_method= "random_forest")
 # print("\n")
 # print("genres : ")
 # test_contentbased_class(feature_method= "genres", regressor_method= "random_score")
 # test_contentbased_class(feature_method= "genres", regressor_method= "random_sample")
 # test_contentbased_class(feature_method= "genres", regressor_method= "linear_regression")
 # test_contentbased_class(feature_method= "genres", regressor_method= "svr_regression")
 # test_contentbased_class(feature_method= "genres", regressor_method= "gradient_boosting")
 # test_contentbased_class(feature_method= "genres", regressor_method= "random_forest")
 # print("\n")
 # print("rating : ")
 # test_contentbased_class(feature_method= "rating", regressor_method="random_score")
 # test_contentbased_class(feature_method= "rating", regressor_method="random_sample")
 # # test_contentbased_class(feature_method= "rating", regressor_method="linear_regression")
 # #test_contentbased_class(feature_method="rating", regressor_method="svr_regression")
 # #test_contentbased_class(feature_method="rating", regressor_method="gradient_boosting")
 # #test_contentbased_class(feature_method="rating", regressor_method="random_forest")
 # print("\n")
 # print("tags : ")
 # test_contentbased_class(feature_method="tags", regressor_method="random_score")
 # test_contentbased_class(feature_method="tags", regressor_method="random_sample")
 # #test_contentbased_class(feature_method="tags", regressor_method="linear_regression")
 # # test_contentbased_class(feature_method="tags", regressor_method="svr_regression")
 # # test_contentbased_class(feature_method="tags", regressor_method="gradient_boosting")
 # # test_contentbased_class(feature_method="tags", regressor_method="random_forest")
 # print("\n")
 # print("tags_length : ")
 # test_contentbased_class(feature_method="tags_length", regressor_method="random_score")
 # test_contentbased_class(feature_method="tags_length", regressor_method="random_sample")
 # test_contentbased_class(feature_method="tags_length", regressor_method="linear_regression")
 # test_contentbased_class(feature_method="tags_length", regressor_method="svr_regression")
 # test_contentbased_class(feature_method="tags_length", regressor_method="gradient_boosting")
 # test_contentbased_class(feature_method="tags_length", regressor_method="random_forest")

 # print("\n")
 # print("combination : ")
 # test_contentbased_class(feature_method="combination", regressor_method="random_score")
 # test_contentbased_class(feature_method="combination", regressor_method="random_sample")
 # test_contentbased_class(feature_method="combination", regressor_method="linear_regression")
 # test_contentbased_class(feature_method="combination", regressor_method="svr_regression")
 # test_contentbased_class(feature_method="combination", regressor_method="gradient_boosting")
 # test_contentbased_class(feature_method="combination", regressor_method="random_forest")
 ```