c'est fini tout est bon

1 year ago · 77e509aec8
parent 4c5bc9d059
commit 77e509aec8
5 changed files with 70 additions and 70 deletions
--- a/.gitignore
+++ b/.gitignore
@ -175,5 +175,5 @@ cython_debug/
 #  be found at https://github.com/github/gitignore/blob/main/Global/JetBrains.gitignore
 #  and can be added to the global gitignore or merged into this file.  For a more nuclear
 #  option (not recommended) you can uncomment the following to ignore the entire idea folder.
-#.idea/
+.idea/

--- a/calculsIA.py
+++ b/calculsIA.py
@ -1,65 +0,0 @@
-import pandas as pd
-import numpy as np
-import matplotlib.pyplot as plt
-import sklearn as sk
-from sklearn.model_selection import train_test_split
-from sklearn.linear_model import LinearRegression
-from sklearn.metrics import mean_squared_error, mean_absolute_error
-
-# dfRatingsTropGrand = pd.read_csv("processedData/actorsRatingsPerMovie.tsv",sep='\t')
-# tconst	ratings	actorNames	averageRatingMovie
-
-# dfRatings = dfRatingsTropGrand[dfRatingsTropGrand['ratings'].apply(lambda x: len(eval(x)) >= 4)]
-
-# dfRatings.to_csv("processedData/actorsRatingsPerMovieGoodToUse.tsv", index=False, sep="\t")
-dfRatings = pd.read_csv("processedData/actorsRatingsPerMovieGoodToUse.tsv", sep="\t")
-dfActeurs = pd.read_csv("processedData/actorsRatingsGroupedWithName.tsv", sep="\t")
-print("Veuillez entrer un entier positif inférieur ou égal à ",len(dfRatings))
-print("(Plus le nombre est petit, le temps de préparation sera moins long, mais la précision du modèle sera plus petite)")
-val = input(": ")
-val = int(val)
-listMovies = dfRatings.sample(val)['tconst'].values
-# listMovies = dfRatings['tconst'].values
-
-listRatingsA = []
-listRatingsM = []
-datas = []
-nbDiese = 0
-for i in range(len(listMovies)):
-    valPrct = i / len(listMovies) * 100
-    print("{:.2f}".format(valPrct), "%", end="\r")
-    film = listMovies[i]
-    bob = (dfRatings.averageRatingMovie.loc[dfRatings.tconst == film].values[0],
-           eval(dfRatings.ratings.loc[dfRatings.tconst == film].values[0]))
-    listRatingsA.append(bob[1][:4])
-    listRatingsM.append(bob[0])
-print("")
-
-x = listRatingsA
-y = listRatingsM
-
-xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.3)
-
-lnrg = LinearRegression()
-
-# clf = lnrg.fit(xtrain,ytrain)
-xtrain = np.array(xtrain)
-clf = lnrg.fit(x, y)
-predictions = lnrg.predict(xtest)
-print("\nPréparation du modèle de regréssion linéaire terminée\n")
-
-print('Erreur quadratique : ', mean_squared_error(ytest, predictions))
-print('Écart moyen : ', mean_absolute_error(ytest, predictions),"\n")
-
-def calculPrevision(listNomsActeurs):
-    if len(listNomsActeurs) == 4:
-        print('\nPrédiction en cours...\n')
-        notesActeurs = []
-        for nom in listNomsActeurs:
-            note = dfActeurs.loc[dfActeurs.primaryName == nom].averageRatingMean.values[0]
-            print(nom, " a pour note moyenne : ", note)
-            notesActeurs.append(note)
-        prediction = clf.predict([notesActeurs])[0]
-        print("\nNote prédite : ", "{:.2f}".format(prediction), "\n")
-    else:
-        print("La liste d'acteurs n'est pas de la bonne taille")
--- a/getRatingsActeur.py
+++ b/getRatingsActeur.py
@ -5,6 +5,11 @@ import asyncio
 import time
 from concurrent.futures import ThreadPoolExecutor    
 import threading
+import sklearn as sk
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LinearRegression
+from sklearn.metrics import mean_squared_error, mean_absolute_error
+from joblib import dump

 # Variable globale pour indiquer quand le script principal a terminé
 script_done = False
@ -105,6 +110,43 @@ def data_manipulation(DataIsLoaded = None):
    # actorsRatingsPerMovie = pd.DataFrame(list(allActorRatingsMovies.items()), columns=['tconst', 'ratings'])
    # actorsRatingsPerMovie.to_csv("actorsRatingsPerMovie.tsv", index=False, sep="\t")

+def creationModele():
+    dfRatings = pd.read_csv("processedData/actorsRatingsPerMovieGoodToUse.tsv", sep="\t")
+    # listMovies = dfRatings.sample(int(len(dfRatings)//100))['tconst'].values
+    listMovies = dfRatings['tconst'].values
+
+    listRatingsA = []
+    listRatingsM = []
+    datas = []
+    nbDiese = 0
+    for i in range(len(listMovies)):
+        valPrct = i / len(listMovies) * 100
+        print("{:.2f}".format(valPrct), "%", end="\r")
+        film = listMovies[i]
+        bob = (dfRatings.averageRatingMovie.loc[dfRatings.tconst == film].values[0],
+               eval(dfRatings.ratings.loc[dfRatings.tconst == film].values[0]))
+        listRatingsA.append(bob[1][:4])
+        listRatingsM.append(bob[0])
+    print("")
+
+    x = listRatingsA
+    y = listRatingsM
+
+    xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.3)
+
+    lnrg = LinearRegression()
+
+    # clf = lnrg.fit(xtrain,ytrain)
+    xtrain = np.array(xtrain)
+    clf = lnrg.fit(x, y)
+    predictions = lnrg.predict(xtest)
+    print("\nPréparation du modèle de regréssion linéaire terminée\n")
+
+    print('Erreur quadratique : ', mean_squared_error(ytest, predictions))
+    print('Écart moyen : ', mean_absolute_error(ytest, predictions), "\n")
+    dump(clf, "processedData/modele.joblib")
+
+
 # Fonction principale pour exécuter à la fois le timer et la manipulation de données
 if __name__ == "__main__":     
    # Crée un thread pour suivre le temps
--- a/interface.py
+++ b/interface.py
@ -3,7 +3,9 @@ import os
 from typing import List
 import numpy as np
 import pandas as pd
-from calculsIA import *
+from joblib import load
+from getRatingsActeur import creationModele
+

 def levenshtein_distance(s1, s2):
    if len(s1) < len(s2):
@ -28,7 +30,7 @@ def levenshtein_distance(s1, s2):
 def find_closest_actor_name(input_name, actor_names):
    if input_name in actor_names:
        return input_name
-        
+
    closest_name = None
    min_distance = float('inf')
    for i in range(len(actor_names)):
@ -84,19 +86,40 @@ def add_actor(actor_names):
            return None


+def calculPrevision(listNomsActeurs, dfActeurs, clf):
+    if len(listNomsActeurs) == 4:
+        print('\nPrédiction en cours...\n')
+        notesActeurs = []
+        for nom in listNomsActeurs:
+            note = dfActeurs.loc[dfActeurs.primaryName == nom].averageRatingMean.values[0]
+            print(nom, " a pour note moyenne : ", note)
+            notesActeurs.append(note)
+        prediction = clf.predict([notesActeurs])[0]
+        print("\nNote prédite : ", "{:.2f}".format(prediction), "\n")
+    else:
+        print("La liste d'acteurs n'est pas de la bonne taille")
+
+
 def find_direct_actor_name(df, searchedValue):
    if 'primaryName' in df.columns:
        if searchedValue in df['primaryName'].values:
            return searchedValue
    return None

+
 if __name__ == "__main__":
    mustContinue = True
+    if not os.path.exists("processedData/actorsRatingsGroupedWithName.tsv"):
+        print("Veuillez lancer getRatingsActeur.py avant d'exécuter ce programme.")
+        exit()
+    dfActeurs = pd.read_csv("processedData/actorsRatingsGroupedWithName.tsv", sep="\t")
    if not os.path.exists("processedData/uniqueActorNames.tsv"):
        saveUniqueActorsSorted("processedData/actorsRatingsGroupedWithName.tsv", "processedData/uniqueActorNames.tsv")
+    if not os.path.exists("processedData/modele.joblib"):
+        creationModele()
+    clf = load('processedData/modele.joblib')
    actor_names = getUniqueActorNames("processedData/uniqueActorNames.tsv")
    selectedActorNames = []
-
    print("Bienvenue dans MoviePrecog!")
    while mustContinue:
        print("1: Ajouter un acteur à la liste (4 acteurs / actrices requis)")
@ -120,7 +143,7 @@ if __name__ == "__main__":
            selectedActorNames.clear()
            print("La liste a été vidée.")
        elif choice == '4':
-            calculPrevision(selectedActorNames)
+            calculPrevision(selectedActorNames, dfActeurs, clf)
        elif choice == '5':
            print("Au revoir !")
            mustContinue = False
--- a/processedData/modele.joblib
+++ b/processedData/modele.joblib