You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

66 lines
2.9 KiB

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn as sk
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from models import *
import random
from analyse import *
# Défini toutes les colonnes à garder dans le nettoyage des données
columns = ['B_fighter','R_fighter','title_bout',
'B_avg_BODY_landed', 'B_avg_HEAD_landed', 'B_avg_TD_att', 'B_avg_TOTAL_STR_landed',
'B_avg_opp_BODY_att', 'B_avg_opp_HEAD_landed', 'B_avg_opp_LEG_landed',
'B_avg_opp_SIG_STR_att', 'B_avg_opp_TOTAL_STR_att',
'R_avg_BODY_landed', 'R_avg_HEAD_landed', 'R_avg_TD_att', 'R_avg_TOTAL_STR_landed',
'R_avg_opp_BODY_att', 'R_avg_opp_HEAD_landed', 'R_avg_opp_LEG_landed',
'R_avg_opp_SIG_STR_att', 'R_avg_opp_TOTAL_STR_att','Winner','weight_class']
# Permet d'inverser le coté des combattants
# Permet ainsi de ne pas prendre en compte dans l'apprentissage le coté de départ (rouge ou bleu)
def swap_values(row):
# Choisi avec 1 chance sur 2 si le swap va être effectué
if random.random() > 0.5:
return swap_values_withoutran(row)
return row
# Inverse le coté des combattants
def swap_values_withoutran(row):
for column in columns:
if column.startswith('B_'):
opposite_column = 'R_' + column[2:]
row[column], row[opposite_column] = row[opposite_column], row[column]
if column.startswith('Winner'):
if row[column] == 0:
row[column] = 2
elif row[column] == 2:
row[column] = 0
return row
# Récupere les données du fichier data.csv
def getData(label_encoder):
df = pd.read_csv('archive/data.csv')
#Avant avril 2001, il n'y avait presque aucune règle dans l'UFC (pas de juges, pas de limites de temps, pas de rounds,
#etc.). C'est à partir de cette date précise que l'UFC a commencé à mettre en place un ensemble de règles connu sous
#le nom de "Unified Rules of Mixed Martial Arts". Par conséquent, nous supprimons tous les combats antérieurs
#à cette mise à jour majeure de l'histoire des règles de l'UFC.
df = df.loc[df['date'] > '2001-04-01', columns]
# Copy le dataframe pour le traiter dans une autre fonction
dfc = df.copy()
# Permet d'encoder la totalité des valeurs string en index (Int)
for column in df.select_dtypes(include=['object']).columns:
# Encode pour chaque colonne de type chaînes de caractères en valeur numérique
df[column] = label_encoder.fit_transform(df[column])
df = df.apply(swap_values, axis=1)
# Drop de la colonne 'Winner' pour effectuer l'apprentissage
X=df.drop('Winner', axis=1)
# Mise en place du y, montrant la réponse aux prédictions attendus
y=df['Winner']
return X,y,dfc