From e58c37a695f87155e25241f734a832827ffc6b18 Mon Sep 17 00:00:00 2001 From: rem Date: Mon, 12 Feb 2024 09:55:09 +0100 Subject: [PATCH] datatset info + readme --- README.md | 17 +++++++++++++++++ src/main.py | 6 +++++- 2 files changed, 22 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 2758434..c5f4782 100644 --- a/README.md +++ b/README.md @@ -6,6 +6,7 @@ Deep Learning: https://machinelearningmastery.com/tutorial-first-neural-network- Python Machine Learning: https://machinelearningmastery.com/machine-learning-in-python-step-by-step/ AI Plot data: https://machinelearningmastery.com/visualize-machine-learning-data-python-pandas/ + ## Columns |Keep |Skip | @@ -25,3 +26,19 @@ AI Plot data: https://machinelearningmastery.com/visualize-machine-learning-data - [ ] Which model is the best, ratio learn_time/precision - [ ] Can we drop more categories and have same results (useless data?) - [ ] Compare prediction with y_test that were false + +## Dataset +Nous avons décidé de prendre un dataset sur le site Kaggle, il contient 100 000 lignes qui réprésentent +chacune un objet stellaire observé en lui attribuant plusieurs caractéristiques comme sa declinaison, +les couleurs observées et autres valeurs scientifiques. +Chaque ligne est donc associée à une classe qui peut-être "QSO" un quasar, "Galaxy" ou "Star". + +Notre première étape à été de regarder le dataset pour savoir si certaines données sont manquantes. +En utilisant `df.info()` nous pouvons avoir certaines informations sur les données, il ne manque aucune valeur. + +Nous pouvons maintenant regarder la répartition des classes, celle-ci est assez inégale avec ~60.000 Galaxie, +~21.000 étoiles et ~19000 quasar. Nous pouvons en déduire que les galaxies sont plus communes mais cela +pourrait-il avoir une incidence sur la précision de notre modèle ? + +## Plot +J'ai la flemme d'analyser les plots que j'ai fait. diff --git a/src/main.py b/src/main.py index ea5aa66..64ce3b3 100755 --- a/src/main.py +++ b/src/main.py @@ -34,7 +34,11 @@ from sklearn.metrics import confusion_matrix # main def main(): # plotAll() - #auto_sklearn() + # auto_sklearn() + + # dftmp = pd.read_csv('data.csv') + # dftmp.info() + # print(dftmp['class'].value_counts()) # User input opt = prompt_display()