From e58c37a695f87155e25241f734a832827ffc6b18 Mon Sep 17 00:00:00 2001
From: rem <remi.arnal@etu.uca.fr>
Date: Mon, 12 Feb 2024 09:55:09 +0100
Subject: [PATCH] datatset info + readme

---
 README.md   | 17 +++++++++++++++++
 src/main.py |  6 +++++-
 2 files changed, 22 insertions(+), 1 deletion(-)

diff --git a/README.md b/README.md
index 2758434..c5f4782 100644
--- a/README.md
+++ b/README.md
@@ -6,6 +6,7 @@ Deep Learning: https://machinelearningmastery.com/tutorial-first-neural-network-
 Python Machine Learning: https://machinelearningmastery.com/machine-learning-in-python-step-by-step/
 
 AI Plot data: https://machinelearningmastery.com/visualize-machine-learning-data-python-pandas/
+
 ## Columns
 
 |Keep         |Skip        |
@@ -25,3 +26,19 @@ AI Plot data: https://machinelearningmastery.com/visualize-machine-learning-data
 - [ ] Which model is the best, ratio learn_time/precision
 - [ ] Can we drop more categories and have same results (useless data?)
 - [ ] Compare prediction with y_test that were false
+
+## Dataset
+Nous avons décidé de prendre un dataset sur le site Kaggle, il contient 100 000 lignes qui réprésentent
+chacune un objet stellaire observé en lui attribuant plusieurs caractéristiques comme sa declinaison,
+les couleurs observées et autres valeurs scientifiques.
+Chaque ligne est donc associée à une classe qui peut-être "QSO" un quasar, "Galaxy" ou "Star".
+
+Notre première étape à été de regarder le dataset pour savoir si certaines données sont manquantes.
+En utilisant `df.info()` nous pouvons avoir certaines informations sur les données, il ne manque aucune valeur.
+
+Nous pouvons maintenant regarder la répartition des classes, celle-ci est assez inégale avec ~60.000 Galaxie,
+~21.000 étoiles et ~19000 quasar. Nous pouvons en déduire que les galaxies sont plus communes mais cela
+pourrait-il avoir une incidence sur la précision de notre modèle ?
+
+## Plot
+J'ai la flemme d'analyser les plots que j'ai fait.
diff --git a/src/main.py b/src/main.py
index ea5aa66..64ce3b3 100755
--- a/src/main.py
+++ b/src/main.py
@@ -34,7 +34,11 @@ from sklearn.metrics import confusion_matrix
 # main
 def main():
     # plotAll()
-    #auto_sklearn()
+    # auto_sklearn()
+
+    # dftmp = pd.read_csv('data.csv')
+    # dftmp.info()
+    # print(dftmp['class'].value_counts())
     
     # User input
     opt = prompt_display()