✨ add classifier to web app, can now detect fake news from app

1 year ago · b0c32a3acb
parent 57e34833c0
commit b0c32a3acb
8 changed files with 159 additions and 25 deletions
--- a/src/app/src/classifier.py
+++ b/src/app/src/classifier.py
@ -0,0 +1,28 @@
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.linear_model import LogisticRegression
+from sklearn.tree import DecisionTreeClassifier
+from sklearn.linear_model import SGDClassifier
+
+def logistic_regression(X_train, y_train, X_test):
+    logistic = LogisticRegression(max_iter = 100000)
+    logistic.fit(X_train,y_train)
+
+    return logistic.predict(X_test), logistic
+
+def decision_tree(X_train, y_train, X_test):
+    decisionTree = DecisionTreeClassifier()
+    decisionTree = decisionTree.fit(X_train,y_train)
+
+    return decisionTree.predict(X_test), decisionTree
+
+def knn_classifier(X_train, y_train, X_test):
+    knn = KNeighborsClassifier(n_neighbors=5)
+    knn.fit(X_train, y_train)
+
+    return knn.predict(X_test), knn
+
+def sgd_classifier(X_train, y_train, X_test):
+    sgd = SGDClassifier(loss="hinge", penalty="l2")
+    sgd.fit(X_train, y_train)
+
+    return sgd.predict(X_test), sgd
--- a/src/app/src/html/assets/favicon.svg
+++ b/src/app/src/html/assets/favicon.svg
@ -0,0 +1,3 @@
+<svg xmlns="http://www.w3.org/2000/svg">
+    <text y="32" font-size="32">📰</text>
+</svg>
--- a/src/app/src/html/home.html
+++ b/src/app/src/html/home.html
@ -8,10 +8,12 @@
 <link rel="stylesheet" href="https://www.w3schools.com/w3css/4/w3.css">
 <link rel="preconnect" href="https://fonts.googleapis.com">
 <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link rel="icon" href="assets/favicon.svg">
 <link href="https://fonts.googleapis.com/css2?family=Fira+Code:wght@700&display=swap" rel="stylesheet">
 <style>
    body, html {height: 100%}
-    h1, h4, span, label, button {font-family: 'Fira Code', monospace;}
+    h1, h4, span, label, button, p {font-family: 'Fira Code', monospace;}
+    p {color:red}
    .credit{position: absolute; bottom:0; right:0; margin:.5rem;}
    form > div{margin:.5rem;}
    form{
@ -19,7 +21,6 @@
        justify-content: center;
    }
    button{
-
        font-size: 16px;
        letter-spacing: 2px;
        text-decoration: none;
@ -34,26 +35,27 @@
        -webkit-user-select: none;
        touch-action: manipulation;
    }
-
    button:active {
        box-shadow: 0px 0px 0px 0px;
        top: 5px;
        left: 5px;
    }
-
 </style>
 </head>
 <body>

 <div class="w3-animate-opacity">
  <div class="w3-display-middle">
-    <h1 class="w3-jumbo w3-animate-top">Fake News Detector</h1>
+    <h1 class="w3-jumbo">Fake News Detector</h1>
    <h4>Enter title and url of the news:</h4>
    <form method="post">
        {% csrf_token %}
        {{ form }}
        <button type="submit">Is it fake ??</button>
    </form>
+    <p>
+        {{ result }}
+    </p>
  </div>
 </div>

--- a/src/app/src/models.py
+++ b/src/app/src/models.py
@ -1,4 +1,5 @@
 from django.db import models
+from urllib.parse import urlparse

 # Create your models here.

@ -12,3 +13,33 @@ class Text(models.Model):
    def __str__(self):
        return self.title

+def get_domain(url):
+    parsed_url = urlparse(url)
+    if parsed_url.netloc.startswith('www.'):
+        return parsed_url.netloc[4:]
+    else:
+        return parsed_url.netloc
+
+from .preprocessing import *
+from .classifier import *
+import pandas as pd
+import numpy as np
+
+def prediction(title, url):
+    domain = get_domain(url)
+    
+    input_df = pd.DataFrame({'title': title, 'news_url': url, 'source_domain': domain}, index = ['1'])
+    concat_df = pd.concat([load_datas(), input_df], ignore_index=True)
+
+    input_df_tokenized = tokenize_datas(concat_df).tail(1)
+    input_df_tokenized.drop("tweet_num", axis=1, inplace=True)
+    input_df_tokenized.drop("real", axis=1, inplace=True)
+
+    #return input_df_tokenized
+
+    X, y = no_split_process()
+
+    prediction, knn = knn_classifier(X, y, input_df_tokenized)
+
+    return prediction
+
--- a/src/app/src/preprocessing.py
+++ b/src/app/src/preprocessing.py
@ -0,0 +1,54 @@
+import pandas as pd
+
+from sklearn.preprocessing import LabelEncoder
+
+from sklearn.model_selection import train_test_split
+
+def process():
+    df = load_datas()
+
+    df = tokenize_datas(df)
+
+    X, y = features_selection(df)
+
+    X_train, X_test, y_train, y_test = split_df(X, y)
+
+    return X_train, X_test, y_train, y_test 
+
+def no_split_process():
+    df = load_datas()
+
+    df = tokenize_datas(df)
+
+    X, y = features_selection(df)
+
+    return X, y
+
+def load_datas():
+    return pd.read_csv("../../datas/FakeNewsNet.csv")
+
+def tokenize_datas(df):
+    le = LabelEncoder()
+    label = le.fit_transform(df['news_url'])
+    label1=le.fit_transform(df['title'])
+    label2=le.fit_transform(df['source_domain'])
+    df.drop("news_url", axis=1, inplace=True)
+    df.drop("title", axis=1, inplace=True)
+    df.drop("source_domain", axis=1, inplace=True)
+
+    df["news_url"] = label
+    df["title"] = label1
+    df["source_domain"] = label2
+
+    return df
+
+def features_selection(df):
+    features = ["title", "news_url", "source_domain"]
+
+    return df[features].fillna(''),  df["real"]
+
+
+def split_df(X, y):
+    X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.30, random_state=42)
+    return X_train, X_test, y_train, y_test
+
--- a/src/app/src/views.py
+++ b/src/app/src/views.py
@ -2,14 +2,26 @@ from django.shortcuts import render, redirect
 # Create your views here.

 from .forms import TextForm
+from .models import *

 def index(request):
    if request.method == 'POST':
        form = TextForm(request.POST)
        if form.is_valid():
+            # get datas from the news
            title = form.cleaned_data["title"]
            url = form.cleaned_data["url"]
-            return redirect("index")  # Rediriger vers une page d'accueil ou une autre vue
+
+            # get result from model
+            if(prediction(title, url) == 1):
+                result = "This is not fake news !"
+            else:
+                result = "It's a Fake News !!!"
+
+            # reset form
+            form = TextForm()
+
+            return render(request, 'home.html', {'form':form, 'result':result})
    else:
        form = TextForm()
    return render(request, 'home.html', {'form': form})
--- a/src/main.py
+++ b/src/main.py
@ -5,6 +5,8 @@ import analysis
 from warnings import simplefilter
 simplefilter(action='ignore', category=FutureWarning)

+import pandas as pd
+
 if __name__ == '__main__':
    print("Start learning...")

--- a/src/preprocessing.py
+++ b/src/preprocessing.py
@ -32,6 +32,8 @@ def tokenize_datas(df):
    df["title"] = label1
    df["source_domain"] = label2

+    print(df)
+
    return df

 def features_selection(df):