9.8 KiB

Raw Permalink Blame History

layout	title	categories
post	TP1 de programmation objet interprétée - Entrée en matière	ruby-2a

Entrée en matière

Ce TP a pour but de vous faire pratiquer les bases du langage Ruby, en particulier :

Prendre en main l'environnement
Bases de la bibliothèque standard
Méthodes
Hash et Map
Une façon de tester
Apprendre à mélanger intuition et parcours de la documentation pour découvrir le Ruby que l'on ignore encore

Ruby est un langage 100% objet, tout est objet, même nil (null) ! Mais avant de se lancer dans de la programmation objet, assurons nous d'avoir bien les bases : Amusons avec des scripts classiques, Ruby permet ça aussi !

Outils

Votre éditeur de texte/IDE préféré! Pas de guerre de religion ici! (Liste non exhaustive en bas).
irb : le débogueur ruby. Idéal pour tester directement des commandes. Peut aussi servir à déboguer.
pry: irb, en mieux: avec debogueur et couleurs. Installable comme une gemmme (cf. votre cours).
rspec sera utile pour ce TP. C'est un outil de tests unitaires (ils vous sont fournis cette semaine).
ri: l'aide locale de ruby, plus rapide que le réseau mais moins jolie (exemple ri String#scan)
Une ancienne version d'un bon livre sur ruby a été ouverte. Vous la trouverez là. Elle ne couvre pas tous les ajouts récents mais toute la base du langage est toujours bonne, et bien expliquée.
Doc de référence: l'officielle sur ruby-doc.org. Barre de recherche en haut à droite.
Un cours de programmation écrit avec Ruby comme langage support.

Une rapide présentation des IDE ruby est disponible à la fin de ce document... Si vous avez un IDE préféré, il devrait faire l'affaire.

1 - Katas marrants

Télécharger les fichiers de ce répertoire (sujet, ainsi que les tests unitaires et fichiers de données nécessaires).

De la même manière que pour un pratiquant d'art martiaux, les katas sont des exercices que font les développeurs pour améliorer leurs compétences via répétition et entraînement.

Vous devez éditer le fichier katas.rb qui contient une liste de fonctions à écrire.

Vous pouvez vérifier vos katas au fur et à mesure de votre dev avec les tests unitaires écrits pour cet usage. Pour cela, ouvrez un terminal, allez dans le dossier de votre projet et tapez simplement rspec. Si il n'est pas installé, regardez la section suivante

Installation de `rspec`

On installe la gemme: gem install --user-install rspec

On cherche le répertoire d'exécutables à ajouter au PATH:

find ~/.gem -name bin -type d
/home/delobel/.gem/ruby/2.7.0/bin

On ajoute le chemin au PATH dans le .bashrc (attention, vous n'avez pas forcément la même version de ruby). echo 'PATH="$PATH:/home/delobel/.gem/ruby/2.7.0/bin"' >> ~/.bashrc

On relit le fichier de conf: source ~/.bashrc

2 - Calcul de fréquences

Consignes

Le but de cet application, c'est de prendre un nom de fichier en paramètre et de ressortir les fréquences (nombre d'occurence d'un mot par rapport au nombre de mots total) des 20 mots les plus courants du fichier, en ignorant les mots de moins de 3 caractères et bien sûr les ponctuations.

On veut donc pouvoir la lancer comme suit sur le fichier exemple french_text.txt:

$>ruby frequency.rb french_text.txt

Et avoir le résultat suivant :

corbeau: 0.029
que: 0.022
vous: 0.022
tes: 0.022
tre: 0.015
bec: 0.015
fromage: 0.015
renard: 0.015
peu: 0.015
monsieur: 0.015
sans: 0.015
votre: 0.015
ces: 0.015
sur: 0.007
arbre: 0.007
perch: 0.007
tenait: 0.007
son: 0.007
par: 0.007
odeur: 0.007

Attention, si on ne passe aucun paramètre au programme, un message d'erreur doit s'afficher sur le flux d'erreur ($stderr). Exemple :

$>ruby frequency.rb
usage: frequency.rb <text_file>

Quelques pistes...

L'utilisation de Hash pour le comptage des mots est particulièrement utile. Surtout si vous l'initialisez avec une valeur par défaut en cas de clef absente...

On ne peut que vous conseiller de séparer l'application en plusieurs responsabilités :

Lecture du fichier texte
Nettoyage du texte (pour la ponctuation par exemple)
Séparation du texte en mots
Comptage des occurences des mots
Calcul des fréquences (normalisation des occurences)
Tri et affichage des 20 premiers résultats
Programme principal qui associe les différentes responsabilités ensemble

Pour nettoyer le texte, vous pouvez regarder ce que fait String#gsub(motif, remplacement). Un motif peut être une expression rationnelle Ruby (/^lapino?s/ par exemple).

Cela vous permettra d'écrire plusieurs petites fonctions que vous pourrez tester au fur et à mesure. N'hésitez pas à vous référer aux katas écrits avant.

Variante (si vous avez été très rapide sur le précédent)

Ajoutez une option -l à votre programme qui permet de calculer la fréquence des différentes lettres du texte.

3 - Détection de langues

On vous fournit un fichier JSON stop_words.json qui contient les mots vides (ou stopwords) les plus courants dans les langues les plus courantes.

Les mots sont au format qui suit :

{
  "<label de la langue>": [
    "<mot vide 1>",
    "<mot vide 2>",
    ...
  ],
  ...
}

L'idée est de détecter quelle langue est utilisée dans un texte en fonction de ces mots vides. Ainsi, si le texte a la plus grande intersection avec des mots vides de la langue labellisée 'fr' (french), on pourra supposer que le texte est en Français.

L'algorithme est le suivant :

charger le fichier cible, mettre les mots dans un tableau, supprimer les doublons
pour chaque langue de la référence
- récupérer la liste des mots vide de la langue courante
- calculer l'intersection entre les mots vides de la langue courante et les mots du texte
- retenir la taille de l'intersection pour la langue courante (un conseil ici, utilisez un hash pour associer langue et taille)
fin pour

trouver le maximum des intersections calculées afficher le label du maximum des intersections

On va fournir un texte à analyser via un paramètre de l'application :

$>ruby detect_language.rb french_text.txt

Et on s'attendra au résultat suivant :

Detected language: 'fr'

Attention, si on ne passe aucun paramètre au programme, je voudrais un message qui averti l'utilisateur. Exemple :

$>ruby detect_language.rb
usage: detect_language.rb <text_file>

Testez sur les fichiers french_text.txt, english_text.txt et german_text.txt

Quelques pistes

On peut vous conseiller de séparer votre code en responsabilités différentes via des méthodes :

Nom de la méthode	Paramètres	Détail
load_reference	reference_file_path	Méthode qui renvoie le fichier JSON chargé dans un hash
load_text_file	text_file_path	Méthode qui fait le chargement, le nettoyage et la séparation du fichier texte en mots
intersection_sizes	reference, text_words	Méthode qui prend la référence et calcul l'intersection entre la liste de mots d'une langue et les mots du texte
detect_language	reference, text_words	Méthode qui appelle la méthode précédente et parcours les intersections pour trouver la plus grande et retourne son nom

Attention lors de la lecture du fichier texte, se référer au deuxième exercice
Un opérateur magique sur Array existe... Il s'écrit comme le 'ET' binaire
Ne vous laissez pas intimider par le JSON, vous n'avez qu'une méthode statique à appeler sur le module pour parser le document. Cela vous renvoie un Hash qu'il vous suffira de parcourir.
Pour charger une dépendance de Ruby, on utilise require 'une_dependance'. une_dependance est un fichier ruby qui peut être dans l'installation standard de Ruby (C'est le cas de JSON), ou une gemme (le système de paquets de ruby que l'on verra par la suite).

IDE

Les goûts et les couleurs, ça ne se discute pas: il y a rarement d'IDE qui fasse l'unanimité pour un langage ouvert. Voici néanmoins quelques possibilités.

Vim colore et indente vite.
Emacs a de bons plugins Ruby, mais nécessite pas mal de configuration pour donner son plein potentiel.
Geany est un éditeur de texte tout simple mais qui fait bien son boulot.
Eclipse, Faut être patient au lancement, comme toujours, mais le plugin est correct (Partie de dltk - Dynamic Language ToolKit, qui gère aussi d'autres langages interprétés).
Atom est un éditeur libre, développé par github, pas packagé sur debian.
Aptana, un IDE basé sur éclipse. Bonnes capacités aussi pour Ruby On Rails. Disponible aussi sous forme indépendante (un package tout pret).
Orable a poussé Netbeans à se concentrer sur Java, mais la communauté a repris le développement d'un plugin Ruby & Rails disponible sur le site officiel
RubyMine, un IDE dédié à Ruby et Rails, par JetBrains, qui fait aussi IntelliJ, PHPStorm, Clion, etc.
Sapphire, un IDE basé sur visual studio.
VS Code n'est pas disponible sous Debian, mais un paquet debian est disponible sur le site.
VSCodium est une rebuild de VSCode avec uniquement la configuration "comminity" (Sans le branding, la télémétrie, et en licence MIT). Sous ArchLinux, il est en d&pot aur, sous debian, vous trouverez les paquets dans les release du dépot.

9.8 KiB Raw Permalink Blame History