Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
LINUX & OPEN SOURCE
17 novembre 2008

Analyseur de texte

Me revoilà après quelques mois d'absences, il faut dire que je travaille activement sur un nouveau programme d'analyse de texte. Je lui ai déjà trouvé un nom: TexLexAn , il me reste à corriger quelques bugs génants, à rédiger la doc et à présenter le tout à West-Chester University; l'université où je travaille.  Donc en attendant de leur présenter mon travail, je vous montre une copie d'écran. D'ici quelques semaines, je les metterais en téléchargement ici.  ('les' car il y a 5 prog différents: texlexan le prog d'analyse écrit en C et qui tourne en mode texte, texlexan.py l'interface graphique, et finalement buildkeybase, globalkeybase et analysekeybase tous écrits en C et qui permettent de contruire les "dictionnaires" utilisés par texlexan.) 

Fonctionnalités: détecte le langage, donne des stats sur le texte, évalue la facilité de lecture et la durée de lecture,  recherche le plagiarisme, et classe le texte en rubriques.

Utilise un 'Linear classifier' pour classer le texte, la recherche de terme avec l'algor. Levenstein, la simplification du texte par exclusion des articles, des prépositions...  La construction des dictionnaires s'appuit sur une analyse statistique du corpus.

Screenshot_3

Ci-dessus le choix du fichier à analyser.

Screenshot_1
Ci-dessus les résultats de l'analyse

Screenshot_2
la suite des résultats

à bientôt ?

Publicité
Publicité
Commentaires
LINUX & OPEN SOURCE
Publicité
Archives
Publicité