Analyseur de texte

17 novembre 2008

Me revoilà après quelques mois d'absences, il faut dire que je travaille activement sur un nouveau programme d'analyse de texte. Je lui ai déjà trouvé un nom: TexLexAn , il me reste à corriger quelques bugs génants, à rédiger la doc et à présenter le tout à West-Chester University; l'université où je travaille. Donc en attendant de leur présenter mon travail, je vous montre une copie d'écran. D'ici quelques semaines, je les metterais en téléchargement ici. ('les' car il y a 5 prog différents: texlexan le prog d'analyse écrit en C et qui tourne en mode texte, texlexan.py l'interface graphique, et finalement buildkeybase, globalkeybase et analysekeybase tous écrits en C et qui permettent de contruire les "dictionnaires" utilisés par texlexan.)

Fonctionnalités: détecte le langage, donne des stats sur le texte, évalue la facilité de lecture et la durée de lecture, recherche le plagiarisme, et classe le texte en rubriques.

Utilise un 'Linear classifier' pour classer le texte, la recherche de terme avec l'algor. Levenstein, la simplification du texte par exclusion des articles, des prépositions... La construction des dictionnaires s'appuit sur une analyse statistique du corpus.