TexLexAn analyse, classifie et résume automatiquement les textes
Voiçi mon projet sur lequel je travaille depuis plusieurs mois. TexLexAn est un programme qui analyse les textes, les classifie et les résume automatiquement. Il est en fait constitué d'un interface graphique utilisateur écrit en python, et du programme d'analyse écrit en c.
I am working on this project for several months. TexLexAn is a program to analyze, classifie and automaticaly summarize texts. It's composed of a gui written in python and an text analyzer written in c.
Note: The documentation included in pack1 and the programs outputs are in English.
Le paquet à télécharger est ici - Download the package here : pack1.tar
et deux copies d'écran:
Intallation:
xubuntu 8.10 livecd / ubuntu 8.04 livecd C'est très facile, enregistrez le paquet (200Ko) sur le Desktop, faites Extraire ici, ouvrez le fichier pack1, cliquez sur install.sh
kubuntu 7.10 livecd C'est un peu plus compliqué, enregistrez le paquet (200Ko) sur le Desktop, faites Extraire ici, ouvrez la console texte, tapez sudo apt-get install python-gtk2 (le téléchargement et l'installation de pygtk prend un peu de temps), cliquez sur install.sh
Vous aurez besoin de fichiers au format text ( et avec l'extension .txt ) pour essayer ce programme,
en voiçi un: I have a dream.txt
Le programme produit des résumés qui sont enregistrés dans le dossier texlexan_result sous les noms d'abstract1.txt, abstract2.txt et abstract3.txt. Ils sont le résultat d'algorithmes différents.
L'efficacité du classifieur et du résumé dépendent avant tout de la qualité des dictionnaires. Un deuxième paquet que je vais soumettre dans une semaine environ vous permettra de mettre à jour les dictionnaires.
The efficiency of the text classifier summarizer depends of the quality of the dictionnaries. A next package (PACK2) will be released the next week, this package will allow you to update the dictionnaries from texts you will analyze (half-supervized learning). This dictionnaries inclued in this package PACK1 are very incomplet and just here for evaluation.
Les dictionnaires inclus dans ce paquet (PACK1) sont très incomplets et là simplement pour vous permettre d'essayer le logiciel.
Pour finir, ces programmes sont en développement, ils contiennent encore beaucoup de bugs, ne sont pas optimisés et restent incomplets. Mais si vous souhaitez participer au projet, n'hésitez pas à me contacter.
Enjoy :-)
JP Redonnet