Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
LINUX & OPEN SOURCE
26 janvier 2009

TexLexAn analyse, classifie et résume automatiquement les textes

Voiçi mon projet sur lequel je travaille depuis plusieurs mois. TexLexAn est un programme qui analyse les textes, les classifie et les résume automatiquement. Il est en fait constitué d'un interface graphique utilisateur écrit en python, et du programme d'analyse écrit en c.

I am working on this project for several months. TexLexAn is a program to analyze, classifie and automaticaly summarize texts. It's composed of a gui written in python and an text analyzer written in c.

Note: The documentation included in pack1 and the programs outputs are in English.

Le paquet à télécharger est ici - Download the package here : pack1.tar

et deux copies d'écran:

texlexan1

texlexan2

Intallation:

xubuntu 8.10 livecd / ubuntu 8.04 livecd   C'est très facile, enregistrez le paquet (200Ko) sur le Desktop, faites Extraire ici, ouvrez le fichier pack1, cliquez sur install.sh

kubuntu 7.10 livecd  C'est un peu plus compliqué,  enregistrez le paquet (200Ko) sur le Desktop, faites Extraire ici, ouvrez la console texte, tapez sudo apt-get install python-gtk2 (le téléchargement et l'installation de pygtk prend un peu de temps), cliquez sur install.sh

Vous aurez besoin de fichiers au format text ( et avec l'extension .txt ) pour essayer ce programme,
en voiçi  un: I have a dream.txt

Le programme produit des résumés qui sont enregistrés dans le dossier texlexan_result sous les noms d'abstract1.txt, abstract2.txt et abstract3.txt. Ils sont le résultat d'algorithmes différents.

L'efficacité du classifieur et du résumé dépendent avant tout de la qualité des dictionnaires.  Un deuxième paquet que je vais soumettre dans une semaine environ vous permettra de mettre à jour les dictionnaires. 

The efficiency of the text classifier summarizer depends of the quality of the dictionnaries. A next package (PACK2) will be released the next week, this package will allow you to update the dictionnaries from texts you will analyze (half-supervized learning). This dictionnaries inclued in this package PACK1 are very incomplet and just here for evaluation.

Les dictionnaires inclus dans ce paquet (PACK1) sont très incomplets et là simplement pour vous permettre d'essayer le logiciel.

Pour finir, ces programmes sont en développement, ils contiennent encore beaucoup de bugs, ne sont pas optimisés et restent incomplets. Mais si vous souhaitez participer au projet, n'hésitez pas à me contacter.

Enjoy :-)

JP Redonnet

Publicité
Publicité
Commentaires
B
Bonjour, <br /> <br /> <br /> <br /> Je voulais savoir s'il y avait une astuce pour lancer TexLexAn en mode console ?<br /> <br /> <br /> <br /> BOnne journée
LINUX & OPEN SOURCE
Publicité
Archives
Publicité