Me voilà de retour avec une version de TexLexAn capable de résumer une page web en déposant simplement le lien (http://.....) depuis la fenêtre de l'explorateur.  Les fichiers pdf, ppt, doc et odt sont aussi reconnus à condition d'intaller les petits programmes suivant: pdftotext, ppthtml, antiword et odt2txt. L'excellent programme wget est nécessaire au  téléchargement des pages, ce dernier est normalement présent dans toute les distributions Linux.

Si cela vous tente de l'essayer, le paquet est disponible sur sourceforge, tapez 'texlexan' or cliquez sur ce lien:  http://sourceforge.net/projects/texlexan/   

Le programme est très loin d'être parfait, mais je travaille activement à son amélioration. Il est malgrès tout capable de produire des résumés 'extracts' dans 80% des cas.  Il reconnait l'anglais, le français et l'espagnol. L'Italien, le portugais et l'allemand devraient suivre.  Je travaille actuellement sur l'analyse de la page html, et en particulier sur le moyen de filtrer éfficacement les annonces commerciales. Ces dernières polluent le résumé d'extraits non-pertinents.

Pour finir, une copie d'écran:

Notez la petite fenêtre en haut à droite dans laquelle on dépose le lien avec la souris (il suffit de cliquer sur le titre de la page et de garder le bouton enfoncé en déplaçant la souris jusqu'à la fenêtre TexLexAn), un clique sur OK et les résumés apparaissent après quelques secondes à ... (en fonction la taille de la page, les fichier pdf et ppt peuvent être très long!) 

texlexan012