04 mai 2009

The last straw!!!

Un truc qui n'a rien à voir avec Linux. Ils ont décidé de me sucrer un cours cet été. Il me restera qu'une classe dont l'effectif n'est que de 4 étudiants!  Et comme une classe avec un si faible effectif n'est pas rentable, il y a 90% de chance qu'elle soit annulée. Donc pas de revenu cet été!  Eh, oui! Voila comment cela se passe dans le pays de Bill.  Alors un conseil, n'envisagez pas d'être prof dans une université américaine. Ici l'argent aura toujours plus d'importance que le savoir, et le contenant sera mieux... [Lire la suite]
Posté par InPhilly à 21:38 - Commentaires [0] - Permalien [#]

03 mai 2009

TexLexAn 0.29 est disponible

J'ai mis sur sourceforge  http://sourceforge.net/projects/texlexan/   la version 0.29 de TexLexAn.  Les principales améliorations sont: - La choix du mode de résumé est fait à partir d'un l'historique. Le mode de résumé, le taux de compression, les caractéristiques du texte (nombre de mots, de phrases...) et du résumé (nombre de mot), sont sauvegardées dans un fichier. Ces caractéristiques servent ensuite à définir le mode de résumé et le taux de compression du nouveau texte. Le choix est basé simplement... [Lire la suite]
Posté par InPhilly à 15:14 - - Commentaires [0] - Permalien [#]
19 avril 2009

Comparaison ultra rapide floue de deux chaines / phrases

Une petite étude sans prétention: Une méthode de comparaison ultra rapide et floue de deux chaines. Les fonctions de la bibliothèque string.h : strcmp(s1,s2) et strncmp(s1,s2) permettent de comparer facilement deux chaines de caractères. L'inconvénient de strcmp() est d'être couteuse en temps de calcul, surtout si on ne cherche qu'à détecter une égalité ou non-égalité.  En outre strcmp n'est fait une comparaison "floue" de deux chaines. L'utilisation de la distance de Levenshtein permet une comparaison floue de... [Lire la suite]
Posté par InPhilly à 20:00 - - Commentaires [0] - Permalien [#]
11 avril 2009

Resumé automatique Open source et gratuit

La version 0.27 de TexLexAn qui est disponible sur sourceforge est capable de simplifier les phrases.  Dans une premières étapes, les phrases sont extraites du texte à résumer. (Méthode classique des résumés automatiques) La deuxième étape consiste à simplifier les phrases en remplaçant les expressions complexes par des expressions simplifiées. Par exemple: "une quantité suffisante"  est remplacé par "assez""de la même manière que"  => "comme""en aucun cas"... [Lire la suite]
Posté par InPhilly à 00:43 - - Commentaires [0] - Permalien [#]
30 mars 2009

Résumer les pages du web

Me voilà de retour avec une version de TexLexAn capable de résumer une page web en déposant simplement le lien (http://.....) depuis la fenêtre de l'explorateur.  Les fichiers pdf, ppt, doc et odt sont aussi reconnus à condition d'intaller les petits programmes suivant: pdftotext, ppthtml, antiword et odt2txt. L'excellent programme wget est nécessaire au  téléchargement des pages, ce dernier est normalement présent dans toute les distributions Linux. Si cela vous tente de l'essayer, le paquet est disponible sur... [Lire la suite]
Posté par InPhilly à 05:10 - - Commentaires [0] - Permalien [#]
16 février 2009

Codes sources

Les sources de TexLexAn sont placés dans sourceforge http://sourceforge.net/projects/texlexan/ , c'est plus pratique. La prochaine version ( 0.19 ) de texlexan va inclure un convertisseur html -> text, en outre plusieurs bugs ont été corrigés.  La nouvelle version sera disponible dans 2 jours dans sourceforge.
Posté par InPhilly à 20:22 - - Commentaires [0] - Permalien [#]

09 février 2009

Comparaison des résumés automatiques avec des résumés humains

Le discour d'Al Gore concernant les énergies renouvelables a été résumé par 6 logiciels différents et comparés à 3 résumés 'humains'. texte en entier Il est évident que les logiciels de résumés automatiques ne font qu'extraire les phrases jugées les plus significatives. L'extraction des phrases significatives se fait à partir des mots clés; aussi la principale différence entre les logiciels tient dans la manière dont sont choisis les mots clés. Résumés automatiques TexLexAn Algorithme 1: (169 mots)  ... [Lire la suite]
Posté par InPhilly à 03:26 - - Commentaires [1] - Permalien [#]
08 février 2009

Principe du résumé automatique

Essai du résumé automatique. TexLexAn résume les textes par extraction des phrases les plus significatives. Un premier algorithme recherche et extrait les phrases dont la classe correspond à la classe du texte. Un deuxième algorithme recherche et extrait les phrases qui contiennent des expressions ou des mots particuliers (des indices comme: 'en conséquence', 'en conclusion', 'en particulier'...). Les deux algorithmes peuvent être combinés pour réduire un peu plus la taille du résumé. Le résumé obtenu est en fait une extraction... [Lire la suite]
Posté par InPhilly à 05:01 - - Commentaires [0] - Permalien [#]
07 février 2009

TexLexAn 0.18 - Le résumé automatique de texte est amélioré.

Cette nouvelle version apporte une amélioration dans le résumé de texte. La largeur du résumé est fixée par l'option -w N ( où N est la largeur souhaitée du texte), les retours à la ligne se font sans que les mots soient coupés. Par défaut N est fixé à 70 caractères dans texlexan.py, cette valeur peut-être modifiée en éditant le fichier de configuration dans le répertoire texlexan_cfg.Modifiez uniquement la valeur numérique dans la ligne:  wc:70  Le paquet est ici:  pack1.1
Posté par InPhilly à 20:29 - - Commentaires [0] - Permalien [#]
31 janvier 2009

Les programmes d'apprentissage assisté pour TexLexAn

Je poste ici la suite de TexLexAn. C'est un ensemble de programmes d'apprentissage assisté pour TexLexAn. TexLexAn est un " classifier - summarizer " que j'ai présenté dans mon dernier message. I follow up with the next part of TexLexAn. It's a set of programs required for the supervised learning possibility of TexLexAn. Important: The package 'Pack2' must be installed after the 'Pack1'. The documentation in pack2 and programs outputs are in English. Le paquet est ici, the pakage is here : Pack2 Il fonctionne... [Lire la suite]
Posté par InPhilly à 02:40 - - Commentaires [0] - Permalien [#]