Système de résumé automatique

louloute

Membre confirmé
4 Novembre 2007
18
0
Bonjour,
voilà je suis débutante en Perl, voire en programmation tt simplement !! Je voudrais implémenter un programme qui reconnait un thème ds 1texte présenté à l'ordi et en donner un résumé. Comment dois je procéder ???
Il faut que j'utilise les expressions rationnelles ??
Merci bcp!
 
Louloute,

Même pour un programmeur expérimenté, ça n'a rien de simple. Tu peux en effet utiliser les expressions régulières pour découper ton texte: tu te retrouveras alors avec une liste de mots.

La difficulté réside dans l'analyse: Comment savoir quels mots sont importants ? On approche ici du domaine de l'intelligence artificielle.
 
Pour aller un peu plus loin, même si j'avoue que ce n'est que de la spéculation.

Il est à mon avis impossible de produire un résumé exploitable tel quel avec le meilleur algorithme du monde. Par contre il devrait être possible d'extraire les mots clés d'un texte. Ca ne demande pas spécialement de grosses connaissances en informatique (Traitement des chaînes de caractère, Expressions Régulières, Stats).

Si je devais travailler sur ce genre de programme, je procéderais ainsi.

- Il faut un texte déjà assez verbeux de manière à pouvoir avoir une bonne dose de statistiques.
- Dans un premier temps je "nettoie" le texte de tous les mots grammaticaux (déterminants, prépositions, pronoms) sauf les conjonctions (J'estime qu'en ne lisant qu'elles on peut avoir une bonne idée de la logique du texte).
- Ensuite je nettoie les mots très communs.
- Je récupère ensuite des extraits pour chaque phrases contenant sujet, verbe, complément, conjonction (de quoi avoir le sens et la logique de chaque phrase)

Moi je m'arrêterais là mais tu peux tout a fait faire des statistiques des mots les plus utilisés, des verbes, les combiner et jouer avec pour obtenir quelque chose qui soit représentatif.

(Par contre je ne connais pas le Perl =()
 
ces algos existent et il y a de bon resultats pour certaines langues seulement, mais c'est quand meme reservé a 2 principales societes: google/systran et les labos universitaires avec qui ils travaillent, le probleme n'est pas franchement perl:

Language Automation Translation / speech recognition / Automating Knowledge Acquisition / Machine learning

aka Ceroce commentaire
 
@tatouille : C'est en effet existant, mais je ne crois pas que le but original était de faire quelque chose de très poussé. Enfin dans mon idée c'était un truc pour "faire mumuse", histoire de passer un peu le temps avec des chaînes de caractères.

Quoi qu'il en soit, tu me fais un forfait pour les 10 balles et le mars ? Sinon ça risque de me coûter cher en frais de port :D