img

Notice détaillée

Echantillonnage multivarie de textes pour les processus de Markov et introduction au raisonnement incertain dans le traitement de la langue naturelle

Thèses / mémoires Ecrit par: Bouchaffra, Djamel ; Rouault, Jacques ; Publié en: 1992

Résumé: Le but de cette thèse consiste en l'extraction d'un échantillon de textes pour les modelés markoviens. Ce dernier est utilisé pour résoudre le problème des solutions multiples issues de l'analyse morphologique. Pour cela, nous avons utilisé la stratification. Nous avons développe un logiciel "échantillonnage multivarie" qui extrait un échantillon d'un corpus stratifie catégorise et ambigu, minimisant une "perte d'information" selon un certain sens. Les résultats obtenus sont très satisfaisants puisque nous avons amélioré le nombre de levées d'ambiguïtés morphologiques. Nous avons également traite le cas de variables vagues et incertaines. Nous avons été ramenés a évaluer la probabilité pour une phrase de vérifier simultanement un certain nombre de critères connaissant leurs probabilités isolement. Cette probabilite n'est pas unique quelque soit la topologie considérée. Grace aux isometries de la norme li, nous avons démontre qu'il est impossible d'obtenir une solution unique a ce problème. L'obtention d'une solution unique contraint les représentation du "vrai" et du "faux" a se confondre. Il faut également distinguer le "vrai" associe a une formule logique d'un "évènement certain" de la théorie des probabilités. Finalement, nous avons propose un nouveau modelé de markov capable de tenir compte du contexte associe a une catégorie morphologique. This thesis aims to extract a sample of texts used as a training population for a markov process. This latter model is applied for a part-of-speech (pos) tagging. We adopted a stratification sampling. We set up a software called "multivariatesampling" which extracts a sample from a stratified and ambiguous corpus minimizing "the loss of information" in a certain sense, the results obtained are very satisfying since we improved the number of parts of speech tagged correctly. The case of vague and uncertain variables are also treated we evaluated the conditional probability of a sentence to check simultaneously a certain number of criteria given their probabilities separately. This probability is not unique whatever topologies used. The li isometries show us that it is impossible to obtain a unique solution to this problem. A unique solution constraints the "true" and "false" representation to be the same. It appeared that one has to distinguish the "true" associated to a logical formula from "the certain event" known in the probability theory finally, we proposed a new markov model capable to take into account he context associated to a pos.

Grenoble:
Langue: Français
Collation: 164 p. ill. ;30 cm.
Diplôme: Doctorat
Etablissement de soutenance: France, Université Pierre Mendès France
Spécialité: Informatique
Thème Informatique

Note: Bibliogr.pp.157-164