Implémentation d'un outil d'indexation et de recherche des textes en arabe
Thèses / mémoires Ecrit par: Dilekh, Tahar ; Zidani, Abdelmadjid ; Publié en: 2011
Résumé: L'Arabe est une langue fortement flexionnelle qui a une structure morphologique complexe. La recherche d'information sur le texte arabe exige la forme de base du mot (racine ou lemme) pour être la plus pertinente, donc le processus de lemmatisation est nécessaire. La lemmatisation peut être définie comme un processus qui consiste à retirer tous les affixes (préfixes, infixes, ou/et suffixes) des mots pour ramener ces derniers à leurs lemmes ou racines. La complexité morphologique de la langue arabe rend particulièrement difficile le développement des applications pour le traitement en langue naturelle. Dans les langues sémitiques comme l'arabe, la plupart des lemmes de nom, d'adjectif, et de verbe sont dérivés de quelques mille racines par l'insertion de nouvelles lettres. Dans ce travail, nous avons proposé une méthode hybride qui incorpore trois techniques différentes pour que la lemmatisation arabe résolve les problèmes liés à chaque technique. Ces trois techniques sont: suppression d'affixe proposée par Kadri [Kad08], dictionnaires, et analyse morphologique. Ces techniques ont besoin d'une certaine adaptation pour être pertinentes pour l'utilisation. Chaque technique est adaptée individuellement pour résoudre les problèmes pratiques liés à elle-même. La contribution principale de ce travail concerne la démonstration de l’efficacité de la méthode hybride comparée aux autres méthodes, et le choix de l’enlèvement des suffixes avant les préfixes pendant l’opération de lemmatisation Arabe.
Batna:
Langue:
Français
Collation:
96 p. ill.
;30 cm.
Diplôme:
Magister
Etablissement de soutenance:
Batna, Université El Hadj Lakhdar. Faculté des Sciences de l'Ingénieur
Spécialité:
Système d'information et de connaissances
Index décimal
621 .Physique appliquée (électrotechnique, génie civil, génie mécanique, ingénierie appliquée, principes physiques en ingénierie)
Thème
Informatique
Mots clés:
Indexeurs (informatique)
recherche d'information
langue arabe
Note: Bibliogr. pp.93-96