img

Notice détaillée

Accélération de la recherche dans les espaces de grande dimension

Application à l'indexation d'images par contenu visuel

Thèses / mémoires Ecrit par: Scholl, Michel ; Bouteldja, Nouha ; Publié en: 2009

Résumé: L'objectif des travaux de recherche présentés dans cette thèse est l'accélération de la recherche dans les grandes bases de données décrites par des vecteurs de grande dimension. Différentes structures ont déjà été proposées dans la littérature afin de réduire les temps de recherche mais plusieurs d'entre elles souffrent du problème de la malédiction de la dimension. Dans une première partie de cette thèse nous avons revisité le phénomène de la malédiction de la dimension avec les index classiques afin de déterminer à partir de quelle dimension ces index deviennent inefficaces. Cette première étude a montré que les index classiques fonctionnent bien avec des dimensions modérées (< 30) avec les bases réelles.Toutefois pour des dimensions plus importantes le problème de la malédiction de la dimension persiste. D'un autre coté avec l'augmentation des volumes des données ces dernières décennies vu la facilité de leur stockage, les besoins d'accélération de la recherche sont de plus en plus importants. Ces derniers points ont motivé la proposition de HiPeR notre principale contribution. HiPeR est un modèle hiérarchique qui assure la recherche exacte, progressive et approximative avec contrôle de précision. Elle est basée sur une hiérarchie d'espaces et d'index : la recherche commence par les espaces à faibles dimensions afin de réduire les effets de la malédiction de la dimension fournissant un premier résultat. Ce dernier sera amélioré progressivement en utilisant de plus grandes dimensions.Différentes stratégies sont proposées pour parcourir HiPeR en assurant la recherche exacte ou approximative. La qualité de la réponse approximative est fixée par l'utilisateur au moment de la recherche. Afin d'assurer la qualité escomptée, la méthode suit un modèle de précision probabiliste et non paramétrique. Les expériences, menées sur trois bases réelles de 4 millions de points, montrent qu'HiPeR améliore considérablement les index classiques en termes de temps CPU et d'accès I/O. Dans la dernière partie de cette thèse nous avons étudié le cas particulier des requêtes multiples où chaque entité de la base est décrite par plusieurs vecteurs. Afin d'accélérer la recherche dans une telle configuration, différentes stratégies ont été proposées et expérimentées avec les index classiques et HiPeR.


Edition: Paris: Conservatoire National des Arts et Métiers
Langue: Français
Collation: 131 p. ill. ;30 cm
Diplôme: Doctorat
Etablissement de soutenance: Conservatoire national des arts et métiers
Index décimal 025.06 .Systèmes de recherche et stockage de l'information spécialisés dans des disciplines ou sujets particuliers (documentation des disciplines ou sujets particuliers, recherche documentaire et stockage de l'information par domaine, ressources documentaires dis
Thème Informatique

Mots clés:
Recherche d'images par le contenu
Indexation automatique
Index

Note: Annexe pp.117-121; Bibliogr.pp.123-131