Speaker-specific mapping for text-independent speaker recognition
مقال من تأليف: Misra, Hemant ; Ikbal, Shajith ; Yegnanarayana, B. ;
ملخص: Dans ce papier, nous présentons une approche de reconnaissance du locuteur basée sur une projection spécifique à chaque utilisateur. Cette projection est réalisée au moyen d'un réseau de neurones multi-couches. Le but de la projection est de capturer les informations spécifiques au locuteur en transformant un ensemble de paramètres représentant l'information linguistique en un ensemble de paramètres caractérisant l'information linguistique ainsi que l'information propre au locuteur. Dans cette étude, les paramètres les plus appropriés pour faire cette tranformation sont également évalués. On montre aussi que la normalisation des scores, ainsi que l'utilisation du critère d'erreur du réseau de neurone pour la sélection des vecteurs acoustiques, augmentent les performances du système. Nous montrons également que le fait de laisser tomber les composantes haute fréquence du signal résulte en une déterioration des performances du système. Sur un ensemble de 630 locuteurs de la base de données TIMIT, un égal taux d'erreur de 0.5% et 100% d'identification sont obtenus par l'approche proposée ici. Sur un ensemble de 38 locuteurs de la région dialectale "dr1" de la base de données NTIMIT, un égal taux d'erreur de 6.6% est obtenu.
لغة:
إنجليزية