img

تفاصيل البطاقة الفهرسية

The LIMSI Broadcast News transcription system

مقال من تأليف: Gauvain, J. L. ; Lamel, Lori ; Adda, Gilles ;

ملخص: Cet article présente les travaux effectués au LIMSI pour le développement d'un système de traitement automatique d'informations radio et télédiffusées. Partant d'un système de transcription de textes lus, nous décrivons les adaptations qui ont été nécessaires pour le traitement d'un flux audio continu et de données dites "trouvées". Ces développements ont été validés dans le cadre des évaluations ARPA BN (Nov96, Nov97, Nov98 et Dec99). Les principales difficultés posées par ce type de données sont liées à leur nature hétérogène, qu'il s'agisse de changements de nature acoustique (environnement, communication, musique) ou de nature linguistique (styles d'élocution, diversités des sujets et des locuteurs). La partition du flux continu est effectuée de manière itérative, par un algorithme de segmentation–agglomération reposant sur des mélanges de Gaussiennes. Le système de reconnaissance utilise des modèles de Markov cachés à densités continues pour la modélisation acoustique, et des statistiques 4-grammes de mots estimées sur un grand corpus de textes et de parole transcrite pour modèle de langage. La transcription en mots est obtenue en plusieurs passes de décodage, où les hypothèses intermédiaires sont utilisées pour adapter les modèles acoustiques. Les taux d'erreur obtenues avec différentes versions de ce système lors des évaluations ARPA sont 27,1% (Nov96 avec partition manuelle), 18,3% (Nov97), 13,6% (Nov98) et 17,1% (Dec99, moins de 10 fois le temps réel).


لغة: إنجليزية