Spoken document representations for probabilistic retrieval
مقال من تأليف: Jourlin, Pierre ; Johnson, Sue E. ; Jones, Karen Sparck ; Woodland, P. C. ;
ملخص: Zusammenfassung Dieser Bericht pr?sentiert einige Entwicklungen zur Fragenerweiterung and Dokumentendarstellung in unserem Spracherfassungssystem. Verschiedene Erfassungsmethoden, die auf einer Menge von Transkriptionen basieren welche von g?ngigen Textquellen abgeleitet werden, k?nnen auf die Leistung einen Einfluss haben. Wir zeigen, da? Modifikationen an der Dokumentendarstellung in Kombination mit verschiedenen Techniken der Fragenerweiterung, die einerseits wissensbasiert und andererseits statistikbezogen sind, Durchschnittsgenauigkeitverbesserungen von mehr als 19% relativ zu einem ?nlichem System im Vergleich zu dem hier pr?sentiertem TREC-7, ergeben. Diese neuen Experimente haben ebenfalls best?tigt, da? die Durchschnittsgenauigkeitdegradierung, bezogen auf die Wortfehlerrate (WER) von 25% ziemlich klein sind (3.7% relativ) und sie auf fast auf null reduziert werden k?nnen (0.2% relativ). Die Gesamtverbesserungen des Spracherfassungssystems wurde auch für sieben verschiedene Mengen von Transkriptionen, mit Wortfehlerrate zwischen 24.8% und 61.5%, observiert. Wir hoffen, diese Ergebnisse für gr?ssere Dokumentensammlungen zu wiederholen, um die Skalierbarkeit dieser Techniken absch?tzen zu k?nnen. Résumé Cet article présente quelques développements dans l'expansion de requête et la représentation des documents de notre système de recherche documentaire et montre comment les diverses techniques de recherche affectent la performance pour différents ensembles de transcriptions dérivées d'une source de parole commune. Des modifications de la représentation des documents sont effectuées, qui combinent plusieurs techniques pour l'expansion de requête, fondées sur des connaissances d'une part et sur des statistiques d'autre part. Utilisées conjointement, ces techniques peuvent améliorer la Précision Moyenne de plus de 19%, relativement à un système semblable à celui que nous avons présenté à TREC-7. Ces nouvelles expérimentations ont également confirmé que la dégradation de la Précision Moyenne due à un Taux d'Erreur de Mot (WER) de 25% est vraiment faible (3,7% relatif) et peut être réduite à une quantité négligeable (0,2% relatif). L'amélioration globale du système de recherche documentaire peut aussi être observée pour sept ensembles différents de transcriptions provenant de différents systèmes de reconnaissance ayant un WER variant de 24,8% à 61,5%. Nous espérons reproduire ces expérimentations, lorsque de plus grandes collections de documents parlés seront disponibles, afin d'évaluer le comportement de ces techniques sur de plus gros volumes de données.
لغة:
إنجليزية