Prosody-based automatic segmentation of speech into sentences and topics
مقال من تأليف: Shriberg, Elizabeth ; Stolcke, Andreas ; Hakkani-Tur, Dilek ; Tur, Gokhan ;
ملخص: Une étape cruciale dans le traitement de la parole pour l'extraction d'information, la détection du sujet de conversation et la navigation est la segmentation du discours. Celle-ci est difficile car les indices aidant à segmenter un texte (en-têtes, paragraphes, ponctuation) n'apparaissent pas dans le language parlé. Nous étudions l'usage de la prosodie (l'information extraite du rythme et de la mélodie de la parole) à cet effet. A l'aide d'arbres de décision et de chaînes de Markov cachées, nous combinons les indices prosodiques avec le modèle du langage. Nous evaluons notre algorithme sur deux corpora, Broadcast News et Switchboard. Nos résultats indiquent que le modèle prosodique est équivalent ou supérieur au modèle du langage, et qu'il requiert moins de données d'entraînement. Il ne nécessite pas d'annotations manuelles de la prosodie. De plus, nous obtenons un gain significatif en combinant de manière probabiliste l'information prosodique et lexicale, et ce pour différents corpora et applications. Une inspection plus détaillée des résultats révèle que les modèles prosodiques identifient les indicateurs de début et de fin de segments, tel que décrit dans la littérature. Finalement, l'usage des indices prosodiques dépend de l'application et du corpus. Par exemple, le ton s'avère extrèmement utile pour la segmentation des bulletins télévisés, alors que les caracteristiques de durée et celles extraites
لغة:
إنجليزية