Speech music segmentation using entropy and dynamism features in a HMM classification framework
مقال من تأليف: Ajmera, Jitendra ; Bourlard, Hervé ; McCowan, Iain ;
ملخص: Dans cet article, nous présentons une nouvelle approche particulièrement performante de discrimination parole/musique dans le cadre d'applications réelles de transcription de nouvelles diffusées. Dans cette approche, un réseau de neurones artificiels (ANN) entraîné exclusivement sur de la parole claire (provenant d'un système standard de reconnaissance de la parole grand vocabulaire) est utilisé comme modèle de canal à la sortie duquel nous mesurons toutes les 10 ms l'entropie et le "dynamisme". Ces caractéristiques sont alors intégrées dans le temps à l'aide d'un modèles de Markov caché (HMM) ergodique à deux états (parole et non-parole) incluant également des contraintes de durée minimum sur chaque état. Par exemple, dans le cas de l'entropie, il est effectivement clair (et observé en pratique) que l'entropie à la sortie du ANN sera en moyenne plus élevée pour des segments non-parole que des segments de parole présentés à son entrée. Dans notre cas, le modèle acoustique ANN est un perceptron multi-couche (MLP, comme souvent utilisé dans les systèmes hybrides HMM/ANN) générant à sa sortie des estimateurs de probabilités a posteriori de phonèmes étant donné les vecteurs acoustiques d'entrée. C'est à partir de ces sorties, et donc de "vraies" probabilités que l'entropie et le dynamisme sont estimés. Le modèle HMM parole/musique à deux états prends ensuite ces deux caractéristiques (entropie et dynamisme) dont les distributions sont modélisées par des densités multi-gaussiennes ou par un second MLP. Les paramètres de ce modèle HMM sont entraînés par un Viterbi supervisé. Bien que l'approche proposée ici puisse être facilement adaptée à d'autres applications de discrimination parole/non-parole, nous nous focalisons ici sur le problème de segmentation parole/musique. Différentes expériences, incluant différents styles de parole et musique, ainsi que différentes distributions temporelles des signaux de parole et musique (distributions réelles, surtout parole, ou surtout musique), illustrent la robustesse de l'approche qui résulte toujours en des performances de segmentation correcte supérieure à 90%. Finalement, nous montrons comment l'utilisation d'un niveau de confiance peut améliorer les résultats de segmentation
لغة:
إنجليزية