The problem of bias in training data in regression problems in medical decision support
Article Ecrit par: Mac Namee, B. ; Cunningham, P. ; Byrne, S. ; Corrigan, O.I. ;
Résumé: Cet article décrit un problème polarisé produit dans une approche d'étude de machine à la prévision de résultats dans la thérapie de drogue d'anticoagulant. Les résultats à prévoir sont une mesure du moment de coagulation pour le patient; cette mesure est continue et ainsi la tâche de prévision est un problème de régression. Les réseaux neurologiques artificiels (ANNs) sont un mécanisme puissant pour qu'apprendre prévoie de tels résultats des données de formation. Cependant, les expériences ont prouvé qu'une ANN est décentrée vers des valeurs se produisant généralement dans les données de formation et est ainsi, moins probable pour être correctes en prévoyant des valeurs extrêmes. Cette issue de polarisation dans des données de formation dans des problèmes de régression est semblable au problème associé avec des classes de minorité dans la classification. Cependant, cette issue polarisée dans la classification est bien documentée et est un domaine de recherche en cours. En cet article, nous considérons le prélèvement stratifié et amplifier comme solutions à ce problème polarisé et les évaluons sur ce problème de prévision de résultats et sur deux autres ensembles de données. Les deux approches produisent quelques améliorations avec amplifier montrant la plupart de promesse.
Langue:
Anglais