Beyond the boundaries of SMOTE: a framework for manifold-based synthetically oversampling

Télécharger
  1. Obtenir@CNRC : Beyond the boundaries of SMOTE: a framework for manifold-based synthetically oversampling (Ouvre dans une nouvelle fenêtre)
AuteurRechercher : ; Rechercher : ; Rechercher :
TypeArticle
Titre du compte renduMachine Learning and Knowledge Discovery in Databases
Titre de collectionLecture Notes in Computer Science
ConférenceJoint European Conference on Machine Learning and Knowledge Discovery in Databases, ECML PKDD 2016, September 19-23, 2016, Riva del Garda, Italy
ISSN0302-9743
ISBN9783319462264
Pages248263
Sujetmachine learning; class imbalance; synthetic oversampling; manifold and embeddings
RésuméProblems of class imbalance appear in diverse domains, ranging from gene function annotation to spectra and medical classification. On such problems, the classifier becomes biased in favour of the majority class. This leads to inaccuracy on the important minority classes, such as specific diseases and gene functions. Synthetic oversampling mitigates this by balancing the training set, whilst avoiding the pitfalls of random under and oversampling. The existing methods are primarily based on the SMOTE algorithm, which employs a bias of randomly generating points between nearest neighbours. The relationship between the generative bias and the latent distribution has a significant impact on the performance of the induced classifier. Our research into gamma-ray spectra classification has shown that the generative bias applied by SMOTE is inappropriate for domains that conform to the manifold property, such as spectra, text, image and climate change classification. To this end, we propose a framework for manifold-based synthetic oversampling, and demonstrate its superiority in terms of robustness to the manifold with respect to the AUC on three spectra classification tasks and 16 UCI datasets.
Date de publication
Maison d’éditionSpringer
Langueanglais
AffiliationConseil national de recherches Canada; Institut de recherche aérospatiale du CNRC; Technologies de l'information et des communications
Publications évaluées par des pairsOui
Numéro NPARC23002088
Exporter la noticeExport en format RIS
Signaler une correctionSignaler une correction
Identificateur de l’enregistrementb1787f39-6e92-4586-8155-c85442a2d7c2
Enregistrement créé2017-08-10
Enregistrement modifié2017-08-10
Mettre en signet et diffuser
  • Partagez cette page avec Facebook (Ouvre dans une nouvelle fenêtre)
  • Partagez cette page avec Twitter (Ouvre dans une nouvelle fenêtre)
  • Partagez cette page avec Google+ (Ouvre dans une nouvelle fenêtre)
  • Partagez cette page avec Delicious (Ouvre dans une nouvelle fenêtre)