Υβριδικές μέθοδοι μηχανικής μάθησης με εφαρμογές σε μη ισορροπημένα και μερικώς ετικετοποιημένα σύνολα δεδομένων

This item is provided by the institution :
University of Patras   

Repository :
Nemertes   

see the original item page
in the repository's web site and access all digital files if the item*



Hybrid machine learning methods with applications to imbalanced and partially labeled datasets
Υβριδικές μέθοδοι μηχανικής μάθησης με εφαρμογές σε μη ισορροπημένα και μερικώς ετικετοποιημένα σύνολα δεδομένων

Αριδάς, Χρήστος

Aridas, Christos

2024-07-12T06:25:48Z
2024-03


Στον τομέα της μηχανικής μάθησης, οι ερευνητές προσπαθούν να επιτύχουν τη βέλτιστη απόδοση των μοντέλων τους, ενθαρρύνοντας την έρευνα σε καινοτόμες μεθοδολογίες, με έμφαση στις υβριδικές προσεγγίσεις. Η παρούσα διατριβή εξετάζει ενδελεχώς τρεις διακριτές θεματικές περιοχές, οι οποίες συμβάλλουν στον κύριο στόχο της βελτίωσης της απόδοσης των μοντέλων μηχανικής μάθησης. Το κύριο θέμα που τα ενώνει είναι η ανάπτυξη και εφαρμογή υβριδικών προσεγγίσεων, οι οποίες ενσωματώνουν διάφορες τεχνικές για την αποδοτικότερη προγνωστική ικανότητα. Η αρχική θεματική περιοχή επικεντρώνεται σε στρατηγικές τροποποιήσεις σε σύνολα δεδομένων εκπαίδευσης, με στόχο τη βελτίωση της απόδοσης των μοντέλων. Σε μελέτη που διενεργήθηκε, προτάθηκε μια λύση η οποία επεκτείνει τον χώρο χαρακτηριστικών ενός ομοιογενούς συνόλου ταξινομητών με την ενσωμάτωση προγνωστικής πληροφορίας από ένα μοντέλο μηχανικής μάθησης. Επιπλέον, ενσωματώθηκε τεχνική επιλογής παραδειγμάτων, για τη συμπίεση και εξάλειψη θορύβου του συνόλου εκπαίδευσης, με απώτερο στόχο την βελτίωση της προγνωστικής ακρίβειας αλλά και τη μείωση της πολυπλοκότητας της αποθήκευσης των δεδομένων σε τοπικά εφαρμοσμένους ταξινομητές. Πειράματα που διενεργήθηκαν σε πληθώρα συνόλων δεδομένων κατέδειξαν ότι η ενσωμάτωση αυτών των στρατηγικών σημαντικά βελτιώνει την απόδοση, υπερβαίνοντας τις αρχικές προσεγγίσεις και συναφείς τεχνικές. Στη δεύτερη θεματική περιοχή, η έρευνα επικεντρώνεται στην αντιμετώπιση των προκλήσεων στη μηχανική εκμάθηση όταν το μοντέλο καλείται να αξιοποιήσει παραδείγματα χωρίς ετικέτα παράλληλα με τα παραδείγματα με ετικέτα. Γίνεται μια ολοκληρωμένη ανασκόπηση των προσεγγίσεων που χρησιμοποιούν ταυτόχρονα παραδείγματα με και χωρίς ετικέτα για την βελτίωση της εκάστοτε εργασίας. Η συνεισφορά μας περιλαμβάνει την προσαρμογή ενός τοπικού ταξινομητή στο ημιεποπτευόμενο πλαίσιο. Αναπτύχθηκε μεθοδολογία η οποία αυξάνει το διαθέσιμο σύνολο προταξινομημένων παραδειγμάτων, ενσωματώνοντας παραδείγματα υψηλής εμπιστοσύνης τα οποία έχουν φίλτρο επιλογής παραδειγμάτων. Η τρίτη θεματική περιοχή επικεντρώνεται στην αντιμετώπιση του προβλήματος της μη ισορροπίας στα σύνολα δεδομένων κατά την εκτέλεση εργασιών ταξινόμησης. Εδώ χρησιμοποιούνται υβριδικές λύσεις για να αντιμετωπιστούν οι δυσκολίες που προκύπτουν. Οι προτεινόμενες λύσεις περιλαμβάνουν μια υβριδική προσέγγιση υποδειγματοληψίας, χρησιμοποιώντας ενεργητική επιλογή παραδειγμάτων επαναληπτικά. Στην πειραματική μελέτη, χρησιμοποιήθηκε ο απλός ταξινομητής Bayes σε ένα ποικίλο σύνολο μη ισορροπημένων δεδομένων. Επιπλέον, διερευνήθηκε η εφαρμογή τυχαίων διαδικασιών επαναδειγματοληψίας στη στρατηγική One-vs-Rest για να αντιμετωπιστεί το πρόβλημα που προκύπτει κατά την εκπαίδευση δυαδικών ταξινομητών σε σύνολα δεδομένων πολλαπλών κλάσεων. Τέλος, παρουσιάζεται το imbalanced-learn, μια βιβλιοθήκη γραμμένη στη γλώσσα προγραμματισμού Python που σχεδιάστηκε για την αντιμετώπιση θεμάτων που προκύπτουν από τη χρήση μη ισορροπημένων συνόλων δεδομένων σε εργασίες μηχανικής μάθησης. Σε όλη αυτή τη διατριβή, το επαναλαμβανόμενο θέμα του υβριδισμού αναδύεται ως μια ισχυρή στρατηγική για την υπέρβαση των ορίων των δυνατοτήτων της μηχανικής μάθησης. Με την ενσωμάτωση διαφορετικών τεχνικών και μοντέλων, τα υβρίδια που προκύπτουν παρουσιάζουν ανώτερη απόδοση σε σύγκριση με τα μεμονωμένα αντίστοιχά τους, αναδεικνύοντας τις δυνατότητες των υβριδικών προσεγγίσεων για την προώθηση των εξελίξεων της μηχανικής μάθησης σε διάφορους τομείς. Αυτή η έρευνα όχι μόνο παρέχει εμπειρικά στοιχεία για την αποτελεσματικότητα των υβριδίων, αλλά υπογραμμίζει επίσης τη σημασία της ευελιξίας στον σχεδιασμό μοντέλων για την αντιμετώπιση της πολυπλοκότητας των σεναρίων δεδομένων πραγματικού κόσμου.
In the field of machine learning, researchers are driven to achieve optimal model performance, prompting the exploration of innovative methodologies, with a specific focus on hybrid approaches. This doctoral thesis delves into three distinct thematic areas, each contributing to the overarching goal of enhancing machine learning performance. The unifying theme across these investigations is the development and application of hybrid models, which amalgamate diverse techniques to extract superior predictive capabilities. The initial thematic area centers on strategic modifications to training datasets aimed at enhancing model performance. One study involved expanding the feature space of a homogeneous ensemble of classifiers by incorporating predictive information from a machine learning model. In a complementary endeavor, we strategically integrated a data editing technique to compress and eliminate noise from a dataset, thereby enhancing the performance of a local classifier. Our experiments included the localized application of boosting of classifiers. Results from benchmark datasets demonstrated that our integration markedly improved performance, surpassing the original boosting approach and related techniques. Transitioning to the second thematic area, the research delves into addressing challenges in supervised classification when the model is fed with unlabeled examples along with the labeled ones. We conducted a comprehensive review of approaches that leverage both unlabeled and labeled data to enhance model performance. Our contribution involves adapting a local classifier in the semi-supervised setting. In practice, we augmented the available labeled dataset by incorporating high-confidence examples from a well-calibrated model and refined the new examples using a data editing technique. The third thematic area concentrates on tackling the curse of imbalanced distributions in classification tasks, employing hybrid solutions to overcome inherent difficulties. We examine various approaches to tackle this issue and the challenges that arise when training classifiers in such contexts. Our proposed solution involves a hybrid under-sampling approach, employing an active selection of instances in an iterative manner. In our illustrative examples, we utilized a naive Bayes classifier across a diverse set of imbalanced datasets. Additionally, we integrated resampling procedures into the One-vs-Rest strategy to alleviate the intrinsic problems encountered when training classifiers in multi-class datasets. Lastly, we briefly introduce imbalanced-learn, a Python package designed to address the issue of imbalanced datasets in machine learning. Throughout this thesis, the recurring theme of hybridization emerges as a powerful strategy for pushing the boundaries of machine learning capabilities. By integrating diverse techniques and models, the resulting hybrids exhibit superior performance compared to their individual counterparts, showcasing the potential of hybrid approaches to propel machine learning advancements across various domains. This research not only contributes empirical evidence of hybrid efficacy but also underscores the importance of versatility in model design to address the complexities of real-world data scenarios.


Ταξινόμηση
Semi-supervised learning
Μηχανική μάθηση
Machine learning
Classification
Επαναδειγματοληψία
Ensemble methods
Ημιεπιβλεπόμενη μάθηση
Resampling
Imbalanced datasets
Ομάδες ταξινομητών
Μη ισοροπημένα σύνολα δεδομένα


http://creativecommons.org/publicdomain/zero/1.0/
CC0 1.0 Universal (EN)




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)