The present dissertation deals with the investigation and tackling of several issues that arise frequently in classification and prediction of multivariate data. Specifically, these issues are related to the selection of features / variables and cases, to the well-known class imbalance problem and generally, to factors that affect the classification procedure. The goal of the dissertation is to find and present suitable approaches and methods that can improve the performance of classification methods. All the aforementioned issues are interesting research topics of the Mahalanobis-Taguchi (MT) strategy, a rather new methodology that incorporates various mathematical and statistical concepts, such as Mahalanobis distance (MD), Gram-Schmidt orthogonalization process and experimental designs. The special characteristic of the MT strategy is that it is not only a classification technique, but also a toolbox of methods, the different components of which have not been studied thoroughly in the relevant literature. Hence, the contribution of the dissertation mainly focuses on investigating and resolving the operational issues of the MT strategy. The dissertation consists of two sections: a) the improvement of the general MT strategy’s procedures by employing other statistical methods and b) the proper adaptation of the methodology, in order to be applicable to different types of data.
Η παρούσα διδακτορική διατριβή πραγματεύεται τη διερεύνηση και αντιμετώπιση διαφόρων ζητημάτων που προκύπτουν συχνά στη διαδικασία ταξινόμησης και πρόβλεψης πολυμεταβλητών δεδομένων. Συγκεκριμένα, τα ζητήματα αυτά σχετίζονται με την επιλογή μεταβλητών και περιπτώσεων, με το γνωστό πρόβλημα της ανισορροπίας των κλάσεων και γενικά, με παράγοντες που επηρεάζουν τη διαδικασία της ταξινόμησης. Ο στόχος της διατριβής είναι η εύρεση και παρουσίαση κατάλληλων προσεγγίσεων και μεθόδων που μπορούν να βελτιώσουν την απόδοση των μεθόδων ταξινόμησης. Όλα τα προαναφερθέντα ζητήματα αποτελούν ενδιαφέροντα ερευνητικά θέματα της στρατηγικής Mahalanobis-Taguchi (MT), μίας σχετικά νέας μεθοδολογίας που ενσωματώνει διάφορες μαθηματικές και στατιστικές έννοιες, όπως η απόσταση του Mahalanobis, η μέθοδος ορθογωνοποίησης Gram-Schmidt και οι πειραματικοί σχεδιασμοί. Το ιδιαίτερο χαρακτηριστικό της στρατηγικής MT είναι ότι δεν είναι μόνο μία τεχνική ταξινόμησης, αλλά επίσης μία «εργαλειοθήκη» μεθόδων, τα διάφορα τμήματα της οποίας δεν έχουν μελετηθεί εκτενώς στη σχετική βιβλιογραφία. Ως εκ τούτου, η συνεισφορά της διατριβής επικεντρώνεται κυρίως στη διερεύνηση και επίλυση των λειτουργικών θεμάτων της στρατηγικής MT. Η διατριβή αποτελείται από δύο θεματικές ενότητες: α) τη βελτίωση των διαδικασιών της γενικής στρατηγικής MT μέσω της χρήσης άλλων στατιστικών μεθόδων και β) την κατάλληλη προσαρμογή της μεθοδολογίας, προκειμένου να μπορεί να εφαρμοστεί σε διαφορετικού τύπου δεδομένα από διαφορετικές επιστημονικές περιοχές.