Μεγάλης κλίμακος ακατέργαστα δεδομένα μπορεί να αποτύχουν στην ορθή επιλογή και εκτίμηση ενός μοντέλου, γεγονός που συχνά αποδίδεται στην ύπαρξη πολυσυγγραμμικότητας μεταξύ των μεταβλητών, και γι' αυτό συστήνεται η προεπεξεργασία των δεδομένων ώστε να επιτευχθεί καλύτερη μοντελοποίηση και οπτικοποίηση. Για την αντιμετώπιση της τροχοπέδης που δημιουργούν τα ακατέργαστα δεδομένα, μεταξύ άλλων δυσκολιών, αναπτύχθηκαν οι Τεχνικές Μείωσης Διάστασης σε μια προσπάθεια να μετριαστεί το μέγεθος των υπερβολικά παραμετροποιημένων λύσεων που προκύπτουν σε χώρους υψηλών διαστάσεων. Στόχος αυτής της διατριβής, η οποία χρησιμοποιεί εργαλεία πολυμεταβλητής στατιστικής ανάλυσης δεδομένων, είναι να διερευνήσει, να αναλύσει, να συγκρίνει και να βελτιώσει υφιστάμενες τεχνικές, ενώ παράλληλα να εισάγει νέες για την αντιμετώπιση της πολυσυγγραμμικότητας και τη μείωση του χώρου (διάστασης) δεδομένων υψηλών διαστάσεων. Ειδικότερα, η παρούσα διδακτορική διατριβή σκιαγραφεί αρχικά το θεωρητικό πλαίσιο της μη επιβλεπόμενης τεχνικής της Ανάλυσης Κύριων Συνιστωσών καθώς και της αντίστοιχης επιβλεπόμενης δηλ. της μεθόδου Μερικών Ελάχιστων Τετράγωνων. Λόγω της ικανότητάς τους να επιτυγχάνουν μείωση διάστασης κατά την ανάλυση συνόλων δεδομένων υψηλών διαστάσεων, και οι δύο τεχνικές θεωρούνται βέλτιστες για δημιουργία νέων μεταβλητών. Η χρήση της πρώτης σε συνδυασμό με άλλες τεχνικές μείωσης διάστασης, καθώς και η τροποποίηση της δεύτερης, - ώστε να λειτουργεί ταυτόχρονα και ως τεχνική επιλογής μεταβλητών αλλά και ως τεχνική δημιουργίας μεταβλητών-, εφαρμόστηκαν και μελετήθηκαν διεξοδικά στους τομείς της οικονομετρίας, χρηματοοικονομικής και αναλογιστικής επιστήμης. Τέλος, στη διατριβή αυτή προτείνεται ένα εύρωστο και εύκολα ερμηνεύσιμο μη επιβλεπόμενο κριτήριο επιλογής μεταβλητών (Elastic Information Criterion), το οποίο είναι ικανό να εντοπίζει μοτίβα αλληλεξάρτησης μεταξύ των μεταβλητών ενός dataset. Το συγκεκριμένο κριτήριο δρα ταυτόχρονα (i) ως κριτήριο αξιολόγησης της ύπαρξης ή/και του βαθμού της πολυσυγγραμμικότητας και (ii) ως τεχνική επιλογής μεταβλητών.
Large amounts of raw data often can fail to perform properly for model estimation, attributed to the existence of multicollinearity between variables, and that is why they must be pre-processed for better modeling and visualization. To address raw data barriers, among other difficulties, Dimension Reduction Techniques were developed in an effort to mitigate the magnitude of over-parametrized solutions that arise in high-dimensional spaces. The aim of this dissertation, which utilizes multivariate analysis tools, is to investigate, analyze, compare, and improve current techniques while still introducing new ones for dealing with multicollinearity and reducing the feature space of high-dimensional data. In particular, this doctoral thesis initially outlines the theoretical framework concerning the unsupervised technique, Principal Component Analysis, and its supervised counterpart, the Partial Least Squares method. Due to their ability to obtain dimension reduction when analyzing high-dimensional datasets, both techniques are considered optimal for feature extraction. The use of the former in conjunction with other dimension reduction techniques, as well as the modification of the latter, - so that it may be applied as a feature selection and feature extraction simultaneously-, were implemented and thoroughly studied in the fields of econometrics, finance and actuarial science. Finally, a new unsupervised linear feature selection technique is proposed as a robust and easily interpretable methodology, termed Elastic Information Criterion, that is capable of capturing multicollinearity rather accurately and effectively and thus providing a proper dataset assessment.