Τεχνικές στατιστικής μάθησης με χρήση υποκλάσεων στην κατηγοριοποίηση δεδομένων

 
see the original item page
in the repository's web site and access all digital files if the item*
share




2009 (EN)
Within scatter matrix subclass discriminant analysis (Wsda)
Τεχνικές στατιστικής μάθησης με χρήση υποκλάσεων στην κατηγοριοποίηση δεδομένων

Παπαδοπούλου, Ουρανία Κωνσταντίνου

Τα τελευταία χρόνια, έχουν προταθεί πολλοί αλγόριθμοι Διακριτικής Ανάλυσης (Discriminant Analysis - DA), για την ανάλυση δεδομένων μεγάλης διάστασης και την εξαγωγή χαρακτηριστικών τα οποία μπορούν να χρησιμοποιηθούν για καλύτερη αναπαράσταση ή κατηγοριοποίηση. Κάθε ένας από τους αλγορίθμους αυτούς, αποδίδει καλύτερα όταν τα δεδομένα ακολουθούν συγκεκριμένη κατανομή πυκνότητας πιθανότητας (αυτή που μοντελοποιεί καλύτερα το πρόβλημα). Δυστυχώς, στα περισσότερα προβλήματα η μορφή της συνάρτησης πυκνότητας πιθανότητας σε κάθε κλάση δεν είναι γνωστή εκ των προτέρων, και η επιλογή του αλγορίθμου Διακριτικής Ανάλυσης που ταιριάζει καλύτερα στα δεδομένα γίνεται έπειτα από μια διαδικασία δοκιμής και σφάλματος. Ιδανικά, κάποιος θα ήθελε να υπάρχει κάποιος γενικός αλγόριθμος DA, που θα μπορούσε να χρησιμοποιηθεί στα περισσότερα είδη κατανομών. Αυτό μπορεί να επιτευχθεί μετασχηματίζοντας την κατανομή της κάθε κλάσης ως μίξη Γκαουσιανών κατανομών. Ο κύριος στόχος της παρούσας διπλωματικής εργασίας είναι η εξέταση της χρήσης υποκλάσεων στην Διακριτική Ανάλυση μέσω της υλοποίησης και πειραματικής αξιολόγησης αλγορίθμων μείωσης διάστασης σε πραγματικά δεδομένα. Προτείνουμε μια νέα τεχνική μείωσης της διάστασης των δεδομένων, που βασίζεται στη χρήση υποκλάσεων και Γραμμικής Διακριτικής Ανάλυσης. Η προτεινόμενη μέθοδος, βελτιώνει μια υπάρχουσα τεχνική, χρησιμοποιώντας τον εντός των υποκλάσεων πίνακα διασποράς. Το πρόβλημα που πρέπει να λυθεί, είναι να βρεθεί ο πιο κατάλληλος διαχωρισμός της κάθε κλάσης σε ένα σύνολο από υποκλάσεις. Ο προτεινόμενος αλγόριθμος καθώς και οι ανταγωνιστικοί του αξιολογούνται σε διάφορες βάσεις δεδομένων με τεχνητά και πραγματικά δεδομένα. Οι αλγόριθμοι που εξετάστηκαν είναι οι ακόλουθοι: Γραμμική Διακριτική Ανάλυση (Linear Discriminant Analysis - LDA), Ανάλυση Διακριτικής Ικανότητας με Υποκλάσεις (Subclass Discriminant Analysis - SDA) και η προτεινόμενη Ανάλυση Διακριτικής Ικανότητας με Υποκλάσεις και χρήση του εντός των υποκλάσεων πίνακα διασποράς $\Σ_W$ (Within scatter matrix Subclass Discriminant Analysis - WSDA). Τα πειραματικά αποτελέσματα δείχνουν ότι η προτεινόμενη μέθοδος, έχει πολύ καλή επίδοση και ξεπερνάει τις περισσότερες φορές τις ανταγωνιστικές τεχνικές.
The last years, many Discriminant Analysis (DA) algorithms have been proposed for the study of high-dimensional data in a large variety of problems. Each of these algorithms is tuned to a specific type of data distribution (that which best models the problem at hand). Each one of them, works better when the data follow specific pdf distribution (that which best models the problem at hand). Unfortunately, in most problems the form of each class pdf is a priori unknown, and the selection of the DA algorithm that best fits our data is done over trial-and-error. Ideally, one would like to have a single DA algorithm, which can be used for most distribution types. This can be achieved by approximating the underlying distribution of each class with a mixture of Gaussians. The main goal of present work, is the implementation and the experimental evaluation of three algorithms of dimension reduction, so they are used in real data. We propose a technique of dimension reduction of data, that is based in subclass use and Linear Discriminant Analysis. The proposed method, improves a existing technique, using the within subclass scatter matrix. The problem to be solve, is to find the most convenient division of each class into a set of subclasses are derived. Comparisons in databases, use these algorithms: Linear Discriminant Analysis (LDA), Subclass Discriminant Analysis (SDA), Within scatter matrix Subclass Discriminant Analysis (WSDA). The experimental results show that the proposed method, has very good record and exceeds most times the competitive techniques.

info:eu-repo/semantics/masterThesis
Postgraduate Thesis / Μεταπτυχιακή Εργασία

Στατιστική μάθηση με χρήση υποκλάσεων
Statistical learning using subclasses
Κατηγοριοποίηση δεδομένων
Γραμμική διακριτική ανάλυση
Classification
Feature extraction
Linear discriminant analysis
Pattern recognition
Εξαγωγή χαρακτηριστικών
Αναγνώριση προτύπων

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Greek

2009
2009-12-22T09:09:05Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)