Αλγόριθμοι και τεχνικές για αποδοτική και αποτελεσματική κατηγοριοποίηση εγγύτερων γειτόνων.

Αλγόριθμοι και τεχνικές για αποδοτική και αποτελεσματική κατηγοριοποίηση εγγύτερων γειτόνων.

URI: https://www.openarchives.gr/aggregator-openarchives/edm/psepheda/000004-handle_2159_16240
RDF/XML JSON-LD

Το τεκμήριο παρέχεται από τον φορέα :

Πανεπιστήμιο Μακεδονίας

Αποθετήριο :
Ψηφίδα - Ψηφιακή Βιβλιοθήκη και Ιδρυματικό Καταθετήριο

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου^*

κοινοποιήστε το τεκμήριο

Σημασιολογικός εμπλουτισμός από το EKT

ΕΚΤ τύπος τεκμηρίου

Μεταπτυχιακή εργασία (EL)

ΕΚΤ xρονολογία

2014 (EL)

EKT Ιστορική περίοδος

Τίτλος

Algorithms and techniques for efficient and effective nearest neighbours classification.

Αλγόριθμοι και τεχνικές για αποδοτική και αποτελεσματική κατηγοριοποίηση εγγύτερων γειτόνων.

Δημιουργός

Ougiaroglou, Stephanos

Ουγιάρογλου, Στέφανος

Συντελεστής

Πανεπιστήμιο Μακεδονίας. Τμήμα Εφαρμοσμένης Πληροφορικής (ΕΠ)

Μαργαρίτης, Κωνσταντίνος

Σαμαράς, Νικόλαος

Παπαδόπουλος, Απόστολος

Aldana F. Montes, Jose

Ευαγγελίδης, Γεώργιος

Δέρβος, Δημήτριος

Κολωνιάρη, Γεωργία

Περιγραφή

010/2014

Η βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.

Διατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2014.

Περιλαμβάνει βιβλιογραφικές αναφορές (σ. 208-217).

Although the k-NN classifier is considered to be an effective classification algorithm, it has some major weaknesses that may render its use inappropriate for some application domains and / or datasets. The first one is the high computational cost involved (all distances between each unclassified item and all training data must be computed). Although nowadays systems are equipped with powerful processors, in cases of large datasets, this drawback renders the classification a time-consuming and in some cases a prohibitive procedure. Another weakness is the high storage requirements for maintaining the training data. Eager classifiers (e.g., decision tress, neural networks) can discard the training data after the construction of the classification model in order to save space. In contrast, the k-NN classifier must have all the training data always available. Moreover, the classification accuracy achieved by the classifier depends on the quality of the available training data. Noisy and mislabelled data, as well as outliers and overlaps between data regions of different classes may mislead the algorithm and affect the classification accuracy. The aforementioned weaknesses constitute an active research problem. The dissertation is motivated by these weaknesses and tries to remedy the problem. Therefore, it contributes novel algorithms and techniques that can effectively deal with the aforementioned weaknesses. In other words, it proposes algorithms and techniques for efficient and effective k-NN classification. The contributions are distinguished into three main categories: (i) new data reduction techniques that deal with all the weak points of the classifier and avoid the limitations and disadvantages of existing data reduction techniques, (ii) novel hybrid algorithms that combine different types of speed-up techniques and that can effectively reduce the computational cost of the classifier, and, (iii) improvements and experimentations for existing algorithms. The proposed algorithms, techniques and improvements are evaluated on several datasets and experimentally compared to state-of-the-art methods. The experimental measurements are validated by statistical tests of significance. The results illustrate that the proposed methods satisfy the goals for which they were developed and lead to improved classification, in terms of accuracy, preprocessing and computational cost.

Ο κατηγοριοποιητής κ εγγύτερων γειτόνων είναι ένας αποτελεσματικός αλγόριθμος κατηγοριοττοίησης. Ωστόσο, περιλαμβάνει μειονεκτήματα και αδυναμίες που τον καθιστούν ακατάλληλο σε συγκεκριμένα πεδία εφαρμογής ή/και σύνολα δεδομένων. Το πρώτο μειονέκτημα είναι το υψηλό κόστος κατηγοριοποίησης ως αποτέλεσμα του υπολογισμού των αποστάσεων μεταξύ κάθε αντικείμενου προς κατηγοριοποίηση και όλων των αντικειμένων που ανήκουν στο σύνολο εκπαίδευσης. Αν και τα σημερινά υπολογιστικά συστήματα είναι εφοδιασμένα με ισχυρούς επεξεργαστές, σε περιπτώσεις μεγάλων συνόλων δεδομένων, το συγκεκριμένο μειονέκτημα καθιστά την κατηγοριοποίηση μια ιδιαίτερα χρονοβόρα διαδικασία, η εκτέλεση της οποίας μπορεί να είναι απαγορευτική. Το δεύτερο μειονέκτημα αφορά τις μεγάλες απαιτήσεις σε αποθηκευτικό χώρο. Κατηγοριοποιητές που βασίζονται σε μοντέλα κατηγοριοποίησης (π.χ., δένδρα απόφασης, νευρωνικά δίκτυα) μπορούν μετά την κατασκευή του μοντέλου να διαγράψουν τα δεδομένα εκπαίδευσης ώστε να εξοικονομήσουν χώρο. Αντίθετα ο κατηγοριοποιητής κ εγγύτερων γειτόνων πρέπει να έχει πάντα όλα τα δεδομένα εκπαίδευσης διαθέσιμα. Έτσι δεν είναι δυνατή η εξοικονόμηση αποθηκευτικού χώρου. Τέλος, η ακρίβεια που επιτυγχάνει ο κατηγοριοποιητής κ εγγύτερων γειτόνων εξαρτάται από την ποιότητα των δεδομένων εκπαίδευσης. Δεδομένα με θόρυβο, αντικείμενα χωρίς ετικέτα κλάσης, ακραία σημεία και επικαλύψεις στις περιοχές διαφορετικών κλάσεων αποπροσανατολίζουν τον κατηγοριοποιητή με αποτέλεσμα τη μείωση της ακρίβειας. Τα μειονεκτήματα αυτά αποτελούν μια ενεργή περιοχή έρευνας. Η διδακτορική διατριβή έχει ως κίνητρο την αντιμετώπιση των συγκεκριμένων μειονεκτημάτων. Ως εκ τούτου, η διατριβή συνεισφέρει καινοτόμους αλγόριθμους που αντιμετωπίζουν με αποτελεσματικό τρόπο τα μειονεκτήματα αυτά Με άλλα λόγια, η διατριβή προτείνει αλγόριθμους και τεχνικές αποτελεσματικής κατηγοριοποίησης εγγύτερων γειτόνων. Η συνεισφορά έχει χωριστεί σε τρεις κατηγορίες: (ί) νέες τεχνικές μείωσης όγκου των δεδομένων εκπαίδευσης που αντιμετωπίζουν όλα τα μειονεκτήματα και δεν παρουσιάζουν τις αδυναμίες υπαρχουσών τεχνικών, (ϋ) υβριδικούς αλγορίθμους που συνδυάζουν διαφορετικού τύπουμεθόδους επιτάχυνσης με στόχο την μείωση του υπολογιστικού κόστους της κατηγοριοποίησης (iii) βελτιώσεις σε υπάρχουσες τεχνικές και πειραματικές μελέτες. Η απόδοση των προτεινόμενων αλγόριθμων, τεχνικών και βελτιώσεων ελέγχθηκε πειραματικά και συγκρίθηκε με γνωστές στη βιβλιογραφία μεθόδους χρησιμοποιώντας διάφορα σύνολα δεδομένων. Οι πειραματικές μετρήσεις επικυρώθηκαν με το μη παραμετρικό στατιστικό τεστ του Wilcoxon Τα αποτελέσματα υποδεικνύουν ότι οι αλγόριθμοι, οι τεχνικές και οι βελτιώσεις επιτυγχάνουν τον σκοπό για τον οποίο αναπτύχθηκαν και ότι οδηγούν σε αποτελεσματική κατηγοριοποίηση σε ότι αφορά την ακρίβεια, το κόστος κατηγοριοποίησης και το κόστος προ-επεξεργασίας.

Τύπος

Electronic Thesis or Dissertation

Text

Θέμα

Αντιπρόσωποι

Editing (noise removal)

Data preprocessing

Προ-επεξεργασία δεδομένων

Condensing

Time-series

Ροές δεδομένων

Χρονοσειρές

κ εγγύτεροι γείτονες

Μείωση όγκου δεδομένων

Accuracy

Επιλογή αντιπροσώπων

Δημιουργία αντιπροσώπων

Συσταδοποίηση

Μέθοδοι βασισμένοι στη συσταδοποίηση

Prototypes

Classification

Streaming data

Κατηγοριοποίηση

k nearest neighbours

Υπολογιστικό κόστος

Cluster-based methods

Ακρίβεια

Clustering

Data reduction

Συμπύκνωση δεδομένων

Δυναμικά περιβάλλοντα

Prototype selection

Hybrid algorithms

Prototype abstraction

Dynamic environments

Υβριδικοί αλγόριθμοι

Computational cost

Επεξεργασία με σκοπό τη μείωση θορύβου

Πάροχος

Πανεπιστήμιο Μακεδονίας

Αποθετήριο / συλλογή

Ψηφίδα - Ψηφιακή Βιβλιοθήκη και Ιδρυματικό Καταθετήριο

Επιμέρους συλλογή

Ερευνητικές εργασίες φοιτητών / Students’ research papers

Διδακτορικές Διατριβές / PhD Dissertations

Ιδρυματικό Καταθετήριο/Institutional Repository

Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Γλώσσα

Αγγλική γλώσσα

Ημερομηνία

2014

2014-06-23T09:34:46Z

Προσδιοριστής

http://dspace.lib.uom.gr/handle/2159/16240

Εκδότης

Πανεπιστήμιο Μακεδονίας

*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.

Αλγόριθμοι και τεχνικές για αποδοτική και αποτελεσματική κατηγοριοποίηση εγγύτερων γειτόνων.

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.