clustering and classification in high dimensional sparse data

Το τεκμήριο παρέχεται από τον φορέα :
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών   

Αποθετήριο :
Πέργαμος   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



clustering and classification in high dimensional sparse data

Μπορεκτσίογλου Ιωάννης (EL)
Πατσουράκος Κωνσταντίνος (EL)

born_digital_graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

2016


Ο βασικός στόχος της συγκεκριμένης πτυχιακής είναι η κατηγοριοποίηση πραγματικών πολυδιάστατων δεδομένων στο τομέα της ομοιοπαθητηκής. Για να το πετύχουμε αυτό συγκεντρώσαμε αρκετές μεθοδολογίες από το χώρο της εξόρυξης δεδομένων. Υλοποιήθηκαν μερικοί ιδανικοί αλγόριθμοι ομαδοποιήσης μέχρι να υπάρξει ένα καλό και χρήσιμο αποτέλεσμα σύμφωνα με τους ειδικούς του τομέα. Πιο συγκεκριμένα, για να πετύχουμε αυτό το αποτέλεσμα, υλοποιήσαμε έναν διαιρετικό αλγόριθμο ομαδοποιησης. Ξεκινήσαμε με τη μέθοδο του k-medoids με αρχικοποιήση k-medoids++, ανάθεση PAM και ανανέωση CLARANS. Επειδη τα δεδομένα ακολουθούσαν μμια ιεραρχική δομή παραπάνω μεθόδοι δεν έδωσαν ένα χρήσιμο αποτέλεσμα σύμφωνα με τις μεθοδους αξιολόγησης που χρησιμοποιήσαμε, έτσι υλοποιήσαμε ιεραρχικούς αλγορίθμους, ενας εκ των οποίων ο αλγόριθμος Connected components. Τελος, για να βγάλουμε κάποια συμπεράσματα για τις λέξεις που είχαμε στα δεδομένα, υλοποίησαμε τον αλγόριθμο hitting set.Ήταν σημαντικό να βούμε τις λέξεις που ήταν ανεξάρτητες από τις υπόλοιπες και για αυτό είδαμε το πρόβλημα σαν το γνωστό πρόβλημα set covering (EL)
The main goal of this dissertation can be accumulated as the effort of classification of real high-dimensional sparse data in the area of homeopathy. In order to achieve these goals there have been gathered various methodologies from data mining area. Some suitable clustering algorithms were implemented until there was a good and useful result according to field experts. The biggest challenge was the absence of ground truth that would help lead the attempts to better understand the problem. For that reason, we had to rely on internal evaluation and experiment with different scoring functions. Specifically in order to attain the above mentioned goals, a partitional clustering algorithm was implemented. We started with k-medoids approach with k-medoids++ initialization, PAM assignment (Leonard Kaufman and Peter J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis) and CLARANS update (Raymond T. Ng and Jiawei Han, "Efficient and Effective Clustering Methods for Spatial Data Mining”). Because of the hierarchical structure of data the above methods did not give useful results, according to internal evaluation, so a hierarchical algorithm known as connected compenents was implemented. Lastly, in order to make some conclusions about the words that appeared in data, we implemented hitting set algorithm. It was important to find the words that appeared the most independently of the others and we saw the problem as the known set covering problem. (EN)


Αγγλική γλώσσα

Σχολή Θετικών Επιστημών » Τμήμα Πληροφορικής & Τηλεπικοινωνιών » Τομέας Θεωρητικής Πληροφορικής
Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών

https://creativecommons.org/licenses/by-nc/4.0/




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.