δείτε την πρωτότυπη σελίδα τεκμηρίου στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
clustering and classification in high dimensional sparse data
Ο βασικός στόχος της συγκεκριμένης πτυχιακής είναι η κατηγοριοποίηση
πραγματικών πολυδιάστατων δεδομένων στο τομέα της ομοιοπαθητηκής. Για να το
πετύχουμε αυτό συγκεντρώσαμε αρκετές μεθοδολογίες από το χώρο της εξόρυξης
δεδομένων. Υλοποιήθηκαν μερικοί ιδανικοί αλγόριθμοι ομαδοποιήσης μέχρι να
υπάρξει ένα καλό και χρήσιμο αποτέλεσμα σύμφωνα με τους ειδικούς του τομέα.
Πιο συγκεκριμένα, για να πετύχουμε αυτό το αποτέλεσμα, υλοποιήσαμε έναν
διαιρετικό αλγόριθμο ομαδοποιησης. Ξεκινήσαμε με τη μέθοδο του k-medoids με
αρχικοποιήση k-medoids++, ανάθεση PAM και ανανέωση CLARANS. Επειδη τα δεδομένα
ακολουθούσαν μμια ιεραρχική δομή παραπάνω μεθόδοι δεν έδωσαν ένα χρήσιμο
αποτέλεσμα σύμφωνα με τις μεθοδους αξιολόγησης που χρησιμοποιήσαμε, έτσι
υλοποιήσαμε ιεραρχικούς αλγορίθμους, ενας εκ των οποίων ο αλγόριθμος Connected
components.
Τελος, για να βγάλουμε κάποια συμπεράσματα για τις λέξεις που είχαμε στα
δεδομένα, υλοποίησαμε τον αλγόριθμο hitting set.Ήταν σημαντικό να βούμε τις
λέξεις που ήταν ανεξάρτητες από τις υπόλοιπες και για αυτό είδαμε το πρόβλημα
σαν το γνωστό πρόβλημα set covering
(EL)
The main goal of this dissertation can be accumulated as the effort of
classification of real high-dimensional sparse data in the area of homeopathy.
In order to achieve these goals there have been gathered various methodologies
from data mining area. Some suitable clustering algorithms were implemented
until there was a good and useful result according to field experts.
The biggest challenge was the absence of ground truth that would help lead the
attempts to better understand the problem. For that reason, we
had to rely on internal evaluation and experiment with different scoring
functions. Specifically in order to attain the above mentioned goals, a
partitional clustering algorithm was implemented. We started with k-medoids
approach with k-medoids++ initialization, PAM assignment (Leonard Kaufman and
Peter J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster
Analysis) and CLARANS update (Raymond T. Ng and Jiawei Han, "Efficient and
Effective Clustering Methods for Spatial Data Mining”). Because of the
hierarchical structure of data the above methods did not give useful results,
according to internal evaluation, so a hierarchical algorithm known as
connected compenents was implemented.
Lastly, in order to make some conclusions about the words that appeared in
data, we implemented hitting set algorithm. It was important to find the words
that appeared the most independently of the others and we saw the problem as
the known set covering problem.
(EN)
*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.
Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.