Ταξινόμηση κειμένων πολιτισμικού περιεχομένου με τη χρήση λανθάνουσας σημασιολογικής δεικτοδότησης

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Ιδρυματικό Αποθετήριο Ελλάνικος (Hellanicus)
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2011 (EL)

Ταξινόμηση κειμένων πολιτισμικού περιεχομένου με τη χρήση λανθάνουσας σημασιολογικής δεικτοδότησης (EL)

Scope of this thesis is the classification of texts of cultural content, using latent semantic indexing (LSI). The LSI method is a widely used mathematical technique in information retrieval and text categorization. It concerns the interrelationships between conditions of a text with the text itself. The technique of LSI is based on the process of singular value decomposition (SVD). In this thesis, a combination of these methods is used, to create a platform, where a user can search for documents of cultural content, from a certain collection, poses a question to the system and take the texts classified in descending order, starting from the text of the collection that most fits to the question of the search. Firstly, in this thesis a general the theoretical reference is carried out as to how the text is represented as a vector. Also, the area of information retrieval is approached, that deals with search and recovery of information, through large volumes of data collections. Following a presentation of some procedures performed by the field information retrieval. Then, an extensive mathematical approach to the methods of the LSI and SVD lays the groundwork for further analysis of the methodology that has been followed to conduct the platform. The following three experiments are used to verify the correct function of its methods and to develop a clearer picture of them. Finally, the conclusions of the entire implementation of the platform are opposed, with suggestions for future improvements.
Η παρούσα εφαρμογή πραγματοποιήθηκε στα πλαίσια διπλωματικής εργασίας στο Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας και αναφέρεται στη ταξινόμηση κειμένων πολιτισμικού περιεχόμενου, με τη χρήση της λανθάνουσας σημασιολογικής δεικτοδότησης (Latent Semantic Indexing-LSI). Η μέθοδος LSI είναι μια ευρέως διαδεδομένη μαθηματική τεχνική, στην ανάκτηση πληροφοριών και στην κατηγοριοποίηση κειμένων. Αφορά τις αλληλεξαρτήσεις μεταξύ των όρων ενός κειμένου με το ίδιο το κείμενο. Η τεχνική του LSI, βασίζεται στην διαδικασία της αποσύνθεσης μοναδικής αξίας (Singular Value Decomposition-SVD). Στην συγκεκριμένη πτυχιακή χρησιμοποιείται ο συνδυασμός των δύο παραπάνω μεθόδων, με σκοπό τη δημιουργία μιας πλατφόρμας, όπου κάποιος χρήστης αναζητώντας κείμενα πολιτισμικού περιεχομένου, από μια συγκεκριμένη συλλογή, θέτει ένα ερώτημα στο σύστημα και λαμβάνει τα κείμενα ταξινομημένα κατά φθίνουσα σειρά, ξεκινώντας από το κείμενο της συλλογής που πλησιάζει πιο πολύ στο ερώτημα της αναζήτησής του. Στην παρούσα πτυχιακή εργασία, αρχικά, πραγματοποιείται μια γενική θεωρητική αναφορά, στον τρόπο με τον οποίο το κείμενο αναπαριστάται ως διάνυσμα. Επίσης, προσεγγίζεται ο τομέας της ανάκτησης πληροφοριών, που ασχολείται με την αναζήτηση και την ανάκτησή αυτών, μέσα από μεγάλου όγκου συλλογές δεδομένων. Έπεται, μια παρουσίαση κάποιων διαδικασιών που εκτελούνται από τον παραπάνω τομέα ανάκτησης πληροφοριών. Στη συνέχεια, μια εκτενής μαθηματική προσέγγιση των μεθόδων του LSI και SVD, θέτει τις βάσεις για την περαιτέρω ανάλυση της μεθοδολογίας που ακολουθήθηκε για να διεξαχθεί η πλατφόρμα. Τα τρία πειράματα που ακολουθούν χρησιμεύουν στην επαλήθευση του σωστού τρόπου λειτουργίας των μεθόδων, καθώς και στην διαμόρφωση μιας πιο ξεκάθαρης εικόνας αυτών. Τέλος, παραθέτονται τα συμπεράσματα ολόκληρης της υλοποίησης της πλατφόρμας, συνοδευόμενα με προτάσεις για μελλοντικές βελτιώσεις.

Dissertations (EL)
Πτυχιακές εργασίες (EL)
Λανθάνουσα σημασιολογική δεικτοδότηση (EL)
Αποσύνθεση μοναδικής αξίας (EL)
Latent semanticindexing (EL)
Singular value decomposition (EL)


2011


2015-09-18T10:17:16Z




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.