Μελέτη και ανάπτυξη αλγορίθμων εξόρυξης - ανάλυσης κειμένου

Μελέτη και ανάπτυξη αλγορίθμων εξόρυξης - ανάλυσης κειμένου

Το τεκμήριο παρέχεται από τον φορέα :
Τεχνολογικό Εκπαιδευτικό Ίδρυμα (ΤΕΙ) Δυτικής Μακεδονίας   

Αποθετήριο :
@νάκτησις   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Μελέτη και ανάπτυξη αλγορίθμων εξόρυξης - ανάλυσης κειμένου

Μακρίδης, Ευάγγελος

Thesis
NonPeerReviewed

2021-10


Το διαδίκτυο έχει αναδειχθεί τα τελευταία χρόνια ως ένας εξαιρετικός τρόπος αναζήτησης πληροφορίας και γνώσης. Στο διαδίκτυο υπάρχει μεγάλο πλήθος από έγγραφα και κείμενα, των οποίων ο αριθμός τους αυξάνεται ραγδαία. Στον τομέα πληροφόρησης είναι σημαντικό να ανακτώνται χρήσιμες πληροφορίες. Παρόλα αυτά, παρουσιάζεται επίσης μεγάλη αύξηση μη χρήσιμης πληροφορίας που διακινείται μέσω του διαδικτύου. Αυτό έχει ως αποτέλεσμα την επιτακτική ανάγκη εύρεση και χρήσης αποδοτικών τεχνικών εξόρυξης γνώσης από μεγάλο πλήθος εγγράφων και δεδομένων. Η εξόρυξης γνώσης περιλαμβάνει έναν μεγάλο αριθμό από μεθόδους και τεχνικές για την εξόρυξη χρήσιμης πληροφορίας όπως για παράδειγμα οι λέξεις κλειδιά (keyword extraction). Η παρούσα εργασία πραγματεύεται την αυτοματοποιημένη εύρεση λέξεων κλειδιών από μεγάλο πλήθος εγγράφων. Παρουσιάζονται θέματα εξόρυξης δεδομένων, εξόρυξη κειμένου και ανάλυση και υλοποίηση αλγορίθμων εξόρυξης κειμένου. Επίσης, παρουσιάζουμε την υλοποίηση που πραγματοποιήθηκε σε γλώσσα προγραμματισμού Java για δύο αλγόριθμους εξόρυξης κειμένου, των RAKE και TF-IDF. Επιπρόσθετα, παρουσιάζουμε την εφαρμογή ιστού που αναπτύχθηκε προκειμένου ο χρήστης να έχει ένα φιλικό περιβάλλον για την χρήση αυτών των αλγορίθμων RAKE και TF-IDF.

Προγράμματα ηλεκτρονικών υπολογιστών
Γλώσσες προγραμματισμού (Ηλεκτρονικοί Υπολογιστές)
Πληροφορική - Μαθηματικά
Αλγόριθμοι
Data mining
Διαδίκτυο (Internet)
Εξόρυξη δεδομένων

Ελληνική γλώσσα

cc_by_nc_nd




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.