Σύγκριση κειμένων με χρήση γράφων εγγύτητας και τεχνικές εξαγωγής πληροφορίας

 
Το τεκμήριο παρέχεται από τον φορέα :
Χαροκόπειο Πανεπιστήμιο
Αποθετήριο :
Βιβλιοθήκη & Κέντρο Πληροφόρησης ΕΣΤΙΑ
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο
2017 (EL)
Σύγκριση κειμένων με χρήση γράφων εγγύτητας και τεχνικές εξαγωγής πληροφορίας

Τσεκούρας, Λεωνίδας Ε.

Η σύγκριση κειμένων είναι μια διαδικασία που έχει πολλαπλές χρήσεις στην επεξεργασία της φυσικής γλώσσας. Μπορεί να χρησιμοποιηθεί για την ομαδοποίηση κειμένων, αυτόματη εξαγωγή περιλήψεων και άλλες χρήσεις, οπότε με τη βελτίωση των διαθέσιμων μεθόδων για τη σύγκριση κειμένων μπορούν έμμεσα να βελτιωθούν και όλες οι άλλες διαδικασίες που βασίζονται σε αυτή. Στην παρούσα εργασία δοκιμάζουμε έναν νέο τρόπο σύγκρισης κειμένων, βασισμένο κυρίως στην εξαγωγή ονοματικών οντοτήτων από τα κείμενα και την αναπαράστασή τους ως γράφους.Το μέτρο σύγκρισης κειμένων που υλοποιήσαμε αρχικά εξάγει τις οντότητες από τα κείμενα χρησιμοποιώντας την υπηρεσία OpenCalais, και στη συνέχεια αντικαθιστά τις λέξεις των κειμένων που δεν είναι οντότητες με κάποιο σύμβολο που έχουμε ορίσει. Αυτή η ενδιάμεση αναπαράσταση των κειμένων μετατρέπεται στη συνέχεια σε γράφο λέξεων με χρήση της εργαλειοθήκης JINSECT, και οι δύο γράφοι των κειμένων συγκρίνονται έτσι ώστε να πάρουμε τελικά την ομοιότητα των κειμένων που θέλουμε να συγκρίνουμε.Στη συνέχεια χρησιμοποιήσαμε τον υλοποιημένο αυτό αλγόριθμο για την ομαδοποίηση ενός συνόλου κειμένων με τη χρήση των αποτελεσμάτων του στον αλγόριθμο ομαδοποίησης OPTICSXi, και αξιολογήσαμε τη διαδικασία με κάποια μέτρα ακρίβειας της ομαδοποίησης που υλοποιήσαμε. Συγκρίναμε επίσης την ακρίβεια της ομαδοποίησης αυτής με τα αποτελέσματα που πήραμε από την ομαδοποίηση χρησιμοποιώντας πάλι τον OPTICSXi αλλά αυτή τη φορά με χρήση γράφων ν-γραμμάτων στο αρχικό κείμενο ως μέτρο σύγκρισης των κειμένων.Τα αποτελέσματα που πήραμε δείχνουν ότι, τουλάχιστον με βάση την ομοιότητα των κειμένων που θεωρήσαμε ως σωστή στα πειράματα που έγιναν, η χρήση ονοματικών οντοτήτων για τη σύγκριση των κειμένων αποδίδει καλύτερα από τη σύγκριση των κειμένων χωρίς κάποια προεπεξεργασία με βάση γράφους ν-γραμμάτων.

graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

ομοιότητα κειμένων
αναγνώριση ονοματικών οντοτήτων
επεξεργασία φυσικής γλώσσας
ν-γράμματα
γράφοι

Χαροκόπειο Πανεπιστήμιο (EL)
Harokopio University (EN)

2017-03-02


Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.