Σύγκριση κειμένων με χρήση γράφων εγγύτητας και τεχνικές εξαγωγής πληροφορίας

 
This item is provided by the institution :

Repository :
Library and Information Center ESTIA
see the original item page
in the repository's web site and access all digital files if the item*
share




2017 (EN)

Σύγκριση κειμένων με χρήση γράφων εγγύτητας και τεχνικές εξαγωγής πληροφορίας

Τσεκούρας, Λεωνίδας Ε.

Η σύγκριση κειμένων είναι μια διαδικασία που έχει πολλαπλές χρήσεις στην επεξεργασία της φυσικής γλώσσας. Μπορεί να χρησιμοποιηθεί για την ομαδοποίηση κειμένων, αυτόματη εξαγωγή περιλήψεων και άλλες χρήσεις, οπότε με τη βελτίωση των διαθέσιμων μεθόδων για τη σύγκριση κειμένων μπορούν έμμεσα να βελτιωθούν και όλες οι άλλες διαδικασίες που βασίζονται σε αυτή. Στην παρούσα εργασία δοκιμάζουμε έναν νέο τρόπο σύγκρισης κειμένων, βασισμένο κυρίως στην εξαγωγή ονοματικών οντοτήτων από τα κείμενα και την αναπαράστασή τους ως γράφους.Το μέτρο σύγκρισης κειμένων που υλοποιήσαμε αρχικά εξάγει τις οντότητες από τα κείμενα χρησιμοποιώντας την υπηρεσία OpenCalais, και στη συνέχεια αντικαθιστά τις λέξεις των κειμένων που δεν είναι οντότητες με κάποιο σύμβολο που έχουμε ορίσει. Αυτή η ενδιάμεση αναπαράσταση των κειμένων μετατρέπεται στη συνέχεια σε γράφο λέξεων με χρήση της εργαλειοθήκης JINSECT, και οι δύο γράφοι των κειμένων συγκρίνονται έτσι ώστε να πάρουμε τελικά την ομοιότητα των κειμένων που θέλουμε να συγκρίνουμε.Στη συνέχεια χρησιμοποιήσαμε τον υλοποιημένο αυτό αλγόριθμο για την ομαδοποίηση ενός συνόλου κειμένων με τη χρήση των αποτελεσμάτων του στον αλγόριθμο ομαδοποίησης OPTICSXi, και αξιολογήσαμε τη διαδικασία με κάποια μέτρα ακρίβειας της ομαδοποίησης που υλοποιήσαμε. Συγκρίναμε επίσης την ακρίβεια της ομαδοποίησης αυτής με τα αποτελέσματα που πήραμε από την ομαδοποίηση χρησιμοποιώντας πάλι τον OPTICSXi αλλά αυτή τη φορά με χρήση γράφων ν-γραμμάτων στο αρχικό κείμενο ως μέτρο σύγκρισης των κειμένων.Τα αποτελέσματα που πήραμε δείχνουν ότι, τουλάχιστον με βάση την ομοιότητα των κειμένων που θεωρήσαμε ως σωστή στα πειράματα που έγιναν, η χρήση ονοματικών οντοτήτων για τη σύγκριση των κειμένων αποδίδει καλύτερα από τη σύγκριση των κειμένων χωρίς κάποια προεπεξεργασία με βάση γράφους ν-γραμμάτων.

graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

ομοιότητα κειμένων
αναγνώριση ονοματικών οντοτήτων
επεξεργασία φυσικής γλώσσας
ν-γράμματα
γράφοι


2017-03-02


Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)