Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα

 
This item is provided by the institution :

Repository :
Institutional Repository Hellanicus
see the original item page
in the repository's web site and access all digital files if the item*
share





Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα (EL)

Αρχοντής, Μιχάλης

aegean

Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής ενός μοντέλου που θα είναι σε θέση να προβλέπει τον συγγραφέα ενός διαμαχόμενου κειμένου. Τα αποτελέσματα αυτών των ερευνών έδωσαν την δυνατότητα στην επιστημονική κοινότητα να ασχοληθεί με την επίλυση ενός πιο ρεαλιστικού προβλήματος, όπου η πληροφορία της πατρότητας των κειμένων που θα αποτελούν το σύνολο εκπαίδευσης του προβλεπτικού μοντέλου δεν είναι γνωστή.Η πλειοψηφία των ερευνών για την επίλυση και των δύο παραπάνω προβλημάτων χρησιμοποιεί μεθόδους δανειζόμενες από τους τομείς της Ανάκτησης Πληροφοριών και της Μηχανικής Μάθησης, καθιστώντας τες ως κυρίαρχα ερευνητικά εργαλεία της εξόρυξης γνώσης από τα κείμενα.Η παρούσα εργασία, προσπαθεί να προβάλει αυτά τα εργαλεία και προτείνει μία μέθοδο για την επίλυση του δύσκολου προβλήματος της ομαδοποίησης συγγραφέα, κάνοντας χρήση την εξαγωγή θεμάτων συγγραφικού ύφους από τα κείμενα, μέσω των μεθόδων LDA και LSI, και χρησιμοποιεί ως αλγόριθμο συσταδοποίησης το ελάχιστο επικαλυπτόμενο δέντρο. Η δημιουργία του μοντέλου βασίστηκε στα δεδομένα εκπαίδευσης των διαγωνισμών PAN 2016 και PAN 2017, ενώ η αξιολόγησή του πραγματοποιήθηκε στα δεδομένα αξιολόγησης των ίδιων διαγωνισμών.

masterThesis

Text mining (EL)
Ομαδοποίηση συγγραφέα (EL)
Μηχανική μάθηση (EL)
Machine learning (EL)
Ανάλυση κειμένου (EL)
Authorship clustering (EL)


2018-01-18


2018-04-20T12:10:31Z

Σάμος




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)