Στην παρούσα διπλωματική εργασία ερευνάται το ζήτημα της αυτόματης αναγνώρισης της Κυπριακής διαλέκτου στα μέσα κοινωνικής δικτύωσης και πιο συγκεκριμένα σε σχόλια του Facebook. Επιχειρήθηκε η δημιουργία ενός υπολογιστικού μοντέλου αναγνώρισης διαλέκτου και για τη διαδικασία ταξινόμησης των κειμένων σε δύο γλωσσικές κατηγορίες, την Κυπριακή διάλεκτο και την Κοινή Νέα Ελληνική, χρησιμοποιήθηκαν τρεις αλγόριθμοι: ο Multinomial Naïve Bayes, η Μηχανή Διανυσμάτων Υποστήριξης (Linear Support Vector Machine), και η Λογιστική Παλινδρόμηση. Τα δεδομένα για την κατηγοριοποίηση αποτελούνται από ένα σώμα κειμένων στα οποία γίνεται χρήση της Κυπριακής διαλέκτου και ένα σώμα κειμένων στην Κοινή Νέα Ελληνική, τα οποία προέρχονται από σχόλια αναρτημένα στο Facebook. Τα δεδομένα χωρίστηκαν σε σύνολο εκπαίδευσης (training set) και σύνολο δοκιμής (test set). Έπειτα, τα αλγοριθμικά μοντέλα εκπαιδεύτηκαν με την εισαγωγή του συνόλου εκπαίδευσης. Η τελική πρόβλεψη πραγματοποιήθηκε με τη χρήση του συνόλου δοκιμής. Τα αποτελέσματα ανέδειξαν τον αλγόριθμο Multinomial Naïve Bayes ως τον ταξινομητή με την καλύτερη επίδοση, καθώς στη διαδικασία αναγνώρισης της Κυπριακής διαλέκτου στα κείμενα με βάση τις συχνότερες λέξεις και τα συχνότερα διγράμματα, κατόρθωσε ακρίβεια 88,87%. Αποδείχτηκε έτσι, ότι θα ήταν εφικτή η δημιουργία ενός συστήματος αυτόματης αναγνώρισης της Κυπριακής διαλέκτου και διάκρισής της από την Κοινή Νέα Ελληνική.
(EL)
This Master's thesis investigates the subject of the automatic identification of the Cypriot dialect in social media and, more specifically, in Facebook comments. The creation of a computational model was undertaken. In order to classify the texts in two language categories, the Cypriot dialect and the modern Greek language, three algorithms were used: Multinomial Naïve Bayes, Linear Support Vector Machine, and Logistic Regression. The data for the classification comprise of a body of texts in which there is use of the Cypriot dialect and a body of texts in the Modern Greek language, both of which come from comments posted on Facebook. The data were divided in training set and test set. Then, the algorithmic models were trained with the input of the training set. The final prediction was carried out with the use of the test set. The results highlighted the Multinomial Naïve Bayes algorithm as the classifier with the best performance, as during the process of identifying the Cypriot dialect in the texts, based on the most frequent keywords and bi-grams, it achieved an accuracy of 88.87%. It was thus proven that the creation of a system for automatic identification of the Cypriot dialect and its distinction from modern Greek would be feasible.
(EN)