Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα

This item is provided by the institution :
University of the Aegena   

Repository :
Institutional Repository Hellanicus   

see the original item page
in the repository's web site and access all digital files if the item*



Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα

Ίβκοβα, Τίνα

Αμπαζής, Νικόλαος
Δριβαλιάρης, Δημοσθένης
Βασιλείου, Ευάγγελος

bachelorThesis

2019-05-29T07:08:09Z
2017


Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας έχει επιλεγεί ο δημοφιλέστερος ιστόποτοπος tης Ρωσίας για την ανάδειξη του τουριστικού ενδιαφέροντος ως προς την Ελλάδα. Έχει διαπιστωθεί πως το VK αποτελεί έναν σύγχρονο τρόπο επικοινωνίας και ανταλλαγής απόψεων σε μία μεγάλη και ισχυρή χώρα όπως η Ρωσία. Για την λήψη των επιθυμητών δεδομένων έγινε έρευνα των σχετικών ως προς την Ελλάδα ομάδων στο VK για την μετέπειτα επιλογή των πιο πολυσύχναστων σελίδων. Τα δεδομένα αντλούνται με την βοήθεια κατάλληλων μεθόδων του API που προσφέρει το VK και στην συνέχεια δημιουργούν ένα πίνακα που περιέχει το εξεταζόμενο corpus. Οι γραμμές του πίνακα αποτελούνται από δημοσιεύσεις και σχόλια που έχουν αναρτηθεί από τους χρήστες αυτών των σελίδων. Έπειτα ακολουθεί η διαδικασία της μαθηματικής αναπαράστασης των κειμένων, έτσι ώστε να είναι εφικτή η θεματική τους ομαδοποίηση. Η διαδικασία μετατροπής των κειμένων σε διανύσματα πραγματοποιείται με την κατανεμημένη αναπαράσταση της φυσικής γλώσσας, στο τέλος της οποίας οι λέξεις αντιστοιχούν σε τέτοια σημεία του διανυσματικού χώρου, ώστε οι αποστάσεις μεταξύ των σημείων αυτών να αντικατοπτρίζουν την σημασιολογική σχέση μεταξύ τους. Δηλαδή, στο τέλος της διαδικασίας, είναι δυνατόν να προσθαφαιρούνται οι λέξεις, ενώ σαν αποτέλεσμα της πράξης προκύπτει μια λίστα από τις πιο σχετικές λέξεις. Η κατανεμημένη αναπαράσταση στην επεξεργασία της φυσικής γλώσσας επιτυγχάνεται με δύο αλγόριθμους: Word2vec και Doc2vec. Ο πρώτος μετασχηματίζει την κάθε λέξη σε διάνυσμα με τέτοιο τρόπο, ώστε τα σημεία που αντιστοιχούν στις λέξεις με όμοιες έννοιες να βρίσκονται κοντά, ενώ τα διανύσματα των λέξεων που δεν έχουν σχέση μεταξύ τους, να απέχουν πιο πολύ. Έτσι οι αποστάσεις στον διανυσματικό χώρο αντικατοπτρίζουν τις συσχετίσεις των λέξεων. Από την άλλη, ο αλγόριθμος Doc2vec, πραγματοποιεί την ανάθεση διανυσμάτων όχι μόνο στις λέξεις, αλλά και στο ίδιο το κείμενο, αυξάνοντας κατά αυτόν τον τρόπο και άλλο την εγκυρότητα των αποτελεσμάτων. Αφού ομαδοποιηθούν τα δεδομένα, μπορεί να γίνει διαχώρισμός των θεμάτων που εμπεριέχονται στις ομάδες που έχουν προκύψει. Στα πειραματικά αποτελέσματα διακρίνονται τα θέματα που απασχολούν τους ρωσόφωνους χρήστες του κοινωνικού δικτύου και τι συζητιέται πιο συχνά, όπως οι τουριστικές προτιμήσεις, οι πολιτικές εξελίξεις ή τα θρησκευτικά αξιοθέατα.
Social media have been integrated into most people’s lives, thus they’ve become powerful information providers. In the current diploma thesis we’ve chosen the most popular Russian website (VK) to analyze the Russian visitors’ interest for Greece. It’s been known that «Vkontakte» is a major hub of communication and exchange of opinion in Russia. In order to select the data the most relevant VK pages related to Greece were identified. After the gathering of data by API methods was created a matrix which contained the whole vocabulary. The rows of matrix consisted of the post’s texts, so that clustering would be possible through a numerical representation of texts. The process of text representation as a fixed-length vector was achieved by distributed representation of the natural language, at the end of which, the words were mapped in a vector space in such a way, so as that the semantic meaning of words, was correlated with the distance between the vectors. For example after a model was trained, the words could be treated with simple vector algebra, as if they were numbers and the result was an output list of similar words. The distributed representation of the natural language processing utilized two algorithms: Word2vec and Doc2vec. The first algorithm converts each word to a vector so that the words with similar meaning are close to each other in the vector space, while other words are more distant. Thus the distances in vector space reflect the semantics of words. Doc2vec algorithm is an extension of Word2vec, where paragraphs are treated as words. As soon as the documents have been converted into a numerical representation, clustering or classification is possible. Since the posts that have been selected have no labels, clustering (e.g. with k-means) is the only possible choice. Each cluster can then be segregated into several topics which can identify. The interests of Russian users in topics like politics or religion landmarks, and others.

REPRESENTATION (URL: http://data.seab.gr/concepts/2a2c33639e85827d5e9f6715d52e68e63de1aa05)
Regional organizations (URL: http://skos.um.es/unescothes/C03317)
Educational grouping (URL: http://skos.um.es/unescothes/C01239)

κατανεμημένη αναπαράσταση
ομαδοποίηση
επεξεργασία φυσικής γλώσσας
Word2vec
VK
K-Means
Doc2vec
LDA
API
grouping
distributed representation

Πανεπιστήμιο Αιγαίου - Πολυτεχνική Σχολή - Τμήμα Μηχανικών Οικονομίας και Διοίκησης
aegean

Default License




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)