Ένα μεθοδολογικό πλαίσιο για τη στατιστική ανάλυση κειμένου από κοινωνικά μέσα

RDF 

 
This item is provided by the institution :
University of Crete
Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*
share



Semantic enrichment/homogenization by EKT
2012 (EN)
A Methodological Framework for Statistical Analysis of Text from Social Media
Ένα μεθοδολογικό πλαίσιο για τη στατιστική ανάλυση κειμένου από κοινωνικά μέσα

Κλεισαρχάκη, Σοφία Ιωάννης

Τσαμαρδινός, Ι.
Χριστοφίδης, Β.
Κοτζίνος, Δ.

Γινόμαστε μάρτυρες μιας απρόσμενης αύξησης του ενδιαφέροντος στα κοινωνικά μέσα που επιτρέπει στους χρήστες να επιτύχουν μια σχεδόν πραγματικού χρόνου ενημέρωση. Αρκετές σελίδες κοινωνικής δικτύωσης (π.χ. Facebook), ιστολόγια π.χ. Twitter) και κοινωνικά μέσα ενημέρωσης (π.χ. Digg) παράγουν σε καθημερινή βάση μεγάλο όγκο από περιεχόμενο προερχόμενο από τον χρήστη υπό την μορφή κειμένου μηνυμάτων, σχετιζόμενα με ένα ευρύ φάσμα ειδήσεων του πραγματικού κόσμου (προσωπικές, πολιτικές, εμπορικές κτλ). Η αυτοματοποιημένη ανάλυση τέτοιου είδους κοινωνικών ροών κειμένου έχει ήδη δημιουργήσει επιστημονική και εμπορική αξία. Αρκετές μέθοδοι συσταδοποίησης μηχανικής μάθησης έχουν προταθεί στο πλαίσιο αυτό τα τελευταία χρόνια. Ωστόσο, δεν υπάρχει ακόμη μια κοινώς χρησιμοποιούμενη μεθοδολογία για τη στατιστική ανάλυση του κειμενικού περιεχομένου που παράγε¬ται στα κοινωνικά μέσα ενημέρωσης η οποία να λαμβάνει υπόψη τις ιδιομορφίες των κοινωνικών ροών κειμένου. Για παράδειγμα, το Twitter κατακλύζεται από μηνύματα χαμηλής ποιότητας (σόλοικη σύνταξη, ανεπιθύμητα κτλ), προκαλώντας σημαντικό αν¬τίκτυπο στο εξαχθέν λεξιλόγιο και στην αναπαράσταση της βάρυνσης του. Επιπλέον, τα μηνύματα των χρηστών είναι ετερογενή και θορυβώδη κυμαινόμενα από προσωπικές ιστορίες μέχρι έκτακτες ειδήσεις, επηρεάζοντας το πλήθος και την ωφελιμότητα των συστάδων. Τα μηνύματα χαρακτηρίζονται από μια μη στατική κατανομή δεδομένων εξαιρετικά εξελισσόμενης συμπεριφοράς που πιθανόν προκαλεί εξέλιξη στο σχήμα, το κεντροειδές και την πυκνότητα των συστάδων. Στην παρούσα διατριβή παρακινο¬ύμενοι από τις προαναφερθείσες παρατηρήσεις και τα πενιχρά αποτελέσματα μερικών γνωστών αλγορίθμων συσταδοποίησης ενδιαφερόμαστε να κατανοήσουμε ποίες από τις ιδιομορφίες των κοινωνικών ροών κειμένου που υπάρχουν στην πραγματικότητα επη¬ρεάζουν την εξέλιξη της συμπεριφοράς των συστάδων οι οποίες εντοπίζονται αυτόματα από διάφορα είδη αλγορίθμων μηχανικής μάθησης. Ειδικότερα, εντός του πεδίου των δεδομένων μας έχουμε ενδείξεις ότι το κεντροειδές της συστάδας ενός θέματος κινε¬ίται μέσα σε ένα πολυδιάστατο χώρο υποδεικνύοντας μια μετατόπιση του θεματικού ενδιαφέροντος που συζητιέται στην πάροδο του χρόνου. Επιπλέον, το σχήμα των συστάδων επίσης αλλάζει με την πάροδο του χρόνου υποδεικνύοντας τη σύγκλιση ή απόκλιση των απόψεων των χρηστών. Βασιζόμενοι σε αυτό το μεθοδολογικό πλαίσιο, σκοπεύουμε να σκιαγραφήσουμε τις αδυναμίες αρκετών αλγορίθμων συσταδοποίησης, που προτάθηκαν στη βιβλιογραφία, να προσαρμόσουν τις αναλυόμενες συστάδες στις ιδιομορφίες των κοινωνικών ροών κειμένου και εν τέλει να βελτιώσουν την ποιότητα συσταδοποίησης τους. (EL)
We are witnessing an unprecedented growth of interest in social media enabling people to achieve a near real-time information awareness. Several online network¬ing sites (e.g. Facebook), micro-bloging applications (e.g. Twitter) and Social news (e.g. Digg) produce on a daily basis vast amounts of User-Generated Content (UGC) under the form of textual posts related to a wide variety of real-world news (personal, political, commercial, etc.). The automated analysis of such social text streams has already created scientific and business value. Several machine learn¬ing clustering methods have been proposed in this respect during the last years. However, there is still no commonly used methodology for statistical analysis of textual content produced in social media that take into account the peculiarities of social text stream. For instance, Twitter is overwhelmed by low quality posts (ungrammatical, spam etc), having a great impact on the size of the extracted vo¬cabulary. Furthermore, the users' posts are heterogeneous and noisy ranging from personal stories to breaking news affecting the number and utility of recognized clusters. Also, posts are characterized by a non-stationary data distribution of a highly evolving behaviour that may causes evolution of the shape, centroid and den¬sity of the clusters. In this thesis, motivated by the aforementioned observations and the poor quality results of some well-known clustering algorithms we are inter¬ested in understanding which of the peculiarities of social text streams exhibited in reality affect the evolving behaviour of clusters automatically detected by various kinds of machine learning algorithms. In particular, within the scope of our dataset we have evidence that the clusters' centroid of a topic move in a multi-dimensional space indicating a shift of topic's interest discussed over time. Furthermore, the clusters' shape also changes over time indicating the users' opinion convergence or discrepancy. Based on such methodological framework, we plan to illustrate the weakness of several clustering algorithms proposed in the literature in order to adjust the analysed clusters to the peculiarities of social text streams and finally improve their clustering quality. (EN)

text

Κεντροειδές
Centroid
Shape
Αλγόριθμος Συσταδοποίησης
Twitter
Πυκνότητα
Σχήμα
Clustering algorithm
Density

Πανεπιστήμιο Κρήτης (EL)
University of Crete (EN)

2012




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)