Ανίχνευση συμπεριφορών απάτης στο Twitter

see the original item page
in the repository's web site and access all digital files if the item*

2016 (EN)
Ανίχνευση συμπεριφορών απάτης στο Twitter

Παπαδόπουλος, Σωκράτης

The rapidly growing social network Twitter has been infiltrated in recent years by a large amount of spam, by fake accounts with malicious behaviour and by automated fraud campaigns to attract real people’s interest. In this paper, we firstly present and categorize relevant papers & research, their results, as well as an overview of the most important findings currently available in the field of fraud detection in Twitter. In the practical part of the paper, we developed a user classification model. Given a set of random Twitter users and information regarding their real-time activity and their user & content features, our classifier detects fraud behaviour on Twitter, classifying the set of users into “frauds” and “honest”. Using the API provided by Twitter we gathered a total of 5.4M users, 3.4M tweets and 7.3M retweets. Then, we analysed the collected data using statistical analysis techniques on the activity and accounts’ features, broadly studying the ones that offered information on proper distinction of frauds from the honest. At this point we introduced our innovation of the "time window" concept, which measures the real-time activity of users, and finally we investigated in-depth all points around the classification algorithms by comparing their performance with a set of evaluation metrics commonly used in machine learning and information retrieval. As a result of our work, we offer the fraud detection classifier FRAUD-D1, which achieved 87% accuracy in classification of samples of collected and evaluated datasets. Fraud detection is a very important area of research for ensuring the smooth operation of the ever growing internet as the number of people online constantly arises and being exposed to the risk of fraud. Indeed, over the years automated accounts show an increasingly sophisticated behaviour, constantly increasing the level of difficulty on their detection.
Το ραγδαία αναπτυσσόμενο κοινωνικό δίκτυο του Twitter κατακλύζεται τα τελευταία χρόνια από μεγάλη ποσότητα spam, από ψεύτικους λογαριασμούς με κακόβουλη συμπεριφορά και αυτοματοποιημένες εκστρατείες απάτης με σκοπό την προσέλκυση ενδιαφέροντος των ανθρώπων. Στα πλαίσια αυτής της διπλωματικής εργασίας, αρχικά παρουσιάζονται και κατηγοριοποιούνται σχετικές έρευνες, τα αποτελέσματα αυτών, καθώς και γίνεται μια επισκόπηση με τα πιο σημαντικά συμπεράσματα που συναντώνται αυτήν την στιγμή στο πεδίο της ανίχνευσης συμπεριφορών απάτης στο Twitter. Στο πρακτικό κομμάτι της εργασίας, αναπτύσσεται ένα μοντέλο κατηγοριοποίησης χρηστών, το οποίο βασιζόμενο στην δραστηριότητα των λογαριασμών σε πραγματικό χρόνο, αλλά και στα χαρακτηριστικά των λογαριασμών αυτών, ανιχνεύει συμπεριφορές απάτης στο Twitter, διαχωρίζοντας τους «ύποπτους» χρήστες από τους «κανονικούς». Με χρήση των API που παρέχονται από το Twitter συλλέξαμε συνολικά 5.4Μ χρήστες, 3.4Μ tweets και 7.3Μ retweets. Έπειτα, πραγματοποιήσαμε ανάλυση δεδομένων χρησιμοποιώντας τεχνικές στατιστικής ανάλυσης πάνω στην δραστηριότητα και τα χαρακτηριστικά των χρηστών, μελετώντας σε βάθος τα στοιχεία αυτά που προσφέρουν πληροφορία διαχωρισμού κανονικών-υπόπτων χρηστών. Στο σημείο αυτό για την μελέτη της δραστηριότητας των χρηστών σε πραγματικό χρόνο, εισάγουμε την καινοτομία των «παραθύρων χρόνου» και τέλος προβαίνουμε σε εκ βάθους διερεύνηση όλων των σημείων γύρω από τους αλγορίθμους κατηγοριοποίησης συγκρίνοντας την απόδοσή τους με ένα σύνολο κλασικών μετρικών αξιολόγησης που χρησιμοποιούνται συνήθως στη μηχανική μάθηση και την ανάκτηση πληροφορίας. Ως αποτέλεσμα της εργασίας προσφέρεται ο κατηγοριοποιητής FRAUD-D1, ο οποίος εφαρμόζεται για την διάκριση των υπόπτων συμπεριφορών από των κανονικών με ακρίβεια 87% σε δείγματα των συνόλων δεδομένων που συλλέξαμε και αξιολογήσαμε. Η ανίχνευση συμπεριφορών απάτης είναι ένα πολύ σημαντικό πεδίο έρευνας για την εύρυθμη λειτουργία του συνεχώς αναπτυσσόμενου διαδικτύου καθώς εντείνεται ο αριθμός των ανθρώπων που συνδέονται στο διαδίκτυο και εκτίθενται στον κίνδυνο. Πράγματι, με το πέρασμα των χρόνων οι αυτοματοποιημένοι λογαριασμοί παρουσιάζουν μια συνεχώς πιο εκλεπτυσμένη συμπεριφορά δυσχεραίνοντας όλο και πιο πολύ το έργο της ανίχνευσής τους.

Graduate Thesis / Πτυχιακή Εργασία

Retweet behaviour
Αλγόριθμοι κατηγοριοποίησης
Ανίχνευση απάτης
Classification algorithms
Συμπεριφορές retweet
Fraud detection

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)



Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)