Συλλογή δεδομένων και εξόρυξη γνώσης από κοινωνικά δίκτυα : εφαρμογή data analysis τεχνικών σε σύνολα δεδομένων από το κοινωνικό δίκτυο Twitter

 
This item is provided by the institution :

Repository :
Dione
see the original item page
in the repository's web site and access all digital files if the item*
share




2016 (EN)

Data mining and knowledge discovery from social media : implementation data analysis methods on data collection from Twitter
Συλλογή δεδομένων και εξόρυξη γνώσης από κοινωνικά δίκτυα : εφαρμογή data analysis τεχνικών σε σύνολα δεδομένων από το κοινωνικό δίκτυο Twitter

Τσούμας, Ηλίας

Δουλκερίδης, Χρήστος
Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων

Η πτυχιακή αυτή εργασία πραγματοποιήθηκε στο πλαίσιο του προπτυχιακού προγράμματος σπουδών του τμήματος Ψηφιακών Συστημάτων του Πανεπιστημίου Πειραιώς. Καθότι ένα τμήμα με πρόγραμμα σπουδών κυρίως προσανατολισμένο στους κλάδους των Δικτυοκεντρικών Συστημάτων και Υπηρεσιών και των Τηλεπικοινωνιακών Συστημάτων και Δικτύων και με σκοπό την ανάδειξη εξειδικευμένων επιστημόνων ικανών να συμβάλλουν στην ανάπτυξη, υλοποίηση και διαχείριση συστημάτων σύγχρονης ψηφιακής τεχνολογίας, επιλέχθηκε για την ολοκλήρωση του ένα θέμα γύρω από το σχετικά νεοσύστατο κλάδο των μεγάλων δεδομένων, της διαχείρισης αυτών και κυρίως της εξόρυξης γνώσης από τον παγκόσμιο ιστό και ειδικότερα τα κοινωνικά δίκτυα. Ζούμε σε μια εποχή που οι άνθρωποι αφιερώνουν σημαντικότατο μέγεθος του χρόνου τους στα κοινωνικά δίκτυα, όπου καταναλώνουν αλλά και παράγουν ασύλληπτα, για παλαιότερες εποχές, μεγέθη πληροφορίας. Η διαχείριση όλης αυτής της πληροφορίας έχει πολύπλευρα ωφέλη. Με την κατάλληλη επεξεργασία μπορούμε να εξάγουμε πολύτιμη γνώση και συμπεράσματα σχεδόν για τις περισσότερες εκφάνσεις της ανθρώπινης δραστηριότητας μιας και έχουμε να κάνουμε με πληροφορίες που γεννιούνται από ένα τεράστιο και πολύμορφο πληθυσμό ατόμων σε ένα περιβάλλον που ομοιάζει αρκετά ως προς αυτό της πραγματικής κοινωνίας. Την λύση σε αυτό το πρόβλημα εξόρυξης των δεδομένων και εξαγωγής γνώσης από αυτά έρχονται να δώσουν οι κλάδοι της πληροφορικής “data mining”, “data analysis”. Στην παρούσα εργασία θα ασχοληθούμε αρχικά με την εξαγωγή δεδομένων από το κοινωνικό δίκτυο twitter και έπειτα με την απαιτούμενη επεξεργασία αυτών ώστε με αυτά να τροφοδοτήσουμε αλγορίθμους machine learning ώστε να μπορέσουμε να έχουμε μια αυτόματη ομαδοποίηση των δεδομένων βάσει του περιεχομένου τους. Τέλος θα ακουμπήσουμε λίγο τον τομέα του “topic detection” ώστε με τα εργαλεία που δίνει να βγάλουμε στην επιφάνεια τις κρυμμένες ενότητες που ενυπάρχουν στις συλλογές δεδομένων μας.
This thesis was carried out as part of the undergraduate degree program Digital Systems, University of Piraeus, a curriculum mainly oriented in the sectors of Network-Oriented and Telecommunication Systems and Services aiming to develop future scientists capable of contributing to the development, implementation and management of modern digital systems. To this end, subject of the thesis is related to the newly developed domain of Big Data, their management and knowledge extraction from the web and especially social networks. We live in an age where people devote an important amount of their time on social networks, where they consume and produce unimaginable for earlier times, information sizes. The management of all this information has multifaceted benefits. With proper treatment of the data, we can extract valuable knowledge and conclusions almost for most aspects of human activity, as the disclosed information comes from a huge and diverse population of individuals in an environment that is similar enough to the real society. The solution to the problem of knowledge extraction from data comes from the IT industry and more specifically with the technologies of “data mining” and “data analysis”. In this document we will first present how we can export data from the social network Twitter, followed by processing them in order to able to “feed” machine learning algorithms and cluster the data according to their content. In the end we will deal with “topic detection”, i.e. a number of tools provided in order to discover hidden themes and concepts from out data collections.

Bachelor Dissertation

K-means
Data analysis
Social media
Ανάλυση δεδομένων
Twitter
Data mining
Clustering
Non-negative Matrix Factorization (NMF)
Συσταδοποίηση
Ward
Ιεραρχική ανάλυση
Εξόρυξη γνώσης
Κοινωνικά δίκτυα
Agglomerative clustering


Greek

2016-09
2017-03-01T10:41:16Z


Πανεπιστήμιο Πειραιώς

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)