Ανίχνευση ψευδών ειδήσεων με την αξιοποίηση τεχνικών Μηχανικής Μάθησης και επεξεργασίας δεδομένων μεγάλου όγκου

This item is provided by the institution :
/aggregator-openarchives/portal/institutions/uoa   

Repository :
Pergamos Digital Library   

see the original item page
in the repository's web site and access all digital files if the item*



Ανίχνευση ψευδών ειδήσεων με την αξιοποίηση τεχνικών Μηχανικής Μάθησης και επεξεργασίας δεδομένων μεγάλου όγκου

Καράμπελα Αναστασία (EL)
Karampela Anastasia (EN)

born_digital_postgraduate_thesis
Διπλωματική Εργασία (EL)
Postgraduate Thesis (EN)

2021


Η ενημέρωση έχει εδραιωθεί στο διαδικτυακό χώρο και οι πολίτες τείνουν να ενημερώνονται ολοένα και περισσότερο από ειδησεογραφικές ιστοσελίδες και από τα μέσα κοινωνικής δικτύωσης, λαμβάνοντας καθημερινά έναν τεράστιο όγκο νέων πληροφοριών, των οποίων την προέλευση και εγκυρότητα συχνά αγνοούν. Από τη μία πλευρά, η εύκολη πρόσβαση σε μία ευρεία ποικιλία πηγών, η άφθονη και ταχεία διάδοση των πληροφοριών και το χαμηλό κόστος ικανοποιούν τις ανάγκες των ανθρώπων. Από την άλλη πλευρά, το διαδίκτυο μπορεί να μετατραπεί σε πρόσφορο έδαφος για την εξάπλωση της παραπληροφόρησης. Αυτή η εποχή των ψηφιακών πληροφοριών ενίσχυσε την παρουσία των ψευδών ειδήσεων, οι οποίες ως πληροφορίες κατασκευασμένες με πρόθεση να εξαπατήσουν το κοινό, έχουν σημαντικό αντίκτυπο στη διαμόρφωση των πεποιθήσεων των ανθρώπων. Η ανάγκη άμεσης ανίχνευσης πριν την ευρύτερη διασπορά τους καθίσταται απαραίτητη. Στη μάχη για την καταπολέμηση της παραπληροφόρησης συμβάλλει σημαντικά η πρακτική ελέγχου των γεγονότων που στοχεύει στην επαλήθευση των ειδήσεων και την προώθηση της αλήθειας. Η παρούσα έρευνα αποτελεί μία προσπάθεια επίλυσης του φαινομένου των ψευδών ειδήσεων βασισμένη στην επιστήμη των υπολογιστών. Αρχικά, συλλέχθηκε αυτόματα ένα σύνολο έγκυρων και αναξιόπιστων ειδησεογραφικών άρθρων στην αγγλική γλώσσα και διερευνήθηκαν, με τη χρήση τεχνικών επεξεργασίας της φυσικής γλώσσας, τα γλωσσικά χαρακτηριστικά των κειμένων. Στη συνέχεια, για τη δημιουργία ενός συστήματος κατηγοριοποίησης των ειδήσεων σε ψευδείς και αληθείς, αξιοποιήθηκαν τα συγκεκριμένα χαρακτηριστικά ως εκπαίδευση σε αλγόριθμους Επιβλεπόμενης Μηχανικής Μάθησης. Συγκεκριμένα, αξιολογήθηκε η ακρίβεια πρόβλεψης των αλγόριθμων Δέντρο Απόφασης και Τυχαίο Δάσος. Όλα τα στάδια του συστήματος υλοποιήθηκαν σε γλώσσα προγραμματισμού Python καθώς κρίθηκε κατάλληλη για την ανάλυση δεδομένων σε μορφή κειμένου. (EL)
Nowadays, with journalism being well-established on the internet, people tend to get informed regularly through journalistic websites and social media. As a result, they receive a large volume of news daily, without necessarily questioning the origin or the validity of that information. On the one hand, the easy access to a wide variety of sources, the abundance and quick distribution of information, and the low cost associated with that, can fulfil effectively the needs of the audience. On the other hand, the internet can serve as a breeding ground for the spread of misinformation. The era of digital information has reinforced the presence of fake news, which are information specifically constructed with the purpose of misleading the audience and making an impact on the public opinion. There is a clear need for an immediate way of tracking fake news before they become widely spread. One of the most important tools in the battle against misinformation is the practicing of fact-checking, which aims to verify the news and to promote the truth. This study attempts to provide a solution to the fake news phenomenon with the help of computer science. At first, a large set of both credible and untrustworthy journalistic articles in English language was automatically collected, and their linguistic features were investigated with the use of Natural Language Processing. Then, for the creation of a classification system which is able to distinguish real from fake news, these features were used as training data for the Supervised Machine Learning Algorithms. Specifically, the prediction accuracy of the algorithms Decision Tree and Random Forest was evaluated. The programming language used for all the stages of this system was Python, as it was deemed the most suitable for the analysis of data in the form of text. (EN)

Κοινωνικές, Πολιτικές και Οικονομικές επιστήμες

Κοινωνικές, Πολιτικές και Οικονομικές επιστήμες (EL)
Social, Political and Economic sciences (EN)

Greek

Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Οικονομικών και Πολιτικών Επιστημών » Βιβλιοθήκη Πολιτικής Επιστήμης και Δημόσιας Διοίκησης - Επικοινωνίας και Μέσων Μαζικής Ενημέρωσης - Τουρκικών Σπουδών και Σύγχρονων Ασιατικών Σπουδών - Κοινωνιολογίας
Σχολή Οικονομικών και Πολιτικών Επιστημών » Τμήμα Επικοινωνίας και Μέσων Μαζικής Ενημέρωσης » ΠΜΣ Ψηφιακά Μέσα Επικοινωνίας και Περιβάλλοντα Αλληλεπίδρασης » Κατεύθυνση Ψηφιακά Μέσα Επικοινωνίας και Περιβάλλοντα Αλληλεπίδρασης

https://creativecommons.org/licenses/by-nc/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)