Η ενημέρωση έχει εδραιωθεί στο διαδικτυακό χώρο και οι πολίτες τείνουν να ενημερώνονται
ολοένα και περισσότερο από ειδησεογραφικές ιστοσελίδες και από τα μέσα κοινωνικής
δικτύωσης, λαμβάνοντας καθημερινά έναν τεράστιο όγκο νέων πληροφοριών, των οποίων την
προέλευση και εγκυρότητα συχνά αγνοούν. Από τη μία πλευρά, η εύκολη πρόσβαση σε μία
ευρεία ποικιλία πηγών, η άφθονη και ταχεία διάδοση των πληροφοριών και το χαμηλό κόστος
ικανοποιούν τις ανάγκες των ανθρώπων. Από την άλλη πλευρά, το διαδίκτυο μπορεί να
μετατραπεί σε πρόσφορο έδαφος για την εξάπλωση της παραπληροφόρησης. Αυτή η εποχή
των ψηφιακών πληροφοριών ενίσχυσε την παρουσία των ψευδών ειδήσεων, οι οποίες ως
πληροφορίες κατασκευασμένες με πρόθεση να εξαπατήσουν το κοινό, έχουν σημαντικό
αντίκτυπο στη διαμόρφωση των πεποιθήσεων των ανθρώπων. Η ανάγκη άμεσης ανίχνευσης
πριν την ευρύτερη διασπορά τους καθίσταται απαραίτητη. Στη μάχη για την καταπολέμηση
της παραπληροφόρησης συμβάλλει σημαντικά η πρακτική ελέγχου των γεγονότων που
στοχεύει στην επαλήθευση των ειδήσεων και την προώθηση της αλήθειας. Η παρούσα έρευνα
αποτελεί μία προσπάθεια επίλυσης του φαινομένου των ψευδών ειδήσεων βασισμένη στην
επιστήμη των υπολογιστών. Αρχικά, συλλέχθηκε αυτόματα ένα σύνολο έγκυρων και
αναξιόπιστων ειδησεογραφικών άρθρων στην αγγλική γλώσσα και διερευνήθηκαν, με τη
χρήση τεχνικών επεξεργασίας της φυσικής γλώσσας, τα γλωσσικά χαρακτηριστικά των
κειμένων. Στη συνέχεια, για τη δημιουργία ενός συστήματος κατηγοριοποίησης των ειδήσεων
σε ψευδείς και αληθείς, αξιοποιήθηκαν τα συγκεκριμένα χαρακτηριστικά ως εκπαίδευση σε
αλγόριθμους Επιβλεπόμενης Μηχανικής Μάθησης. Συγκεκριμένα, αξιολογήθηκε η ακρίβεια
πρόβλεψης των αλγόριθμων Δέντρο Απόφασης και Τυχαίο Δάσος. Όλα τα στάδια του
συστήματος υλοποιήθηκαν σε γλώσσα προγραμματισμού Python καθώς κρίθηκε κατάλληλη
για την ανάλυση δεδομένων σε μορφή κειμένου.
(EL)
Nowadays, with journalism being well-established on the internet, people tend to get informed
regularly through journalistic websites and social media. As a result, they receive a large
volume of news daily, without necessarily questioning the origin or the validity of that
information. On the one hand, the easy access to a wide variety of sources, the abundance and
quick distribution of information, and the low cost associated with that, can fulfil effectively
the needs of the audience. On the other hand, the internet can serve as a breeding ground for
the spread of misinformation. The era of digital information has reinforced the presence of fake
news, which are information specifically constructed with the purpose of misleading the
audience and making an impact on the public opinion. There is a clear need for an immediate
way of tracking fake news before they become widely spread. One of the most important tools
in the battle against misinformation is the practicing of fact-checking, which aims to verify the
news and to promote the truth. This study attempts to provide a solution to the fake news
phenomenon with the help of computer science. At first, a large set of both credible and
untrustworthy journalistic articles in English language was automatically collected, and their
linguistic features were investigated with the use of Natural Language Processing. Then, for
the creation of a classification system which is able to distinguish real from fake news, these
features were used as training data for the Supervised Machine Learning Algorithms.
Specifically, the prediction accuracy of the algorithms Decision Tree and Random Forest was
evaluated. The programming language used for all the stages of this system was Python, as it
was deemed the most suitable for the analysis of data in the form of text.
(EN)