Εξόρυξη πληροφορίας και ανάλυση συναισθήματος με χρήση μεθόδων μηχανικής μάθησης και σύγχρονων μοντέλων επεξεργασίας φυσικής γλώσσας

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Εξόρυξη πληροφορίας και ανάλυση συναισθήματος με χρήση μεθόδων μηχανικής μάθησης και σύγχρονων μοντέλων επεξεργασίας φυσικής γλώσσας (EL)

Καμπατζής, Αριστοτέλης (EL)
Σαρόγλου, Στυλιανός (EL)

Διαμαντάρας, Κωνσταντίνος (EL)

masterThesis
Μεταπτυχιακή εργασία (EL)
Master thesis (EN)

2023-07-11
2024-08-26T22:38:52Z
2024-10-07T13:22:13Z


Μεταπτυχιακή εργασία - Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων, 2023 (α/α 14053) (EL)
Η εξόρυξη πληροφορίας και η ανάλυση συναισθημάτων σε κείμενα, είναι δύο σημαντικά πεδία στην επιστήμη της πληροφορικής και της τεχνητής νοημοσύνης. Αποτελούν ένα σημαντικό εργαλείο για την κατανόηση των στάσεων και των απόψεων που εκφράζονται σε κοινωνικά δίκτυα όπως το Twitter. Η χρήση μεθόδων μηχανικής μάθησης και σύγχρονων μοντέλων επεξεργασίας φυσικής γλώσσας επιτρέπει την αυτόματη ανάλυση του περιεχομένου κειμένων και την εξαγωγή σημαντικών πληροφοριών από αυτά, προσφέροντας παράλληλα ακρίβεια και ευκολία στην εξαγωγή συμπερασμάτων. Στην παρούσα εργασία, αξιοποιούμε την χρήση του Twitter API για την συλλογή δεδομένων από το Twitter, σε συνδυασμό με την χρήση μεθόδων επεξεργασίας φυσικής γλώσσας (NLP). Ειδικότερα, χρησιμοποιούμε μοντέλα μηχανικής μάθησης της βιβλιοθήκης Scikit-learn, καθώς και πιο μοντέρνα μοντέλα όπως τα BERT, RoBERTa, DistilBERT και GPT-2 με σκοπό την αναγνώριση συναισθημάτων σε κείμενα (tweets) του κοινωνικού δικτύου Twitter, καθώς και σε κριτικές καταστημάτων που περιέχονται σε σύνολο δεδομένων της διαδικτυακής υπηρεσίας Skroutz. Σύμφωνα με τα πειράματά μας, τα μοντέλα που σημειώνουν την καλύτερη απόδοση όσον αφορά την ακρίβεια (accuracy) πρόβλεψης σε νέα δεδομένα, είναι το BERT και το SVM σε συνδυασμό με την κωδικοποίηση TF-IDF. (EL)
Data Mining and Sentiment Analysis in texts are two important fields in Computer Science and Artificial Intelligence. They are a valuable tool for understanding attitudes and opinions expressed on social networks, such as Twitter. The use of Machine Learning methods and modern Natural Language Processing models allows for the automatic analysis of text content and the extraction of important information, while also offering, accuracy and convenience in drawing conclusions. In this paper, we utilize the Twitter API for data collection from Twitter, in combination with Natural Language Processing (NLP) methods. Specifically, we use Machine Learning models from the Scikit-learn library, as well as more modern models, such as BERT, RoBERTa, DistilBERT, and GPT-2, with the aim of identifying sentiment in text from the Twitter social network, as well as in reviews of stores contained in a specific dataset from the Skroutz.gr online service. According to our experiments, the models that show the best performance in terms of accuracy for predicting on new data, are BERT and SVM combined with the TF-IDF encoding. (EN)


Βαθιά μάθηση (EL)
Μηχανική μάθηση (EL)
Επεξεργασία φυσικής γλώσσας (EL)
DistilBERT (EN)
Twitter API (EN)
Scikit learn (EN)
Deep learning (EN)
NLP (EN)
PyTorch (EN)
RoBERTa (EN)
Machine learning (EN)
TF-IDF (EN)
Word2Vec (EN)
Transformers (EN)
BERT (EN)
Keras (EN)
GPT-2 (EN)
TensorFlow (EN)

Ελληνική γλώσσα

Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων (EL)

Default License




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.