Το Trip Advisor ως σώμα δεδομένων για την ανάλυση συναισθήματος με βάση την άποψη

Το τεκμήριο παρέχεται από τον φορέα :
Πανεπιστήμιο Αιγαίου   

Αποθετήριο :
Ιδρυματικό Αποθετήριο Ελλάνικος (Hellanicus)   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Το Trip Advisor ως σώμα δεδομένων για την ανάλυση συναισθήματος με βάση την άποψη
Trip advisor as a Corpus for Aspect Based Sentiment Analysis

Ξεκαλάκης, Αργύρης

Μαραγκουδάκης, Μανώλης

masterThesis

2017-11
2018-05-04T12:30:11Z

Σε αυτή την εργασία περιγράφoνται συνοπτικά και εκπαιδεύονται διάφοροι γνωστοί αλγόριθμοι μηχανικής μάθησης όπως ο Naïve Bayes, τα Νευρωνικά Δίκτυα, τα Βαθιά Νευρωνικά Δίκτυα, SVM και τα Gradient Boosted Trees(GBT) για να επιτευχθεί η ανάλυση του συναισθήματος, βασισμένη στην άποψη, αληθινών κριτικών για ξενοδοχεία από απλούς χρήστες του διαδικτυακού τόπου Tripadvisor (www.tripadvisor.com). Χρησιμοποιήθηκαν σε όλες τις περιπτώσεις τεχνικές μηχανικής μάθησης υπό επίβλεψη. Ιδιαίτερη έμφαση δίνεται στην ανάλυση της λειτουργίας των βαθέων νευρωνικών δικτύων και της μεθόδου deep learning, η οποία έδωσε και τα καλύτερα αποτελέσματα από το σύνολο των αλγορίθμων και μεθόδων μηχανικής μάθησης που χρησιμοποιήθηκαν αλλά και στο μοντέλο Word2Vec με την υλοποίηση ενός παραδείγματος. Σε όλες τις περιπτώσεις, ακόμα και στην μέθοδο deep learning, προηγήθηκε επιλογή των χαρακτηριστικών από κάθε πρόταση. Γίνεται γενική περιγραφή των περισσoτέρων μεθόδων επιλογής χαρακτηριστικών από την βιβλιογραφία, των διαφόρων κατηγοριών ανάλυσης συναισθήματος καθώς και περιγραφή των διαφόρων ειδών χαρακτηριστικών αλλά και των κατηγοριών πολικότητας που μπορεί να χαρακτηριστεί μια πρόταση με βάση το συναίσθημα που προκύπτει από αυτήν. Η εξαγωγή των επιμέρους προτάσεων από τις κριτικές ξενοδοχείων έγινε με την χρήση ενός εργαλείου που ονομάζεται Aylien API. Δημιουργήθηκε ένα αρχείο Microsoft Excel με τις αντίστοιχες στήλες που περιέχουν τον σύνδεσμο(link), από όπου προέρχεται η κριτική, το κείμενο της κριτικής, την μετάφραση του κειμένου στα ελληνικά, τον αύξοντα αριθμό της κριτικής και της κάθε αντίστοιχης επιμέρους πρότασης, την αντίστοιχη πρόταση, την κατηγορία ή άποψη που αυτή η πρόταση απευθύνεται και την αντίστοιχη πολικότητα του συναισθήματος της πρότασης. Δηλαδή, αν η πρόταση έχει θετικό, αρνητικό ή ουδέτερο συναίσθημα με βάση τα αποτελέσματα του Aylien API. Στην συνέχεια γίνεται σύγκριση μεταξύ των καλύτερων αποτελεσμάτων ταξινόμησης κάθε μιας από τις διάφορες μεθόδους μηχανικής μάθησης και των αποτελεσμάτων ταξινόμησης που προκύπτουν από το Aylien API. Από όλες τις δοκιμές, που έγιναν με 10-fold cross validation, κρατήθηκαν τα καλύτερα αποτελέσματα του συνδυασμού επιλογής χαρακτηριστικών και του κάθε αλγορίθμου μηχανικής μάθησης. Δημιουργήθηκαν οι αντίστοιχοι πίνακες(confusion matrices) για κάθε αλγόριθμο με τα μεγέθη precision, recall, accuracy και F-measure. H μέθοδος με τον αλγόριθμο SVM, παρά το γεγονός ότι έγιναν βελτιστοποιήσεις είχε τα χειρότερα αποτελέσματα, όσον αφορά την ακρίβεια και το F-measure και μάλιστα ήταν αισθητά χαμηλότερα και από τα αποτελέσματα του Aylien API. Τα GBT και ο Naïve Bayes έδωσαν εφάμιλλα αποτελέσματα αλλά τα GBT ελαφρώς χειρότερα από το Aylien API και τα Νευρωνικά Δίκτυα και τα Βαθιά Νευρωνικά Δίκτυα έδωσαν καλύτερα αποτελέσματα από το Aylien API.Τα καλύτερα αποτελέσματα, με βάση την ακρίβεια και το F-measure, επιτεύχθηκαν με την χρήση της μεθόδου TF-IDF για την επιλογή των όρων χαρακτηριστικών και την χρήση , όσον αφορά τον αλγόριθμο μηχανικής μάθησης, των βαθέων νευρωνικών δικτύων και της μεθόδου Deep Learning.
This thesis is about describing briefly and training several machine learning methods such as Naïve Bayes, Neural Networks, Deep Neural Networks, Support Vector Machines and Gradient Boosted Trees(GBT) in order to achieve sentiment analysis based on the aspect of real reviews that users posted to Tripadvisor website (www.tripadvisor.com), which were extracted with the use of Aylien API. Supervised machine learning techniques were used in all cases. Special emphasis is given to the case of deep neural networks and deep learning, which was the one that gave the best results, compared to all the other machine learning methods and algorithms that were used and to the Word2Vec model by implementing a practical example. In all cases, even in the case of the deep learning method, feature selection and extraction from each sentence was used. General description of the most feature selection methods from the bibliography is done. Additionally, short description is done of the several categories of sentiment analysis, of the several types of features and of the possible polarity values that can define a sentence based on the sentiment that is derived from it. The extraction of the sentences that derived from the hotel reviews was made with a tool called Aylien API. A Microsoft Excel file was created with respective columns that contained the link that the review came from, the text of the review, the translation of the text in the Greek language, the serial number of the review in the file and each of it’s respective sentences, the respective sentences themselves, the aspect that each sentence was addressed to and the respective sentiment polarity of each sentence; meaning if the sentence had positive, negative or neutral sentiment polarity based on the results of the Aylien API. Then, a comparison was made between the best classification results of each one of the several machine learning methods and the classification results that were derived from the Aylien API. From all the tests, which were made by using 10-fold cross validation, the best results of the combination of the feature selection choices and each machine learning algorithm were kept. The respective confusion matrices for each algorithm were created including the corresponding values of precision, recall, accuracy and F-measure. The machine learning method that the Support Vector Machines was used, had the worst results, despite the fact that optimizations were made, as far as accuracy and F-measure were concerned. In fact, those classification results were significantly lower in accuracy and F-measure values comparing to the Aylien API classification results. The Gradient Boosted Trees and Naïve Bayes gave similar results but the results of the first were slightly worse than the ones that came from the Aylien API. The Neural Networks and the Deep Learning Neural Networks produced clearly better results than the Aylien API. Finally, the best results, based on accuracy and F-measure, were achieved with the use of deep neural nets and deep learning method by using the TF-IDF method for the feature selection of the term vectors.

Neural networks (Computer science) (URL: http://id.loc.gov/authorities/subjects/sh90001937)
Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324)

Ανάλυση συναισθήματος
Μηχανική μάθηση
Μέθοδος βαθέας εκμάθησης
Deep learning
Sentiment analysis
Machine learning

Πανεπιστήμιο Αιγαίου - Πολυτεχνική Σχολή - Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων
Τεχνολογίες και Διοίκηση Πληροφοριακών και Επικοινωνιακών Συστημάτων
aegean

CC0 1.0 Παγκόσμια
http://creativecommons.org/publicdomain/zero/1.0/




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.