Ανάλυση Συναισθημάτων Κειμένου σε Hadoop & Spark

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Ανάλυση Συναισθημάτων Κειμένου σε Hadoop & Spark

Μήλας, Αλέξανδρος

Σχολή Μηχανικών
Pantziou, Grammati
Mamalis, Basilis
Skourlas, Christos
Τμήμα Μηχανικών Πληροφορικής και Υπολογιστών

Διπλωματική εργασία

2021-03-01

2021-03-13T08:47:53Z


Τα τελευταία χρόνια που ο όγκος των απαιτούμενων προς επεξεργασία δεδομένων σε (εμπορικά, ερευνητικά, και άλλα) συστήματα ολοένα και αυξάνεται, υπάρχει έντονο ενδιαφέρον σε ό,τι αφορά την τις τεχνικές διαχείρισης αυτού του όγκου με αποδοτικό τρόπο και ικανοποιητικά αποτελέσματα. Μία από τις τεχνικές που προτιμούνται για τέτοια συστήματα είναι η επεξεργασία όγκου δεδομένων στην κλίμακα των big data χρησιμοποιώντας κοινά διαθέσιμο εξοπλισμό που βρίσκεται εύκολα στο εμπόριο για να σχεδιαστεί και εφαρμοστεί μια δομή κατανεμημένου περιβάλλοντος. Σκοπός αυτής της προσπάθειας είναι να υποστηρίζεται η παράλληλη εκτέλεση εργασιών για διαφορετικά κομμάτια δεδομένων, ώστε να επιτευχθεί μία επιτάχυνση του χρόνου ολοκλήρωσης, καθώς και καλύτερη συμπεριφορά κλιμάκωσης ανάλογα με το μέγεθος των δεδομένων που δίνονται στην είσοδο, σε σχέση με κοινές σειριακές υλοποιήσεις. Ένα προγραμματιστικό μοντέλο στο οποίο βασίζονται συστήματα τέτοιου είδους είναι αυτό του MapReduce, το οποίο στηρίζεται σε αλληλουχίες δύο απλών λειτουργιών πάνω στα δεδομένα και μπορεί να εφαρμοστεί με ευκολία πάνω στις ανάγκες μια συγκεκριμένης επεξεργασίας, είτε μέσω μίας τοπικής υποδομής είτε κάνοντας χρήση υπηρεσιών απομακρυσμένων πόρων όπως γίνεται στον χώρο του cloud computing. Η ελεύθερα διατεθειμένη σαν λογισμικό ανοικτού κώδικα πλατφόρμα του Apache Hadoop είναι από τις πιο γνωστές πάνω στην υποστήριξη MapReduce εργασιών, δίνοντας με την δημοφιλία του το έναυσμα για την υλοποίηση χρήσιμων επεκτάσεων που είτε βασίζονται εξ ολοκλήρου στην δομή του είτε καινοτομούν πέρα αυτού για την βελτίωση της εκτέλεσης συγκεκριμένων εφαρμογών. Μία από τις τελευταίες αυτές επεκτάσεις είναι εκείνη του Apache Spark, όπου δίνεται προτεραιότητα στην επεξεργασία μέσα στην κύρια μνήμη έναντι του δίσκου και υποστηρίζεται μια πληθώρα χρήσιμων υλοποιήσεων στις βιβλιοθήκες του. Μία από τις εργασίες που μπορούν να βρουν εφαρμογή οι δύο εν λόγω πλατφόρμες είναι εκείνη της εξόρυξης κειμένου και πιο συγκεκριμένα της ανάλυσης συναισθημάτων κειμένου, όπου επιχειρείται να προσδιοριστεί με χρήση τεχνικών μηχανικής μάθησης το συναισθηματικό πρόσημο που χαρακτηρίζει κάθε έγγραφο μέσω ενός μοντέλου. Κύριος σκοπός της παρούσας εργασίας είναι η διερεύνηση και ανάπτυξη εφαρμογών που υλοποιούν τα μοντέλα αλγορίθμων κατηγοριοποίησης δειγμάτων (όπως είναι εκείνος των Naïve Bayes και Support Vector Machines) στις πλατφόρμες των Hadoop και Spark αλλά και η δοκιμή τροποποιημένων εκδοχών αυτών, ώστε να εξεταστούν τα αποτελέσματα τους σε πειραματικό περιβάλλον από άποψη αποτελεσματικότητας και παράλληλης εκτέλεσης και εν τέλει να αξιολογηθούν βάσει ενδεικτικών σεναρίων χρήσης.


Ανάλυση συναισθήματος
Naïve Bayes
Εξόρυξη Κειμένου
Text Classification
Text Mining
Sentiment Analysis
Support Vector Machines
Apache Hadoop
Apache Spark
MapReduce
Κατηγοριοποίηση Κειμένου

Ελληνική γλώσσα

Πανεπιστήμιο Δυτικής Αττικής

ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ - Τμήμα Μηχανικών Πληροφορικής και Υπολογιστών - Διπλωματικές εργασίες

http://creativecommons.org/licenses/by-nc-sa/4.0/
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.