Ανάπτυξη αλγορίθμων εξόρυξης γνώσης από κείμενα στην πλατφόρμα Spark

 
This item is provided by the institution :
Harokopio University
Repository :
Library & Information Center ESTIA
see the original item page
in the repository's web site and access all digital files if the item*
share
2016 (EN)
Ανάπτυξη αλγορίθμων εξόρυξης γνώσης από κείμενα στην πλατφόρμα Spark

Κοντόπουλος, Ιωάννης

Ο όγκος δεδομένων συνεχώς αυξάνεται, συνεπώς είναι αναγκαίο να αναπτυχθούν τρόποι εξαγωγής ή εξόρυξης γνώσης από αυτά. Ένας τομέας που είναι απαραίτητη η εξόρυξη γνώσης είναι η επεξεργασία φυσική γλώσσα. Στον τομέα αυτόν έχουν αναπτυχθεί πολλές μεθοδολογίες και μία εξ αυτών είναι η επεξεργασία κειμένων με τη χρήση των γράφων ν-γραμμάτων, οι οποίοι έχουν αποδειχθεί αποτελεσματικοί σε προβλήματα κατηγοριοποίησης ή ομαδοποίησης. Σε αυτήν την πτυχιακή χρησιμοποιήθηκαν αυτοί οι γράφοι για να εξαχθούν περιλήψεις από πολλά κείμενα, κάτι που είναι σημαντικό όταν θέλουμε να καταλάβουμε με λίγα λόγια τι περιγράφει ο τεράστιος όγκος των κειμένων που υπάρχουν σήμερα. Επίσης, χρησιμοποιήθηκαν τεχνικές οι οποίες μπόρεσαν να κατανεμηθούν σε πολλούς υπολογιστές ή πυρήνες, έτσι ώστε ο χρόνος εξαγωγής των περιλήψεων να μειωθεί στο ελάχιστο. Για την υλοποίηση των παράλληλων τεχνικών αυτών χρησιμοποιήθηκε η πλατφόρμα Apache Spark με τη γλώσσα συναρτησιακού προγραμματισμού Scala. Μετά την υλοποίηση της μεθοδολογίας για εξαγωγή περιλήψεων έγιναν πειράματα με σκοπό να δείξουν πως μειώνεται ο χρόνος εκτέλεσης όταν αυξάνεται ο αριθμός των πυρήνων που χρησιμοποιείται. Τα πειράματα έδειξαν ότι όντως το πρόβλημα παραλληλοποιήθηκε επιτυχώς και ότι η εφαρμογή που αναπτύχθηκε στα πλαίσια αυτής της πτυχιακής αποδίδει καλύτερα με τη χρήση πολλών πυρήνων. Τέλος, τα πειράματα έδειξαν επίσης ότι για να μπορέσουν οι περισσότεροι πυρήνες να μειώσουν τον χρόνο εκτέλεσης θα πρέπει τα κείμενα να είναι τεράστια και να ελλαποτελούνται από πολλές προτάσεις.

graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

Γράφοι
Επεξεργασία Φυσικής Γλώσσας
Αλγόριθμοι
Εξόρυξη Δεδομένων
Κατανεμημένη Επεξεργασία

Χαροκόπειο Πανεπιστήμιο (EL)
Harokopio University (EN)

2016-07-12


Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)