Ανάπτυξη αλγορίθμων εξόρυξης γνώσης από κείμενα στην πλατφόρμα Spark

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Βιβλιοθήκη και Κέντρο Πληροφόρησης ΕΣΤΙΑ
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2016 (EL)

Ανάπτυξη αλγορίθμων εξόρυξης γνώσης από κείμενα στην πλατφόρμα Spark

Κοντόπουλος, Ιωάννης, Νικόλαος

Ο όγκος δεδομένων συνεχώς αυξάνεται, συνεπώς είναι αναγκαίο να αναπτυχθούν τρόποι εξαγωγής ή εξόρυξης γνώσης από αυτά. Ένας τομέας που είναι απαραίτητη η εξόρυξη γνώσης είναι η επεξεργασία φυσική γλώσσα. Στον τομέα αυτόν έχουν αναπτυχθεί πολλές μεθοδολογίες και μία εξ αυτών είναι η επεξεργασία κειμένων με τη χρήση των γράφων ν-γραμμάτων, οι οποίοι έχουν αποδειχθεί αποτελεσματικοί σε προβλήματα κατηγοριοποίησης ή ομαδοποίησης. Σε αυτήν την πτυχιακή χρησιμοποιήθηκαν αυτοί οι γράφοι για να εξαχθούν περιλήψεις από πολλά κείμενα, κάτι που είναι σημαντικό όταν θέλουμε να καταλάβουμε με λίγα λόγια τι περιγράφει ο τεράστιος όγκος των κειμένων που υπάρχουν σήμερα. Επίσης, χρησιμοποιήθηκαν τεχνικές οι οποίες μπόρεσαν να κατανεμηθούν σε πολλούς υπολογιστές ή πυρήνες, έτσι ώστε ο χρόνος εξαγωγής των περιλήψεων να μειωθεί στο ελάχιστο. Για την υλοποίηση των παράλληλων τεχνικών αυτών χρησιμοποιήθηκε η πλατφόρμα Apache Spark με τη γλώσσα συναρτησιακού προγραμματισμού Scala. Μετά την υλοποίηση της μεθοδολογίας για εξαγωγή περιλήψεων έγιναν πειράματα με σκοπό να δείξουν πως μειώνεται ο χρόνος εκτέλεσης όταν αυξάνεται ο αριθμός των πυρήνων που χρησιμοποιείται. Τα πειράματα έδειξαν ότι όντως το πρόβλημα παραλληλοποιήθηκε επιτυχώς και ότι η εφαρμογή που αναπτύχθηκε στα πλαίσια αυτής της πτυχιακής αποδίδει καλύτερα με τη χρήση πολλών πυρήνων. Τέλος, τα πειράματα έδειξαν επίσης ότι για να μπορέσουν οι περισσότεροι πυρήνες να μειώσουν τον χρόνο εκτέλεσης θα πρέπει τα κείμενα να είναι τεράστια και να ελλαποτελούνται από πολλές προτάσεις.

graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

Γράφοι
Επεξεργασία Φυσικής Γλώσσας
Αλγόριθμοι
Εξόρυξη Δεδομένων
Κατανεμημένη Επεξεργασία


2016-07-12


Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.