Μελέτη και υλοποίηση τεχνικών αυτόματης εξαγωγής σημαντικών φράσεων-λέξεων από κείμενο

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Μελέτη και υλοποίηση τεχνικών αυτόματης εξαγωγής σημαντικών φράσεων-λέξεων από κείμενο

Πιερράτου, Ελευθερία

Δημόκας Νικόλαος

MSc Thesis

2024-09-25T09:49:44Z
2024-09


Στην παρούσα πτυχιακή εργασία παρουσιάζονται τα αποτελέσματα εκτενούς βιβλιογραφικής έρευνας, καθώς και αλγόριθμοι που αναπτύχθηκαν σχετικά με τις μεθόδους υλοποίησης τεχνικών αυτόματης εξαγωγής σημαντικών λέξεων και φράσεων από κείμενα. Η εργασία αναπτύσσεται σε τέσσερα κεφάλαια. Στο 1 o κεφάλαιο παρουσιάζονται οι λόγοι που καθιστούν σημαντικό το αντικείμενο της εργασίας καθώς και τα προβλήματα με τα οποία σχετίζεται. Στο 2 o κεφάλαιο παρουσιάζονται οι βασικές έννοιες, μέθοδοι και τεχνικές που σχετίζονται με το αντικείμενο της εργασίας. Στόχος είναι να κατανοηθούν σύνθετοι ορισμοί και στοιχεία, με έμφαση στα word embeddings και τα Transformers, καθώς αυτά τα δύο σχετίζονται με τις τεχνικές Word2vec και BERT, αντίστοιχα, η μελέτη των οποίων αφορά το κύριο μέρος της εργασίας. Οι δύο αυτές τεχνικές, Word2Vec και BERT, παρουσιάζονται εκτενώς και αναπτύσσεται η λειτουργία τους και τα μοντέλα που χρησιμοποιούν. Σε ό,τι αφορά το Word2Vec, παρουσιάζονται τα μοντέλα CBOW και Skip-Gram, που εστιάζουν στη δημιουργία πολυδιάστατων διανυσμάτων για την αναπαράσταση των λέξεων με βάση τα συμφραζόμενα. Σε ό,τι αφορά το BERT, ως πιο σύγχρονη τεχνική που εκμεταλλεύεται το μετασχηματιστικό μοντέλο (Transformer), μελετάται το πώς η τεχνική επιχειρεί να κατανοήσει τη σημασία των λέξεων στο ευρύτερο πλαίσιο της πρότασης. Στο 3 o κεφάλαιο, προκειμένου να κατανοηθεί καλύτερα η τεχνική Word2vec, δίνονται παραδείγματα κώδικα με εφαρμογές στην γλώσσα προγραμματισμού Python. Κάθε παράδειγμα εξετάζει διαφορετική περίπτωση λειτουργίας της τεχνικής Word2vec, παρουσιάζοντας στην πράξη τις δυνατότητες και τα πλεονεκτήματα της αυτόματης εξαγωγής σημαντικών λέξεων και φράσεων από κείμενα. Επίσης, γίνε ται σύγκριση της απόδοσης και της ακρίβειας των δύο μοντέλων εφαρμογής της τεχνικής Word2vec. Τέλος, στο 4 o κεφάλαιο παρουσιάζονται αποτελέσματα και συμπεράσματα που προκύπτουν και αφορούν τα πλεονεκτήματα και μειονεκτήματα των δύο τεχνικών και των μοντέλων που τις υποστη ρίζουν. ΄Οπως προκύπτει από τις εφαρμογές κώδικα που αναπτύχθηκαν, η επιλογή της κατάλληλης τεχνικής εξαρτάται από τις απαιτήσεις της κάθε εφαρμογής, με το Word2Vec να είναι ιδανικό για εφαρμογές που απαιτούν ταχύτητα και απόδοση, και το BERT να είναι προτιμητέο για εργασίες που απαιτούν βαθύτερη ανάλυση γλωσσικών δομών. Εν κατακλείδι, η υλοποίηση των τεχνικών αυτών μπορεί να προσφέρει πολύτιμες λύσεις σε ένα ευρύ φάσμα εφαρμογών, από τη βελτίωση των μηχανών αναζήτησης μέχρι την ανάλυση κειμένων σε επιχειρηματικό ή επιστημονικό πλαίσιο. This thesis presents the results of an extensive literature research, as well as algorithms devel oped on the methods of implementing techniques for automatic extraction of important words and phrases from texts. The thesis is developed in four chapters. Chapter 1 presents the reasons that make the subject of the thesis important and the problems to which it is related. Chapter 2 presents the basic concepts, methods and techniques related to the subject of the thesis. The aim is to understand complex definitions and elements, with a focus on word embeddings and Transformers, as these two are related to the Word2vec and BERT techniques, respectively, the study of which is the main part of the thesis. These two techniques, Word2Vec and BERT, are extensively presented and their operation and the models they use are developed. As far as Word2Vec is concerned, the CBOW and Skip-Gram models are presented, which focus on the generation of multidimensional vectors for the contextual representation of words. As for BERT, as a more modern technique exploiting the Transformer model, it is studied how the technique attempts to understand the meaning of words in the broader context of the sentence. In chapter 3, in order to better understand the Word2vec technique, code examples with appli cations in the Python programming language are given. Each example examines a different case of the Word2vec technique, demonstrating in practice the capabilities and advantages of automat ically extracting important words and phrases from text. The performance and accuracy of the two implementation models of the Word2vec technique are also compared. Finally, Chapter 4 presents the results and conclusions obtained concerning the advantages and disadvantages of the two techniques and the supporting models. As can be seen from the code applications developed, the choice of the appropriate technique depends on the requirements of each application, with Word2Vec being ideal for applications requiring speed and performance, and BERT being preferable for tasks requiring deeper analysis of language structures. In conclusion, the implementation of these techniques can provide valuable solutions in a wide range of applications, from search engine enhancement to text analysis in a business or scientific context


Word2vec
Skip-Gram
Natural Language Processing
CBOW
BERT

Ελληνική γλώσσα

Πανεπιστήμιο Δυτικής Μακεδονίας. Σχολή Θετικών Επιστημών. Τμήμα Μαθηματικών





*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.