Εξαγωγή και αναπαράσταση γνώσης από αδόμητα κείμενα βασισμένη σε γράφους και τεχνικές μηχανικής μάθησης

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Graph-based knowledge representation and extraction from unstructured textual data using machine learning algorithms
Εξαγωγή και αναπαράσταση γνώσης από αδόμητα κείμενα βασισμένη σε γράφους και τεχνικές μηχανικής μάθησης

Kanakaris, Nikolaos
Κανακάρης, Νικόλαος

PhD Thesis

2023


In this dissertation, we build upon existing graph-based text representation models and introduce a novel one to represent multiple textual documents as a single graph, namely, the graph-of-docs text representation. As opposed to existing graph-based text representations, graph-of-docs enables the investigation of the importance of a term into a whole corpus of documents, masks the overall complexity by reducing each graph of words to a ‘document’ node, and supports the inclusion of relationship edges between documents. Hence, it enables the calculation of important metrics with respect to multiple documents and allows heterogeneous data to co-exist in a single graph. Along with the introduction of the graph-of-docs model, this dissertation proposes and empirically evaluates the combination of word embeddings, graph-based text representations and graph neural networks to advance classical machine learning tasks, including text classification, regression, feature engineering and feature selection. We conduct several experiments on diverse datasets from different domains, settings and applications, aiming to evaluate the proposed approach. Among others, these datasets are related to (i) personnel selection, (ii) the identification of software bugs, (iii) the prediction of future research collaborations, (iv) the price prediction for Airbnb listings. The evaluation results demonstrate a significant improvement in terms of accuracy, precision and recall of the proposed models compared to various classical and graph-based counterparts.
Η παρούσα διατριβή επεκτείνει υπάρχοντα μοντέλα αναπαράστασης κειμένου που βασίζονται σε γράφους και προτείνει ένα νέο μοντέλο, το ‘graph-of-docs’, για την αναπαράσταση πολλαπλών εγγράφων κειμένου σε έναν ενιαίο γράφο. Σε αντίθεση με τις υπάρχουσες προσεγγίσεις, το graph-of-docs επιτρέπει τη διερεύνηση της σημασίας ενός όρου στο σύνολο των εγγράφων, μειώνει τη συνολική πολυπλοκότητα ανάγοντας κάθε γράφο λέξεων σε έναν κόμβο, και υποστηρίζει την εισαγωγή ακμών σχέσης μεταξύ των εγγράφων. Ως εκ τούτου, επιτρέπει τον υπολογισμό σημαντικών μετρικών σε σχέση με πολλαπλά έγγραφα και επιτρέπει τη συνύπαρξη ετερογενών δεδομένων στον ίδιο γράφο. Επιπλέον, η διατριβή προτείνει και αξιολογεί εμπειρικά το συνδυασμό των διανυσμάτων λέξεων (word embeddings), των αναπαραστάσεων κειμένου και των νευρωνικών δικτύων που βασίζονται σε γράφους για την βελτίωση κλασικών εφαρμογών της μηχανικής μάθησης, όπως η ταξινόμηση κειμένου, η παλινδρόμηση, και η επιλογή διακριτικών χαρακτηριστικών (feature selection). Στο πλαίσιο της διατριβής έλαβε χώρα μια σειρά πειραμάτων και μετρήσεων, αξιοποιώντας σύνολα δεδομένων από διαφορετικούς τομείς και εφαρμογές, με στόχο την αξιολόγηση της προτεινόμενης προσέγγισης. Τα δεδομένα αυτά αφορούν θέματα επιλογής προσωπικού, εντοπισμού σφαλμάτων λογισμικού, πρόβλεψης μελλοντικών ερευνητικών συνεργασιών και πρόβλεψης τιμών για καταχωρίσεις στην πλατφόρμα της Airbnb. Τα αποτελέσματα της αξιολόγησης επιδεικνύουν μια στατιστικά σημαντική βελτίωση μιας σειράς μετρικών (accuracy, precision, recall) των προτεινόμενων λύσεων σε σύγκριση με τα αντίστοιχα κλασικά και βασισμένα σε γράφους μοντέλα.

Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική
Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη

Graph neural networks
Φυσικές Επιστήμες
Επιστήμες Μηχανικού και Τεχνολογία
Μηχανική μάθηση σε γράφους
Τεχνητή νοημοσύνη
Εξόρυξη γνώσης σε γράφους
Natural language processing
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Natural Sciences
Αναπαράσταση κειμένου βασισμένη σε γράφους
Graph mining
Link prediction
Πρόβλεψη ακμών
Κατηγοριοποίηση γράφων και κόμβων
Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Graph and node classification
Electrical Engineering, Electronic Engineering, Information Engineering
Artificial Intelligence
Node regression
Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική
Επεξεργασία φυσικής γλώσσας
Computer and Information Sciences
Νευρωνικά δίκτυα γράφων
Machine learning on graphs
Engineering and Technology
Graph-based text representations
Computer science, Hardware and Architecture
Παλινδρόμηση κόμβων

Αγγλική γλώσσα

Πανεπιστήμιο Πατρών
University of Patras

Πανεπιστήμιο Πατρών. Σχολή Πολυτεχνική. Τμήμα Μηχανολόγων και Αεροναυπηγών Μηχανικών. Τομέας Διοίκησης και Οργάνωσης




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.