Κατανεμημένα σημασιολογικά μοντέλα χρησιμοποιώντας λεξικολογικά δίκτυα

RDF 

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Εθνικό Αρχείο Διδακτορικών Διατριβών
δείτε την καρτέλα τεκμηρίου
μέσα από τον ιστότοπο του αποθετηρίου του φορέα *
κοινοποιήστε το τεκμήριο



Σημασιολογικός εμπλουτισμός/ομογενοποίηση από το EKT

2013 (EL)
Network-based distributional semantic models
Κατανεμημένα σημασιολογικά μοντέλα χρησιμοποιώντας λεξικολογικά δίκτυα

Iosif, Elias
Ιωσήφ, Ηλίας

In this thesis, the unsupervised creation of language-agnostic Distributional Semantic Models (DSMs) using web harvested data is investigated for the problem of semantic similarity estimation. Semantic similarity can be regarded as the building block for numerous tasks of Natural Language Processing, e.g., affective text analysis and paraphrasing. The first part of the thesis deals with the construction of typical DSMs following the well-established Vector Space Model. More specifically, corpora are created by harvesting web documents following a query-based approach. Two families of similarity metrics are applied, while related parameters are investigated. Similarity metrics are evaluated against human similarity ratings achieving state-of-the-art results that are comparable with knowledge-based metrics. Despite its good performance, the aforementioned methodology suffers from quadratic query complexity with respect to the size of the lexicon. A methodology of linear query complexity is proposed, which is applied for corpus creation with respect to a lexicon consisting of thousands of nouns. Using this corpus, we propose a novel network-based implementation of DSMs, which is based on the notion of semantic neighborhoods. Semantic neighborhoods are considered as a parsimonious representation of corpus statistics, while they capture two main types of lexical relations: semantic and associative. The problem of the automatic classification of associative and semantic relations is also addressed, motivated by findings from the literature of psycholinguistics and corpus linguistics. Moreover, three novel neighborhood-based similarity metrics are proposed, motivated by the hypotheses of attributional and maximum sense similarity. The proposed metrics are shown to outperform the baseline approaches for the task of semantic similarity estimation between words. Inspired by evidence for cognitive organization of concepts, based on the degree of concreteness, we further investigate the performance and organization of network DSMs for abstract vs. concrete nouns. Finally, the framework of network DSMs is extended for the creation of multimodal networks using textual and visual features, and the estimation of semantic similarity beyond word level (noun compounds). Very good results are achieved for both extensions, showing the flexibility of the network-based framework.
Η παρούσα διατριβή πραγματεύεται την κατασκευή κατανεμημένων σημασιολογικών μοντέλων (Distributional Semantic Models - DSMs) χρησιμοποιώντας κειμενικά δεδομένα που έχουν συλλεγεί από τον παγκόσμιο ιστό. Μερικά από τα κύρια και πιο ενδιαφέροντα χαρακτηριστικά της κατασκευής των μον- τέλων αυτών είναι η μη χρήση τεχνικών επίβλεψης (unsupervised) και η μη εξάρτηση σε γλωσσολογικά χαρακτηριστικά, γεγονός που τα καθιστά -από πλευράς υλοποίησης- ανεξάρτητα από τη φυσική γλώσσα ως προς την οποία εφαρμόζονται (language-agnostic). Η κύρια εφαρμογή των ανωτέρω μοντέλων αφορά στην εκτίμηση της σημασιολογικής ομοιότητας (semantic similarity). Η συμβολή της σημασιολογικής ομοιότητας είναι ιδιαιτέρως σημαντική για ένα πλήθος εφαρμογών του τομέα της Επεργασίας Φυσικού Λόγου. Παραδε- ίγματα τέτοιων εφαρμογών περιλαμβάνουν την ανάλυση του συναισθηματικού περιεχομένου κειμενικών δεδομένων και τεχνικές παράφρασης. Το πρώτο πειραματικό μέρος της διατριβής αφορά στην κατασκευή σύνηθων κατανεμημένων σημασιολογικών μοντέλων σύμφωνα με το καθιερωμένο Vector Space Model. Μία από τις κύριες κατευθύνσεις αυτής της προσπάθειας είναι η δημιουργία σωμάτων κειμένων (corpora) μέσω της ανάκτησης εγγράφων του παγκοσμίου ιστού αποστέλνωντας επερωτήσεις (queries) προς μηχανές αναζήτησης. Επιπλέον, μελετώνται δύο βασικοί τύποι μετρικών σημασιολογικής ομοιότητας σε συνάρτηση με ένα πλήθος παραμέτων. Οι χρησιμοποιούμενες μετρικές αποτι- μώνται ως προς τη συσχέτισή τους με βαθμολογίες σημασιολογικής ομοιότητας που έχουν ληφθεί από ανθρώπους. Η επίδοσή τους παρατηρήθηκε να είναι συγ- κρίσιμη με εκείνη που επιτυγχάνουν οι τρέχουσες τεχνολογίες αιχμής, καθώς και με την επίδοση ενός άλλου τύπου μετρικών που βασίζεται στην άντληση πληροφορίας από πηγές γνώσης (knowledge-based metrics). Παρά την αξι- όλογη επίδοσή της, η πιο πάνω μεθοδολογία κρίνεται πρακτικώς δύσχρηστη αναφορικά με τον υπολογισμό της σημασιολογικής ομοιότητας μεταξύ όλων των ζευγών λέξεων οι οποίες δύνανται να περιέχονται σε ένα λεξικό. Το μειο- νέκτημα τούτο οφείλεται στην τετραγωνική πολυπλοκότητα της δημιουργίας επερωτήσεων ως προς το μέγεθος του χρησιμοποιούμενου λεξικού. Στο δε- ύτερο πειραματικό μέρος της εργασίας, προτείνεται μία μεθοδολογία για την αντιμετώπιση του προαναφερθέντος μειονεκτήματος, σύμφωνα με την οποία η δημιουργία επερωτήσεων υπέχει γραμμική πολυπλοκότητα σε σχέση με το λε- ξικό αναφοράς. Η προτεινόμενη μεθολογία εφαρμόζεται για τη δημιουργία ενός σώματος κειμένου από δεδομένα του παγκόσμιου ιστού ως προς ένα λεξικό το οποίο αποτελείται από χιλιάδες ουσιαστικών. Χρησιμοποιώντας το πιο πάνω σώμα κειμένου, μια νέα, βασισμένη σε δίκτυα, υλοποίηση των κατανεμημένων σημασιολογικών μοντέλων προτείνεται, κεντρική ιδέα της οποίας είναι οι σημα- σιολογικές γειτονιές (semantic neighborhoods). Οι σημασιολογικές γειτονιές μπορούν να θεωρηθούν ως μια φειδωλή, αλλά συνάμα περιεκτική, αναπαράστα- ση της λεκτικής στατιστικής πληροφορίας που εμπεριέχεται στο σώμα κειμένου. Επιπλέον, δυο βασικοί τύποι λεξιλογικών σχέσεων ενυπάρχουν στις γειτονιές αυτές: σημασιολογικές και συσχετιστικές (associative). Η αυτόματη κα- τηγοριοποίηση των βασικών αυτών σχέσεων διερευνάται, σύμφωνα με κάποια ευρήματα της βιβλιογραφίας της ψυχογλωσσολογίας (psycholinguistics) και της εφαρμοσμένης σε σώματα κειμένων γλωσσολογίας (corpus linguistics). Επιπρόσθετα, τρεις νέες μετρικές σημασιολογικής ομοιότητας βασισμένες σε δίκτυα προτείνονται, έχοντας ως θεωρητικό υπόβαθρο τις υποθέσεις αναφορι- κά με την ομοιότητα χαρακτηριστικών (attributional similarity) και τη μέγιστη εννοιολογική ομοιότητα (maximum sense similarity). Η επίδοση των προτεινόμενων σημασιολογικών μετρικών παρατηρείται να υπερβαίνει εκείνη των βασικών (baseline) μετρικών ως προς την εκτίμηση της ομοιότητας μεταξύ λέξεων. Η προτεινόμενη υλοποίηση των κατανεμημένων σημασιολογικών μον- τέλων, καθώς και οι αντίστοιχες μετρικές ομοιότητας, διερευνώνται περαιτέρω ως προς δύο τύπους ουσιαστικών, η διάκριση των οποίων προέρχεται από το πε- δίο της γνωσιακής επιστήμης: αφηρημένα (abstract) και συμπαγή (concrete). Το κύριο έναυσμα για τη διάκριση αυτή αποτελούν οι ενδείξεις σχετικά με τη διαφοροποιημένη οργάνωση στο ανθρώπινο γνωσιακό σύστημα των ανωτέρω τύπων βάσει του βαθμού σημασιολογικής συμπάγειας. Τέλος, τα προτεινόμενα κατανεμημένα σημασιολογικα μοντέλα και οι μετρικές ομοιότητας κατασκευάζονται και αποτιμώνται σε κάποιες περαιτέρω εφαρμογές. Πιο συγκεκριμένα, τα αποκλειστικώς βασισμένα σε κειμενικά δεδομένα μοντέλα, επεκτείνονται σε πολυτροπικά (multimodal) χρησιμοποιώντας κειμενικά και οπτικά (visual) χαρακτηριστικά. Επιπλέον, μελετάται η επέκταση των προτεινόμενων μοντέλων με στοχό την αναπαράσταση των σημασιολογικών γειτονιών πολυλεκτικών όρων αποτελούμενων από ουσιαστικά, καθώς και η εκτίμηση της σημασιολογικής ομοιότητας αυτών. Πολύ καλά αποτελέσματα επιτυγχάνονται για τις ανωτέρω εφαρμογές καταδεικνύοντας την προσαρμοστικότητα των προτεινόμενων μοντέλων.

Μετρικές σημασιολογικής ομοιότητας
Lexical networks
Distributional semantic models
Semantic similarity
Κατανεμημένα σημασιολογικά μοντέλα
Λεξιλογικά δίκτυα

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

2013


Πολυτεχνείο Κρήτης
Technical University of Crete (TUC)



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.