Κατανεμημένα σημασιολογικά μοντέλα χρησιμοποιώντας λεξικολογικά δίκτυα

Title

Network-based distributional semantic models

Creator

Iosif, Elias

Ιωσήφ, Ηλίας

Type

PhD Thesis

Thesis
PhD thesis (EN)

Date

2013

Year

2013 (EN)

Description

In this thesis, the unsupervised creation of language-agnostic Distributional Semantic Models (DSMs) using web harvested data is investigated for the problem of semantic similarity estimation. Semantic similarity can be regarded as the building block for numerous tasks of Natural Language Processing, e.g., affective text analysis and paraphrasing. The first part of the thesis deals with the construction of typical DSMs following the well-established Vector Space Model. More specifically, corpora are created by harvesting web documents following a query-based approach. Two families of similarity metrics are applied, while related parameters are investigated. Similarity metrics are evaluated against human similarity ratings achieving state-of-the-art results that are comparable with knowledge-based metrics. Despite its good performance, the aforementioned methodology suffers from quadratic query complexity with respect to the size of the lexicon. A methodology of linear query complexity is proposed, which is applied for corpus creation with respect to a lexicon consisting of thousands of nouns. Using this corpus, we propose a novel network-based implementation of DSMs, which is based on the notion of semantic neighborhoods. Semantic neighborhoods are considered as a parsimonious representation of corpus statistics, while they capture two main types of lexical relations: semantic and associative. The problem of the automatic classification of associative and semantic relations is also addressed, motivated by findings from the literature of psycholinguistics and corpus linguistics. Moreover, three novel neighborhood-based similarity metrics are proposed, motivated by the hypotheses of attributional and maximum sense similarity. The proposed metrics are shown to outperform the baseline approaches for the task of semantic similarity estimation between words. Inspired by evidence for cognitive organization of concepts, based on the degree of concreteness, we further investigate the performance and organization of network DSMs for abstract vs. concrete nouns. Finally, the framework of network DSMs is extended for the creation of multimodal networks using textual and visual features, and the estimation of semantic similarity beyond word level (noun compounds). Very good results are achieved for both extensions, showing the flexibility of the network-based framework.

Η παρούσα διατριβή πραγματεύεται την κατασκευή κατανεμημένων σημασιολογικών μοντέλων (Distributional Semantic Models - DSMs) χρησιμοποιώντας κειμενικά δεδομένα που έχουν συλλεγεί από τον παγκόσμιο ιστό. Μερικά από τα κύρια και πιο ενδιαφέροντα χαρακτηριστικά της κατασκευής των μον- τέλων αυτών είναι η μη χρήση τεχνικών επίβλεψης (unsupervised) και η μη εξάρτηση σε γλωσσολογικά χαρακτηριστικά, γεγονός που τα καθιστά -από πλευράς υλοποίησης- ανεξάρτητα από τη φυσική γλώσσα ως προς την οποία εφαρμόζονται (language-agnostic). Η κύρια εφαρμογή των ανωτέρω μοντέλων αφορά στην εκτίμηση της σημασιολογικής ομοιότητας (semantic similarity). Η συμβολή της σημασιολογικής ομοιότητας είναι ιδιαιτέρως σημαντική για ένα πλήθος εφαρμογών του τομέα της Επεργασίας Φυσικού Λόγου. Παραδε- ίγματα τέτοιων εφαρμογών περιλαμβάνουν την ανάλυση του συναισθηματικού περιεχομένου κειμενικών δεδομένων και τεχνικές παράφρασης. Το πρώτο πειραματικό μέρος της διατριβής αφορά στην κατασκευή σύνηθων κατανεμημένων σημασιολογικών μοντέλων σύμφωνα με το καθιερωμένο Vector Space Model. Μία από τις κύριες κατευθύνσεις αυτής της προσπάθειας είναι η δημιουργία σωμάτων κειμένων (corpora) μέσω της ανάκτησης εγγράφων του παγκοσμίου ιστού αποστέλνωντας επερωτήσεις (queries) προς μηχανές αναζήτησης. Επιπλέον, μελετώνται δύο βασικοί τύποι μετρικών σημασιολογικής ομοιότητας σε συνάρτηση με ένα πλήθος παραμέτων. Οι χρησιμοποιούμενες μετρικές αποτι- μώνται ως προς τη συσχέτισή τους με βαθμολογίες σημασιολογικής ομοιότητας που έχουν ληφθεί από ανθρώπους. Η επίδοσή τους παρατηρήθηκε να είναι συγ- κρίσιμη με εκείνη που επιτυγχάνουν οι τρέχουσες τεχνολογίες αιχμής, καθώς και με την επίδοση ενός άλλου τύπου μετρικών που βασίζεται στην άντληση πληροφορίας από πηγές γνώσης (knowledge-based metrics). Παρά την αξι- όλογη επίδοσή της, η πιο πάνω μεθοδολογία κρίνεται πρακτικώς δύσχρηστη αναφορικά με τον υπολογισμό της σημασιολογικής ομοιότητας μεταξύ όλων των ζευγών λέξεων οι οποίες δύνανται να περιέχονται σε ένα λεξικό. Το μειο- νέκτημα τούτο οφείλεται στην τετραγωνική πολυπλοκότητα της δημιουργίας επερωτήσεων ως προς το μέγεθος του χρησιμοποιούμενου λεξικού. Στο δε- ύτερο πειραματικό μέρος της εργασίας, προτείνεται μία μεθοδολογία για την αντιμετώπιση του προαναφερθέντος μειονεκτήματος, σύμφωνα με την οποία η δημιουργία επερωτήσεων υπέχει γραμμική πολυπλοκότητα σε σχέση με το λε- ξικό αναφοράς. Η προτεινόμενη μεθολογία εφαρμόζεται για τη δημιουργία ενός σώματος κειμένου από δεδομένα του παγκόσμιου ιστού ως προς ένα λεξικό το οποίο αποτελείται από χιλιάδες ουσιαστικών. Χρησιμοποιώντας το πιο πάνω σώμα κειμένου, μια νέα, βασισμένη σε δίκτυα, υλοποίηση των κατανεμημένων σημασιολογικών μοντέλων προτείνεται, κεντρική ιδέα της οποίας είναι οι σημα- σιολογικές γειτονιές (semantic neighborhoods). Οι σημασιολογικές γειτονιές μπορούν να θεωρηθούν ως μια φειδωλή, αλλά συνάμα περιεκτική, αναπαράστα- ση της λεκτικής στατιστικής πληροφορίας που εμπεριέχεται στο σώμα κειμένου. Επιπλέον, δυο βασικοί τύποι λεξιλογικών σχέσεων ενυπάρχουν στις γειτονιές αυτές: σημασιολογικές και συσχετιστικές (associative). Η αυτόματη κα- τηγοριοποίηση των βασικών αυτών σχέσεων διερευνάται, σύμφωνα με κάποια ευρήματα της βιβλιογραφίας της ψυχογλωσσολογίας (psycholinguistics) και της εφαρμοσμένης σε σώματα κειμένων γλωσσολογίας (corpus linguistics). Επιπρόσθετα, τρεις νέες μετρικές σημασιολογικής ομοιότητας βασισμένες σε δίκτυα προτείνονται, έχοντας ως θεωρητικό υπόβαθρο τις υποθέσεις αναφορι- κά με την ομοιότητα χαρακτηριστικών (attributional similarity) και τη μέγιστη εννοιολογική ομοιότητα (maximum sense similarity). Η επίδοση των προτεινόμενων σημασιολογικών μετρικών παρατηρείται να υπερβαίνει εκείνη των βασικών (baseline) μετρικών ως προς την εκτίμηση της ομοιότητας μεταξύ λέξεων. Η προτεινόμενη υλοποίηση των κατανεμημένων σημασιολογικών μον- τέλων, καθώς και οι αντίστοιχες μετρικές ομοιότητας, διερευνώνται περαιτέρω ως προς δύο τύπους ουσιαστικών, η διάκριση των οποίων προέρχεται από το πε- δίο της γνωσιακής επιστήμης: αφηρημένα (abstract) και συμπαγή (concrete). Το κύριο έναυσμα για τη διάκριση αυτή αποτελούν οι ενδείξεις σχετικά με τη διαφοροποιημένη οργάνωση στο ανθρώπινο γνωσιακό σύστημα των ανωτέρω τύπων βάσει του βαθμού σημασιολογικής συμπάγειας. Τέλος, τα προτεινόμενα κατανεμημένα σημασιολογικα μοντέλα και οι μετρικές ομοιότητας κατασκευάζονται και αποτιμώνται σε κάποιες περαιτέρω εφαρμογές. Πιο συγκεκριμένα, τα αποκλειστικώς βασισμένα σε κειμενικά δεδομένα μοντέλα, επεκτείνονται σε πολυτροπικά (multimodal) χρησιμοποιώντας κειμενικά και οπτικά (visual) χαρακτηριστικά. Επιπλέον, μελετάται η επέκταση των προτεινόμενων μοντέλων με στοχό την αναπαράσταση των σημασιολογικών γειτονιών πολυλεκτικών όρων αποτελούμενων από ουσιαστικά, καθώς και η εκτίμηση της σημασιολογικής ομοιότητας αυτών. Πολύ καλά αποτελέσματα επιτυγχάνονται για τις ανωτέρω εφαρμογές καταδεικνύοντας την προσαρμοστικότητα των προτεινόμενων μοντέλων.

Scientific field

Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική

Ανθρωπιστικές Επιστήμες και Τέχνες ➨ Γλώσσα και Λογοτεχνία

Natural Sciences
Computer and Information Sciences (EN)

Humanities and the Arts
Languages and literature (EN)

Engineering and Technology
Electrical engineering, Electronic engineering, Information engineering (EN)

Subject

Lexical networks

Distributional semantic models

Humanities and the Arts

Languages and Literature

Computer and Information Sciences

Κατανεμημένα σημασιολογικά μοντέλα

Φυσικές Επιστήμες

Λεξιλογικά δίκτυα

Γλώσσα και Λογοτεχνία

Μετρικές σημασιολογικής ομοιότητας

Semantic similarity

Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική

Natural Sciences

Ανθρωπιστικές Επιστήμες και Τέχνες

Language

English

Publisher

Πολυτεχνείο Κρήτης

Technical University of Crete (TUC)

School / Department / Institute

Πολυτεχνείο Κρήτης. Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών

Technical University of Crete
School of Electrical & Computer Engineering

Provider

National Documentation Centre (EKT)

Repository / collection

National Archive of PhD Theses

Subcollections

Συλλογή ΕΑΔΔ

Κατανεμημένα σημασιολογικά μοντέλα χρησιμοποιώντας λεξικολογικά δίκτυα

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.