Αλληλεπίδραση μέσω φυσικής γλώσσας με οντολογίες του σημασιολογικού ιστού

 
This item is provided by the institution :

Repository :
National Archive of PhD Theses
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

2015 (EN)

Natural language interaction with semantic web ontologies
Αλληλεπίδραση μέσω φυσικής γλώσσας με οντολογίες του σημασιολογικού ιστού

Lampouras, Gerasimos
Λάμπουρας, Γεράσιμος

Ο Σημασιολογικός Ιστός (ΣΙ) είναι μια απόπειρα ανάπτυξης προτύπων και τεχνολογιών που θα επιτρέπουν στους υπολογιστές να εντοπίζουν και να επεξεργάζονται ευκολότερα πόρους (έγγραφα, δεδομένα, υπηρεσίες) του Παγκόσμιου Ιστού. Κεντρικό ρόλο στο ΣΙ παίζουν οι οντολογίες. Μια οντολογία αποτελεί τον ορισμό μιας θεματικής περιοχής (π.χ., ηλεκτρονικά προϊόντα) ορίζοντας τις τάξεις και υποτάξεις των αντικειμένων του πεδίου, τους τύπους πιθανών σχέσεων μεταξύ τους κ.τ.λ. Το τρέχον επικρατών πρότυπο για τον ορισμό του Σημασιολογικού Ιστού είναι η OWL, μια τυπική γλώσσα που βασίζεται στην περιγραφική λογική και στην RDF, με την OWL 2 να αποτελεί την πιο πρόσφατη έκδοση του προτύπου OWL. Δεδομένης μιας οντολογίας OWL για κάποια θεματική περιοχή, κάποιος μπορεί να εκδώσει στον Ιστό δεδομένα, τα οποία μπορούν να διαβαστούν από υπολογιστές, σχετικά με αυτή την περιοχή (π.χ., καταλόγους προϊόντων, τα στοιχεία τους κ.τ.λ.), με τα δεδομένα αυτά να έχουν τυπικά ορισμένη σημασιολογία που βασίζεται στον ορισμό της οντολογίας. Έχουν αναπτυχθεί διάφορα συντακτικά OWL, αλλά όσοι δεν είναι είναι εξοικειωμένοι με τυπικές αναπαραστάσεις γνώσης συχνά έχουν δυσκολίες στην κατανόηση τους. Αυτή η διατριβή εξέτασε μεθόδους που επιτρέπουν σε τελικούς χρήστες να δουν αναπαραστάσεις γνώσης βασισμένες σε οντολογίες του Σημασιολογικού Ιστού στην μορφή αυτόματα παραγόμενων κειμένων σε πολλαπλές φυσικές γλώσσες.Το πρώτο μέρος της διατριβής βελτιώνει το NaturalOWL, ένα σύστημα Παραγωγής Φυσικής Γλώσσας από οντολογίες OWL που είχε αναπτυχθεί παλιότερα στο ΟΠΑ. Το σύστημα τροποποιήθηκε ώστε να υποστηρίζει την OWL 2 και να μπορεί να παράγει υψηλότερης ποιότητας κείμενα. Πειράματα έδειξαν ότι τα κείμενα που παράχθηκαν από την νέα έκδοση του NaturalOWL είναι πράγματι υψηλής ποιότητας και σημαντικά καλύτερα από κείμενα που παράχθηκαν από απλούστερα συστήματα, συχνά γνωστά ως ontology verbalizers, δεδομένου ότι οι απαραίτητοι γλωσσικοί πόροι (π.χ., σχέδια προτάσεων που εκφράζουν σχέσεις) είναι διαθέσιμοι στο NaturalOWL. Το δεύτερο μέρος της διατριβής εξέτασε μεθόδους εξόρυξης κειμένου και μηχανικής μάθησης για να εξάγει από τον Ιστό αυτόματα ή ήμι-αυτόματα τους πιο σημαντικούς γλωσσικούς πόρους που το NaturalOWL χρειάζεται για να παραγάγει κείμενα υψηλής ποιότητας. Πειράματα έδειξαν ότι η ήμι-αυτόματη προσέγγιση, όπου ένας άνθρωπος εξετάζει τους αυτόματα παραγόμενους γλωσσικούς πόρους, επιτρέπει στο NaturaOWL να παράγει κείμενα σχεδόν της ίδιας ποιότητας όσο με γλωσσικούς πόρους που έχουν συγγραφεί χειρωνακτικά από το μηδέν. Το τρίτο μέρος της διατριβής στόχευε να βελτιώσει περαιτέρω την ποιότητα των παραγόμενων κειμένων αναπτύσσοντας ένα μοντέλο Ακέραιο Γραμμικού Προγραμματισμού που εξετάζει παράλληλα την επιλογή περιεχομένου, την λεξικοποίηση, τον συνδυασμό προτάσεων, και μια περιορισμένη μορφή της παραγωγής αναφορικών εκφράσεων, σε αντίθεση με την αρχιτεκτονική διασωλήνωσης των περισσότερων συστημάτων Παραγωγής Φυσικής Γλώσσας, όπου τα τέσσερα στάδια εξετάζονται άπληστα το ένα μετά το άλλο. Πειράματα έδειξαν ότι το νέο μοντέλο επιτρέπει στο NaturalOWL να εκφράζει περισσότερες πληροφορίες ανά λέξη, το οποίο είναι χρήσιμο όταν ο χώρος είναι περιορισμένος (π.χ., στις διαφημίσεις), χωρίς κάποια αντιληπτή αλλοίωση στην ποιότητα των παραγόμενων κειμένων.Καθ’ όλη τη διατριβή, χρησιμοποιήθηκαν οντολογίες από διάφορες θεματικές περιοχές (π.χ., πολιτιστική κληρονομιά, ηλεκτρονικά προϊόντα, βιοπληροφορική). Χρησιμοποιώντας τις μεθόδους αυτής της διατριβής, οργανισμοί (π.χ., εταιρίες, βιβλιοθήκες, μουσεία) μπορούν να εκδώσουν πληροφορίες στον Ιστό που να διαβάζονται από υπολογιστές (π.χ., πληροφορίες που προέρχονται από βάσεις δεδομένων) και είναι διαθέσιμες σε πολλαπλές φυσικές γλώσσες (κείμενα που παράγονται αυτόματα από δεδομένα). Με αυτό τον τρόπο οι πληροφορίες γίνονται πιο εύκολα διαθέσιμες και σε υπολογιστές και σε τελικούς χρήστες.
The Semantic Web is an effort to establish standards and mechanisms that will allow computers to reason more easily about the semantics of Web resources (documents, data etc.). Ontologies play a central role in this endeavour. An ontology provides a conceptualization of a knowledge domain (e.g., consumer electronics) by defining the classes and subclasses of the domain's entities, the types of possible relations between them etc. The current standard to specify Semantic Web ontologies is OWL, a formal language based on description logics and RDF, with OWL 2 being the latest OWL standard. Given an OWL ontology for a knowledge domain, one can publish on the Web machine-readable data pertaining to that domain (e.g., catalogues of products, their features etc.), with the data having formally defined semantics based on the conceptualization of the ontology. Several OWL syntaxes have been developed, but people unfamiliar with formal knowledge representation often have difficulties understanding them. This thesis considered methods that allow end-users to view ontology-based knowledge representations of the Semantic Web in the form of automatically generated texts in multiple natural languages.The first part of the thesis improved NaturalOWL, a Natural Language Generation system for OWL ontologies previously developed at AUEB. The system was modified to support OWL 2 and to be able to produce higher quality texts. Experiments showed that the texts generated by the new version of NaturalOWL are indeed of high quality and significantly better than texts generated by simpler systems, often called ontology verbalizers, provided that appropriate domain-dependent linguistic resources (e.g., sentence plans to express relations) are available to NaturalOWL. The second part of the thesis considered text mining and machine learning methods to automatically or semi-automatically extract from the Web the most important of the domain-dependent linguistic resources that NaturalOWL needs to produce high quality texts. Experiments showed that a semi-automatic approach, where a human inspects automatically produced linguistic resources, allows NaturalOWL to produce texts of almost the same quality as with linguistic resources authored manually from scratch. The third part of the thesis aimed to further improve the quality of the generated texts by developing an Integer Linear Programming model that jointly considers content selection, lexicalization, sentence aggregation, and a limited form of referring expression generation, unlike the pipeline architecture of most natural language generation systems, where the four stages are greedily considered one after the other. Experiments indicated that the new model allows NaturalOWL to express more information per word, which is useful when space is limited (e.g., in advertising), with no deterioration in the perceived quality of the generated texts.Throughout the thesis, ontologies from different domains (e.g., cultural heritage, consumer electronics, bioinformatics) were used. Using the methods of the thesis, organizations (e.g., companies, libraries, museums) could publish information on the Web both in a machine-readable form (e.g., data originating from databases) and in multiple natural languages (texts automatically generated from data). This way information becomes more easily accessible to both computers and end-users.

PhD Thesis

Σημασιολογικός ιστός
Natural language generation
Ontologies
Επεξεργασία φυσικής γλώσσας
Computer and Information Sciences
Φυσικές Επιστήμες
Semantic web
Έξαγωγή προτύπων από τον Ιστό
Οντολογίες
Pattern extraction from the Web
Παραγωγή φυσικής γλώσσας
Integer linear programming
Natural language processing
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Natural Sciences
Ακέραιος γραμμικός προγραμματισμός


English

2015


Athens University Economics and Business (AUEB)
Οικονομικό Πανεπιστήμιο Αθηνών




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)