Εξόρυξη και διαχείριση σημασιολογικής πληροφορίας στον παγκόσμιο ιστό

 
see the original item page
in the repository's web site and access all digital files if the item*
sharePhD thesis (EN)

2009 (EN)
Discovery and management of semantic data on the World Wide Web
Εξόρυξη και διαχείριση σημασιολογικής πληροφορίας στον παγκόσμιο ιστό

Μπάτζιος, Αλέξανδρος Δ.

Ο Σημασιολογικός Ιστός (Semantic Web) υπόσχεται έναν διαφορετικό τρόπο διαχείρισης και πρόσβασης στις πληροφορίες του διαδικτύου. Η κεντρική ιδέα στην οποία βασίζεται το όραμα του Σημασιολογικού Ιστού είναι η κατανόηση των πληροφοριών από τους ίδιους τους υπολογιστές μέσω των ίδιων των δεδομένων και των σχέσεων μεταξύ τους. Αντικείμενο αυτής της διατριβής είναι οι κύριες τεχνολογίες που μπορούν να κάνουν πραγματικότητα αυτόν το νέο τρόπο πληροφόρισης. Η διατριβή επικεντρώνεται στις τεχνολογίες ανακάλυψης σημασιολογικών δεδομένων στον Παγκόσμιο Ιστό, στις σημασιολογικές βάσεις δεδομένων, στα σημασιολογικά ερωτήματα και στην κατάταξη σημασιολιογικών αποτελεσμάτων. Για κάθε μία από αυτές τις τεχνολογίες παρουσιάζονται οι διαθέσιμες προσεγγίσεις ενώ στη συνέχεια δίνεται και υλοποιείται μια καινοτόμος λύση, τα πλεονεκτήματα της οποίας συυγκρίνονται με τις υπάρχουσες τεχνολογίες. Συγκεκριμένα, για τη ανακάλυψη σημασιολογικών δεδομένων στον Παγκόσμιο Ιστό σχεδιάστηκε και αναπτύχθηκε ένα οικοσύστημα πρακτόρων λογισμικού οι οποίοι έχουν την ιακνότητα εντοπισμού και εκμάθησης των περιοχών του WWW που περιέχουν σημασιολογικά δεδομένα, καθώς και τη δυνατότητα να ανταλλάσουν μεταξύ τους πληροφορίες σχετικά με τις πρόσφατες ανακαλύψεις του καθενός. Σε ότι αφορά την αποθήκευση σημασιολογικών δεδομένων, σχεδιάστηκε και υλοποιήθηκε ένα σύστημα που χρησιμοποιεί αντικειμενοστρεφείς βάσεις για την αποθήκευση σημασιολογικών γράφων της OWL το οποίο ονομάστηκε db4OWL. Αξίζει να σημειωθεί, πως αυτό είναι το μόνο σύστημα ειδικά σχεδιασμένο για την αποθήλευση δεδομένων OWL. Για την αναζήτηση πληροφοριών, αναπτύχθηκε ένας μηχανισμός σημασιολογικών ερωτημάτων εκφρασμένων απευθείας σε γλώσσα OWL χωρίς την ανάγκη χρήσης μιας ενδιάμεσης γλώσσας ερωτημάτων, όπως γινόταν μέχρι σήμερα σε παρόμοια συστήματα. Η έκφραση σημασιολογικών ερωτημάτων στη φυσική τους γλώσσα απλοποιεί σημαντικά τη χρήση του συστήματος ενώ παράλληλα αυξάνει την ακρίβεια των ερωτημάτων. Επίσης, το σύστημα επιτρέπει την μετατροπή και χρήση δοκιμασμένων μεθόδων κατάταξης αποτελεσμάτων (όπως ο αλγόριθμος PageRank του Google) σε σημασιολογικά δεδομένα. Αυτό επιτυγχάνεται με την χρήση μιας ανοιχτής αρχιτεκτονικής όπου διαφορετικοί αλγόριθμοι μπορούν να δουλεύουν συμπληρωματικά, λαμβάνοντας υπόψη διαφορετικούς παράγοντες κατάταξης. Στο τέλος της διατριβής παρουσιάζεται η συμβατότητα και διαλειτουργικότητα των σημασιολογικών τεχνολογιών με την ενσωμάτωσή τους σε ένα ενιαίο σύστημα Σημασιολογικής Μηχανής Αναζήτησης
The Semantic Web introduces a novel way of accessing and managing information on the Internet. The main concept behind this approach is the notion of machine understandable information, accomplished by explicity describing data elements as well as their interrelationships. The focus of this dissertation is the main technologies capable of transforming the Semantic Web vision into a reality. It concentrates on technologies enabling the discovery of semantic data on the Web(crawling), semantic databases, semantic querying and techniques to rank semantic query results. The current state of the art is reviewed for each one of the above technologies and a novel approach is presented and implemented, the advantages of which are compared with the existing solutions. More specifically, for the discovery of semantic data on the WWW, an agent-ecosystem was designed and developed, which involves agents able to locate and remeber areas of the Web that contain semantic data. These agents are also capable of excanging information between the, regarding their recent discoveries, in order to optimize the system's performance. In the area of semantic data storage, a novel approach is proposed that relies on object-oriented databases instead of relational ones. db40WL, a prototype system, specifically designed to store OWL(Web Ontology Language) data using an object database was created. It should be noted that the time of this writing, db40WL is the only persistent storage system that natively supports OWL. To retrieve information, a querying mechanism was developed that allows users or software agents to express semantic queries directly in OWL, without the need for an intermediate query language like the ones used in similar systems. Querying semantic data in their native language is far more intuitive for users, while also allowing for more detailed and precise queries. Furthermore, successfull and time-tested ranking pronciples from commercial search engines can be adapted and used in the system on semantic data. This is achieved through an open architecture that allows different algorithms to complement each other while focusing on different ranking factors. OWLRank, an adaptation of Geogle's PageRank algorithm for semantic data, demonstrate this deature. Finally, the compatibility and interoperability of the proposed approaches is demonstrated by integrating them in order to form a Semantic Search Engine prototype

PhD Thesis / Διδακτορική Διατριβή
info:eu-repo/semantics/doctoralThesis

Semantic Web
Σημασιολογικά δεδομένα
Σημασιολογική αναζήτηση
Semantic data
Σημασιολογικός ιστός
Βάσεις δεδομένων
Οντολογίες
Semantic crawling
OWL ontologies
Semantic search engine
Πράκτορες λογισμικού
Semantic database

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Greek
English

2009
2009-09-04T06:40:29Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Πολυτεχνική Σχολή, Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)