Οι επιμελημένες οντολογίες και σημασιολογικές υποσημειώσεις χρησιμοποιούνται ολοένα
και περισσότερο στην ψηφιακή επιστήμη για να
αντικατοπτρίζουν την τρέχουσα ορολογία και την σύλληψη των διαφόρων επιστημονικών πεδίων.
Τέτοιες επιμελημένες Βάσεις Γνώσης συνήθως
υποστηρίζονται από σχεσιακές βάσεις δεδομένων χρησιμοποιώντας κατάλληλα σχήματα. Τα
σχήματα μπορεί να είναι γενικού σκοπού ή συγκεκριμένα ανά εφαρμογή και σε πολλές
περιπτώσεις απαιτείται να ικανοποιούν ένα ευρύ φάσμα περιορισμών ακεραιότητας. Λόγω του
ότι οι επιμελημένες Βάσεις
Γνώσης εξελίσσονται συνεχώς, τέτοιοι περιορισμοί συχνά παραβιάζονται άρα οι βάσεις πρέπει
συχνά να επιδιορθώνονται.
Παρακινημένοι από το γεγονός ότι η ακεραιότητα σήμερα επιβάλλεται ως επί το πλείστον
χειροκίνητα από τους ίδιους τους επιστήμονες οι οποίοι δρουν
σαν επιμελητές, προτείνουμε ένα \emph{γενικό} και \emph{εξατομικευμένο} πλαίσιο διόρθωσης
ώστε να τους παρέχουμε βοήθεια σε αυτό το επίπονο
έργο. Μοντελοποιώντας τους περιορισμούς ακεραιότητας χρησιμοποιώντας την κλάση των
Διαζευκτικών Ενσωματωμένων Εξαρτήσεων (ΔΕΕ), είμαστε σε θέση να υποστηρίξουμε μια
ποικιλία από περιορισμούς ακεραιότητας που εμφανίζονται στη βιβλιογραφία. Επιπλέον,
βασιζόμαστε σε σύνθετες
εκφράσεις προτίμησης των επιμελητών για ενδιαφέροντα χαρακτηριστικά των διορθώσεων που
προκύπτουν με σκοπό να συλλάβουμε διαφορετικές έννοιες \emph{ελαχιστοποίησης} στις
διορθώσεις. Σαν αποτέλεσμα, άλλες πολιτικές διόρθωσης που παρουσιάζονται στη βιβλιογραφία
μπορούν να προσομοιωθούν στο πλαίσιο μας.
Επί πλέον, προτείνουμε ένα νέο εξαντλητικό αλγόριθμο διόρθωσης ο οποίος, εν αντιθέσει με
υπάρχοντα άπληστα πλαίσια, δεν εξαρτάται από τη σειρά
διόρθωσης και τη σύνταξη των παραβιασμένων περιορισμών και μπορεί να \emph{υπολογίσει
σωστά καθολικά βέλτιστες επιδιορθώσεις για
διαφορετικούς τύπους κανόνων και προτιμήσεων}. Παρά την εκθετική φύση του, η απόδοση και
οι απαιτήσεις σε μνήμη του αποδεικνύεται πειραματικά
ότι είναι ικανοποιητικές για πραγματικές περιπτώσεις επιμέλειας χάρη σε μία σειρά από
βελτιστοποιήσεις. Τέλος, προτείνουμε τον αντίστοιχο
``άπληστο'' αλγόριθμο ο οποίος υπολογίζει τοπικές βέλτιστες διορθώσεις θεωρώντας κάθε
παραβίαση ξεχωριστά και διατηρώντας μόνο τις
προτιμώμενες-ανά-κανόνα διορθώσεις.
Τέλος, προτείνουμε πιθανές επεκτάσεις του πλαισίου μας με σκοπό να περιγράψουμε πολιτικές
όπου οι ασυνέπειες επιλύονται κατά την εισαγωγή
τους (π.χ. αναθεώρηση γνώσης, συγχώνευση γνώσης). Αυτό μπορεί να επιτευχθεί με το να
σχεδιάσουμε προσεκτικά τις λειτουργίες που
τροποποιούν την κατάσταση της Βάσης Γνώσης με σκοπό να εμποδίσουμε τις ασυνέπειες να
εισχωρήσουν στο σύστημα.
(EL)
Curated ontologies and semantic annotations are increasingly being used in e-science to
reflect the current terminology and
conceptualization of various scientific domains. Such curated Knowledge Bases (KB) are
usually backended by relational databases using adequate
schemas. Schemas may be generic or application/domain specific and in many cases are
required to satisfy a wide range of integrity
constraints. As curated KBs continuously evolve, such constraints are often violated and
thus KBs need to be frequently \emph{repaired}.
Motivated by the fact that consistency is nowdays mostly enforced manually by the
scientists acting as curators, we propose a
\emph{generic} and \emph{personalized} repairing framework for assisting them in this
arduous task. Modeling integrity constraints using the
class of Disjunctive Embedded Dependencies (DEDs), we are capable of supporting a variety
of useful integrity constraints presented in the
literature. Moreover, we rely on coplex curator preferences over various interesting
features of the resulting repairs that can capture diverse
notions of \emph{minimality} in repairs. As a result, other repair policies presented in
the literature can be emulated within our
framework.
Moreover, we propose a novel \emph{exhaustive} repair finding algorithm which, unlike
existing greedy frameworks, is not sensitive to the
resolution order and syntax of violated constraints and can {\em correctly compute
globally optimal repairs for different kinds of
constraints and preferences}. Despite its exponential nature, the performance and memory
requirements of the exhaustive algorithm are
experimentally demonstrated to be satisfactory for real world curation cases, thanks to a
series of optimizations. Finally, we propose
the corresponding ``greedy'' algorithm wich computes \emph{locally optimal repairs} by
considering each violation individualy keeping only
the preffered-per-violation repairs.
Last but not least, we propose possible extensions of our framework to describe policies
where the inconsistencies are resolved during their
introduction (e.g., belief revision, belief merging). This can be achieved by carefuly
designing operations which modify the KB's status
in order to prevent the inconsistencies from creeping into the system.
(EN)