Σχεδιασμός και ανάπτυξη πλατφόρμας διαχείρισης και συνεργατική ταύτισης πολλαπλών αναφορών σε ψηφιακούς πόρους

 
Το τεκμήριο παρέχεται από τον φορέα :
Πανεπιστήμιο Κρήτης
Αποθετήριο :
E-Locus Ιδρυματικό Καταθετήριο
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2011 (EL)
Design and development of a platform for the management and collaborative identification of co-reference on digital resources
Σχεδιασμός και ανάπτυξη πλατφόρμας διαχείρισης και συνεργατική ταύτισης πολλαπλών αναφορών σε ψηφιακούς πόρους

Μελεσανάκης, Βαλάντης Σπυρίδων.

Doerr, Martin
Αντωνίου, Γρηγόρης

Η ιστορική ανάλυση στα πρώτα της βήματα βασίζεται στην εύρεση συσχετιζόμενων εγγράφων. Το πιο σημαντικό είδος συσχέτισης που υπάρχει μεταξύ των εγγράφων είναι η αναφορά ίδιων οντοτήτων σε αυτά τα έγγραφα ανεξάρτητα από το όνομα τους και την περιγραφή τους. Στην ψηφιακή εποχή που διανύουμε, υπάρχει πληθώρα διαθέσιμων ψηφιακών εγγράφωνστο διαδίκτυο και για το λόγο αυτό, το τελευταίο αποτέλεσε ένα από τα σημαντικότερα εργαλεία των ερευνητών. Σε αυτό το δυναμικό περιβάλλον είναι χρήσιμη η δημιουργία ενός πληροφοριακού συστήματος το οποίο θα επιτρέπει στους ερευνητές να διαχειρίζονται τα συσχετιζόμενα έγγραφα, να εκφράζουν τις περιγραφές τους για τις επώνυμες οντότητες που αναφέρονται σε αυτά και στη συνέχεια να οδηγούνται στην ταυτοποίησή τους βασιζόμενη στην δική τους γνώση για αυτές. Τα τελευταία χρόνια έχουν γίνει πολλέςπροσπάθειες πουβασίζονται στην αυτόματη αναγνώριση των επώνυμων οντοτήτων οι οποίες όμως δεν έχουν επιτύχει υψηλά ποσοστά αναγνώρισης καθώς περιορίζονται κυρίως στην επεξεργασία εμπλουτισμένων κειμένων και απαιτούν αρκετά, ολοκληρωμένα και συγκρίσιμα δεδομένα. Επιπρόσθετα, πολλά συστήματα επιδιώκουν να κάνουν ομαδοποίηση ή κατηγοριοποίηση των εγγράφων που αναφέρουν μια συγκεκριμένη οντότητα. Επίσης, ελάχιστα συστήματα χρησιμοποιούν τεχνολογίες του σημασιολογικού ιστού προκειμένου να εκφράσουν τις περιγραφές των χρηστών αλλά και τις υποθέσεις τους για ταυτοποίηση των οντοτήτων και επιπλέον ελάχιστα από τα συστήματα παρέχουν στους ερευνητές αρκετά βοηθητικά στοιχείατων διαφορετικών οντοτήτωνπροκειμένου να τους βοηθήσουν στην ταυτοποίηση αυτών. Σε αυτή την εργασία αναπτύξαμε ένα πλήρες μοντέλο το οποίο επιτρέπει σε πολλούς χρήστες να μπορούν να εκφράσουν τη δική τους γνώση για τις επώνυμες οντότητες. Σημαντικό σε αυτό το μοντέλο είναι η διάκριση της διαφορετικής γνώσης που διαθέτουν οι ερευνητές καθώς εκφράζουν διαφορετικές περιγραφές για τις επώνυμες οντότητες καθώς επίσης και τα βοηθητικά στοιχεία ταυτοποίησης αυτών. Επιπλέον το μοντέλο επιτρέπει σε ομάδες χρηστών να λειτουργούν συνεργατικά προκειμένου να ταυτοποιούν επώνυμες οντότητες όπως ανθρώπους και τοποθεσίες και να τις συσχετίζουν με συγκεκριμένες αναφορές στα έγγραφα. Παρουσιάζουμε το WhoWhereWhen, ένα πληροφοριακό σύστημα το οποίο χρησιμοποιεί ιδέες του WEB2.0 και επιτρέπει σε ομάδες ερευνητών να λειτουργούν συνεργατικά. Σημαντικό σε αυτό το σύστημα ήταν η ανάπτυξη μιας εύχρηστης και διαισθητικής διεπαφήςχρήστηη οποία καθοδηγεί το χρήστη να διακρίνει τις έννοιες στις αναφορές των εγγράφων για τις επώνυμες οντότητες καθώς επίσης και τις συναφείς παραδοχές ταυτοποίησης. Επιπλέον επιτρέπει να διαχειρίζεται τη συνεργατική διαδικασία της περιγραφής των οντοτήτων και του διαχωρισμού των διαφορετικών αναφορών που πραγματοποιούν οι χρήστες. (EL)
The historical analysis in its first step is based on finding related documents. Themostimportantkind ofrelationshipsbetween thedocumentsisthereferenceofthe same entitiesindependentlyof theirnameanddescription. In the digital era we live in, there are numerous digital documents available in the Internet and for that reason became one of the most important tools for the researchers. In this dynamic environment, it is useful to develop an information system which allows the researchers to manage the related documents, to find descriptions for the named entities and then to determine the identity of them based on their knowledge.A lot of attempts based on automatic named entity recognition (NER) have been done over the last years. Nevertheless, the success rates of NER are limited- it works well only in rich texts and it demands enough complete and comparable data. Moreover, many systems aim to classify or categorize documents which refer a specific entity. Furthermore few of the systems use the technologies of the semantic web in order to represent the user’s description and identity assumptions. However, few of the systems provide enough support in order to help the users making their identity assumptions manually. In this thesis we developed a model which allows in multiple users to express their own descriptions for the named entities. In this model it is possible to express distinctions of different knowledge by the researchers for named entities and their identity assumptions. Moreover it enables in user groups to operate collaboratively in order to express their different identity assumptions for persons and places and to correlate them with certain references in documents. We present the “WhoWhereWhen”, an information system which uses the ideas of WEB 2.0 and enables user groups to work collaboratively. In this system the challenge was to develop a user friendly and intuitive interface that guides the user in a natural way to distinguish the notions of document citations and associated identity assumptions and to manage the collaborative process of manual entity description and distinction in different citations. (EN)

text
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης

Co-reference
Ψηφιακά έγγραφα
Named entily
Digital documents
Συν-αναφορά
Επώνυμη οντότητα

Πανεπιστήμιο Κρήτης (EL)
University of Crete (EN)

Αγγλική γλώσσα

2011-03-18


Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.