This item is provided by the institution :
University of Crete
Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*
share




2012 (EN)
Αποτίμηση συνεχών κ-κορυφαίων επερωτήσεων επάνω σε ροές κειμενικών δεδομένων .
Evaluating Continuous Top-k Queries over Text Streams

Βουζουκίδου, Νέλη Κωνσταντίνος

Bernd, Amann
Χριστοφίδης, Βασίλης

Οι τεχνολογίες Web 2.0 έχουν μετατρέψει τον Ιστό από ένα περιβάλλον απλής δημοσίευσης σε ένα ζωντανό χώρο πληροφορίας, όπου οι μέχρι πρόσφατα τελικοί χρήστες έχουν μετατραπεί και οι ίδιοι σε παραγωγούς πληροφορίας. Εκτός από τις παραδοσιακές πηγές πληροφόρησης, όπως ιστοσελίδες Τύπου, σήμερα, κοινωνικά δίκτυα, ιστολογία χρηστών (blogs) και φόρουμ δημοσιεύουν σε καθημερινή βάση εκατομμύρια στοιχεία πληροφορίας (items). Δεδομένου του τεράστιου όγκου και της μεγάλης ποικιλομορφίας των πληροφοριών που παράγονται στο Web 2.0, υπάρχει μια επιτακτική ανάγκη για αποδοτικές και πραγματικού χρόνου μεθόδους φιλτραρίσματος πάνω σε ροές πληροφοριών που θα επιτρέπουν σε εκατομμύρια χρήστες να παρακολουθήσουν αποτελεσματικά ενδιαφέρουσες πληροφορίες σύμφωνα με προσωπικά κριτήρια. Στο πλαίσιο αυτό, οι χρήστες συνήθως εκδίδουν επερωτήσεις βασισμένες σε λέξεις - κλειδιά, οι οποίες μπορούν είτε να αποτιμηθούν απευθείας από μηχανές αναζήτησης, είτε να υποβληθούν σε υπηρεσίες Ειδοποίησης (Alerts), που αναλαμβάνουν να ειδοποιούν συνεχώς τον χρήστη για πρόσφατα δημοσιευμένα στοιχεία πληροφορίας που ταιριάζουν στα δικά του κριτήρια φιλτραρίσματος. Και στις δύο περιπτώσεις, χρησιμοποιούνται συναρτήσεις αποτίμησης προκειμένου να μετρηθεί η συσχέτιση του στοιχείου πληροφορίας με τους όρους που περιέχει η επερώτηση, καθώς επίσης και η σπουδαιότητα του στοιχείου πληροφορίας σύμφωνα με ποιοτικά κριτήρια ανεξάρτητα της επερώτησης. Για την αποτίμηση της σπουδαιότητας αυτής χρησιμοποιούνται παράμετροι όπως ηλικία της πληροφορίας, αξιοπιστία καθώς επίσης και σπουδαιότητα της θεματικής συλλογής στην οποία ανήκουν λόγω π.χ. του ότι περιγράφουν το ίδιο πραγματικό γεγονός. Η αποτελεσματικότητα της συνάρτησης αποτίμησης που χρησιμοποιείται, στηρίζεται στο πόσο καλά συνδυάζεται η συσχέτιση βασισμένη στους όρους με την σπουδαιότητα του στοιχείου πληροφορίας και αυτό γίνεται συνήθως χρησιμοποιώντας σταθμισμένο μέσο όρο πάνω στις δύο βαθμολογίες. Επιπλέον, για να μπορούμε να εγγυηθούμε ότι η πληροφορία που αποστέλλεται στους χρήστες είναι όσο το δυνατόν πιο πρόσφατη, χρησιμοποιείται συνδυασμός χρονικής εξασθένησης της βαθμολογίας με τεχνικές κυλιόμενων παραθύρων. Σε αυτή την εργασία, επικεντρωνόμαστε στο πρόβλημα εύρεσης αποδοτικών αλγορίθμων και δομών δεδομένων για επιγραμμική παρακολούθηση του περιεχομένου του Web 2.0 και πιο συγκεκριμένα στην αποδοτική αποτίμηση συνεχών κ-κορυφαίων επερωτήσεων επάνω σε κ ειμενικές ροές πληροφορίας. Πρέπει να τονιστεί, στο σημείο αυτό, ότι υπάρχοντα εμπορικά συστήματα ειδοποίησης μετατρέπουν μία συνεχή επερώτηση σε μία σειρά περιοδικά εκτελέσιμων στιγμιαίων επερωτήσεων. Αυτή η προσέγγιση εμπεριέχει σημαντικούς περιορισμούς: δεδομένων μεγάλων αριθμών επερωτήσεων χρηστών και μεγάλων ρυθμών δημοσίευσης πληροφορίας είναι πρακτικά αδύνατη η επαναλαμβανόμενη αποτίμηση όλων των επερωτήσεων αυτών σε σχεδόν κάθε νέα άφιξη στοιχείου πληροφορίας. Για αυτό το λόγο, τα εμπορικά συστήματα συνήθως μειώνουν τη συχνότητα αποτίμησης των επερωτήσεων και ως εκ τούτου σημαντικές ενημερώσεις πληροφορίας μπορεί να χαθούν. Αντίθετα με υπάρχουσα ερευνητική δουλειά σε συνεχείς κ-κορυφαίες κειμενικές επερωτήσεις, στην εργασία αυτή, θεωρούμε πολύπλοκες συναρτήσεις αποτίμησης που περιλαμβάνουν τόσο την κειμενική συσχέτιση του στοιχείου πληροφορίας με την επερώτηση, όσο και την σπουδαιότητα του, αλλά την νέα πληροφορία που προσφέρει ως προς το τι έχει ήδη δημοσιευτεί. Στη συνέχεια, προτείνουμε την αναπαράσταση των επερωτήσεων βασισμένοι στη βαθμολογία τους, κάτι που μας επιτρέπει να αποτιμήσουμε αποδοτικά το πρόβλημα της επιλογής επερωτήσεων χρηστών: η αποτίμηση, δεδομένου ενός στοιχείου πληροφορίας, των χρηστών εκείνων όπου η λίστα των κ-κορυφαίων αποτελεσμάτων πρέπει να ανανεωθεί, δηλαδή, πρέπει να εισαχθεί σε αυτές. Η καινοτομία της προσέγγισης που ακολουθούμε έγκειται στην αποτελεσματικότητα οριακών συνθηκών που έχουμε εξάγει προκειμένου να περιορίσουμε δραστικά το σύνολο επερωτήσεων που πρέπει να ελεγχθούν κατά τη διάρκεια της αποτίμησης και με μικρό επιπλέον κόστος λόγω της ανανέωσης των κ-κορυφαίων λιστών, για ένα αρκετά ευρύ φάσμα συναρτήσεων αποτίμησης (σταθμισμένο μέσο όρο βαθμολογίας βασισμένη στην επερώτηση και βαθμολογίας αναξάρτητης αυτής εφαρμόζοντας πάνω της συναρτήσεις εξασθένησης βαθμολογίας). (EL)

text
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης

Δομές δεδομένων
Συναρτήσεις εξασθένησης βαθμολογίας
text streams
Algorithms
Ροές κειμενικών δεδομένων
Αλγόριθμοι
Συνεχείς ερωτήσεις
Continuous queries
Κ-κοερυφαίες ερωτήσεις
Decay functions
Indexes
Top-k queries

Πανεπιστήμιο Κρήτης (EL)
University of Crete (EN)

English

2012-03-23


Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)