Evaluating Continuous Top-k Queries over Text Streams

Evaluating Continuous Top-k Queries over Text Streams

URI: https://www.openarchives.gr/aggregator-openarchives/edm/elocus/000018-dlib_3_b_b_metadata-dlib-1332743813-18149-4136.tkl
RDF/XML JSON-LD

Το τεκμήριο παρέχεται από τον φορέα :

Πανεπιστήμιο Κρήτης

Αποθετήριο :
E-Locus Ιδρυματικό Καταθετήριο

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου^*

κοινοποιήστε το τεκμήριο

Σημασιολογικός εμπλουτισμός από το EKT

ΕΚΤ τύπος τεκμηρίου

Μεταπτυχιακή εργασία (EL)

ΕΚΤ xρονολογία

2012 (EL)

EKT Ιστορική περίοδος

Τίτλος

Αποτίμηση συνεχών κ-κορυφαίων επερωτήσεων επάνω σε ροές κειμενικών δεδομένων .

Evaluating Continuous Top-k Queries over Text Streams

Δημιουργός

Βουζουκίδου, Νέλη Κωνσταντίνος

Συντελεστής

Bernd, Amann

Χριστοφίδης, Βασίλης

Περιγραφή

Οι τεχνολογίες Web 2.0 έχουν μετατρέψει τον Ιστό από ένα περιβάλλον απλής δημοσίευσης σε ένα ζωντανό χώρο πληροφορίας, όπου οι μέχρι πρόσφατα τελικοί χρήστες έχουν μετατραπεί και οι ίδιοι σε παραγωγούς πληροφορίας. Εκτός από τις παραδοσιακές πηγές πληροφόρησης, όπως ιστοσελίδες Τύπου, σήμερα, κοινωνικά δίκτυα, ιστολογία χρηστών (blogs) και φόρουμ δημοσιεύουν σε καθημερινή βάση εκατομμύρια στοιχεία πληροφορίας (items). Δεδομένου του τεράστιου όγκου και της μεγάλης ποικιλομορφίας των πληροφοριών που παράγονται στο Web 2.0, υπάρχει μια επιτακτική ανάγκη για αποδοτικές και πραγματικού χρόνου μεθόδους φιλτραρίσματος πάνω σε ροές πληροφοριών που θα επιτρέπουν σε εκατομμύρια χρήστες να παρακολουθήσουν αποτελεσματικά ενδιαφέρουσες πληροφορίες σύμφωνα με προσωπικά κριτήρια. Στο πλαίσιο αυτό, οι χρήστες συνήθως εκδίδουν επερωτήσεις βασισμένες σε λέξεις - κλειδιά, οι οποίες μπορούν είτε να αποτιμηθούν απευθείας από μηχανές αναζήτησης, είτε να υποβληθούν σε υπηρεσίες Ειδοποίησης (Alerts), που αναλαμβάνουν να ειδοποιούν συνεχώς τον χρήστη για πρόσφατα δημοσιευμένα στοιχεία πληροφορίας που ταιριάζουν στα δικά του κριτήρια φιλτραρίσματος. Και στις δύο περιπτώσεις, χρησιμοποιούνται συναρτήσεις αποτίμησης προκειμένου να μετρηθεί η συσχέτιση του στοιχείου πληροφορίας με τους όρους που περιέχει η επερώτηση, καθώς επίσης και η σπουδαιότητα του στοιχείου πληροφορίας σύμφωνα με ποιοτικά κριτήρια ανεξάρτητα της επερώτησης. Για την αποτίμηση της σπουδαιότητας αυτής χρησιμοποιούνται παράμετροι όπως ηλικία της πληροφορίας, αξιοπιστία καθώς επίσης και σπουδαιότητα της θεματικής συλλογής στην οποία ανήκουν λόγω π.χ. του ότι περιγράφουν το ίδιο πραγματικό γεγονός. Η αποτελεσματικότητα της συνάρτησης αποτίμησης που χρησιμοποιείται, στηρίζεται στο πόσο καλά συνδυάζεται η συσχέτιση βασισμένη στους όρους με την σπουδαιότητα του στοιχείου πληροφορίας και αυτό γίνεται συνήθως χρησιμοποιώντας σταθμισμένο μέσο όρο πάνω στις δύο βαθμολογίες. Επιπλέον, για να μπορούμε να εγγυηθούμε ότι η πληροφορία που αποστέλλεται στους χρήστες είναι όσο το δυνατόν πιο πρόσφατη, χρησιμοποιείται συνδυασμός χρονικής εξασθένησης της βαθμολογίας με τεχνικές κυλιόμενων παραθύρων. Σε αυτή την εργασία, επικεντρωνόμαστε στο πρόβλημα εύρεσης αποδοτικών αλγορίθμων και δομών δεδομένων για επιγραμμική παρακολούθηση του περιεχομένου του Web 2.0 και πιο συγκεκριμένα στην αποδοτική αποτίμηση συνεχών κ-κορυφαίων επερωτήσεων επάνω σε κ ειμενικές ροές πληροφορίας. Πρέπει να τονιστεί, στο σημείο αυτό, ότι υπάρχοντα εμπορικά συστήματα ειδοποίησης μετατρέπουν μία συνεχή επερώτηση σε μία σειρά περιοδικά εκτελέσιμων στιγμιαίων επερωτήσεων. Αυτή η προσέγγιση εμπεριέχει σημαντικούς περιορισμούς: δεδομένων μεγάλων αριθμών επερωτήσεων χρηστών και μεγάλων ρυθμών δημοσίευσης πληροφορίας είναι πρακτικά αδύνατη η επαναλαμβανόμενη αποτίμηση όλων των επερωτήσεων αυτών σε σχεδόν κάθε νέα άφιξη στοιχείου πληροφορίας. Για αυτό το λόγο, τα εμπορικά συστήματα συνήθως μειώνουν τη συχνότητα αποτίμησης των επερωτήσεων και ως εκ τούτου σημαντικές ενημερώσεις πληροφορίας μπορεί να χαθούν. Αντίθετα με υπάρχουσα ερευνητική δουλειά σε συνεχείς κ-κορυφαίες κειμενικές επερωτήσεις, στην εργασία αυτή, θεωρούμε πολύπλοκες συναρτήσεις αποτίμησης που περιλαμβάνουν τόσο την κειμενική συσχέτιση του στοιχείου πληροφορίας με την επερώτηση, όσο και την σπουδαιότητα του, αλλά την νέα πληροφορία που προσφέρει ως προς το τι έχει ήδη δημοσιευτεί. Στη συνέχεια, προτείνουμε την αναπαράσταση των επερωτήσεων βασισμένοι στη βαθμολογία τους, κάτι που μας επιτρέπει να αποτιμήσουμε αποδοτικά το πρόβλημα της επιλογής επερωτήσεων χρηστών: η αποτίμηση, δεδομένου ενός στοιχείου πληροφορίας, των χρηστών εκείνων όπου η λίστα των κ-κορυφαίων αποτελεσμάτων πρέπει να ανανεωθεί, δηλαδή, πρέπει να εισαχθεί σε αυτές. Η καινοτομία της προσέγγισης που ακολουθούμε έγκειται στην αποτελεσματικότητα οριακών συνθηκών που έχουμε εξάγει προκειμένου να περιορίσουμε δραστικά το σύνολο επερωτήσεων που πρέπει να ελεγχθούν κατά τη διάρκεια της αποτίμησης και με μικρό επιπλέον κόστος λόγω της ανανέωσης των κ-κορυφαίων λιστών, για ένα αρκετά ευρύ φάσμα συναρτήσεων αποτίμησης (σταθμισμένο μέσο όρο βαθμολογίας βασισμένη στην επερώτηση και βαθμολογίας αναξάρτητης αυτής εφαρμόζοντας πάνω της συναρτήσεις εξασθένησης βαθμολογίας). (EL)

Τύπος

text

Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης

Θέμα

Δομές δεδομένων

Συναρτήσεις εξασθένησης βαθμολογίας

text streams

Algorithms

Ροές κειμενικών δεδομένων

Αλγόριθμοι

Συνεχείς ερωτήσεις

Continuous queries

Κ-κοερυφαίες ερωτήσεις

Decay functions

Indexes

Top-k queries

Πάροχος

Πανεπιστήμιο Κρήτης

Αποθετήριο / συλλογή

E-Locus Ιδρυματικό Καταθετήριο

Επιμέρους συλλογή

Elocus

Γλώσσα

Αγγλική γλώσσα

Ημερομηνία

2012-03-23

Προσδιοριστής

000373221

http://elocus.lib.uoc.gr:443/dlib/3/b/b/metadata-dlib-1332743813-18149-4136.tkl

Πηγή

Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης

*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.

Evaluating Continuous Top-k Queries over Text Streams

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.