Ανακάλυξη γνώσης από ακολουθίες και δεδομένα συναλλαγών

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2007 (EL)
Knowledge discovery from sequential and transactional data
Ανακάλυξη γνώσης από ακολουθίες και δεδομένα συναλλαγών

Μπερμπερίδης, Χρήστος Ν.

Σήμερα, οι τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων έχουν πλέον ωριμάσει και ενσωματωθεί σε εμπορικά πακέτα λογισμικού για επιχειρήσεις και ορ-γανισμούς όλων των ειδών. Οι εφαρμογές της εκτείνονται από τον τομέα της υγείας, μέχρι τις τράπεζες, τις επιχειρήσεις, τον παγκόσμιο ιστό και τη μοριακή βιολογία, ακολουθώντας κατά πόδας τη διείσδυση της πληροφορικής σε όλους τους τομείς της ανθρώπινης δραστηριότητας. Η ολοένα και αυξανόμενη ποικιλία των εφαρμογών της σε συνδυασμό με την άφθονη επεξεργαστική ισχύ και τα διαθέσιμα μέσα αποθήκευσης, δημιουργούν την ανάγκη για ακόμα περισσότερες τεχνικές, ακόμα πιο εξειδικευμένους αλγορίθμους με ακόμα μεγαλύτερη αποτελεσματικότητα και ταχύτητα. Η εξέλιξη σε πολλούς τομείς, όπως η Μοριακή Βιολογία, εξαρτάται άμεσα από τη διαθεσιμότητα και την απόδοση των αντίστοιχων εργαλείων ανακάλυψης γνώσης. Λαμβάνοντας μάλιστα υπόψη ότι οι αλγόριθμοι γενικής χρήσης δε μπορούν να αποδώσουν εξίσου καλά με τους εξειδικευμένους και πως η ανακάλυψη γνώσης είναι μια διαδικασία ημιαυτόματη, που εξαρτάται άμεσα από την καθοδήγηση του χρήστη, αντιλαμβάνεται κανείς την αναγκαιότητα ανάπτυξης νέων τεχνικών και βελτίωσης των υπαρχουσών. Η παρούσα διατριβή πραγματεύεται ένα σύνολο τεχνικών ανακάλυψης γνώσης από ακολουθίες και από δεδομένα συναλλαγών. Και οι δύο κατηγορίες δεδομένων χαρακτηρίζονται από την ιδιότητα της διάταξης κατά μήκος μιας (τουλάχιστο) διάστασης. Συγκεκριμένα για την πρώτη κατηγορία, στην παρούσα διατριβή αναφέρονται δύο κεφάλαια. Στο πρώτο από αυτά προτείνεται ένας νέος αλγόριθμος για την ανακάλυψη ασθενών περιοδικοτήτων σε βάσεις δεδομένων διακριτών χρονοσειρών. Ο προτεινόμενος αλγόριθμος βασίζεται στη συνάρτηση κυκλικής αυτοσυσχέτισης για την εξαγωγή ενός περιορισμένου συνόλου υποψήφιων περιόδων, που χρησιμοποιούνται για την εξόρυξη περιοδικών προτύπων. Το δεύτερο κεφάλαιο αυτής της κατηγορίας, εντάσσεται στο πλαίσιο της Βιοπληροφορικής. Προτείνεται μια νέα μεθοδολογία για την ακριβή πρόβλεψη του σημείου έναρξης της βιολογικής διαδικασίας της μετάφρασης σε μια γονιδιακή ακολουθία. Η μεθοδολογία αυτή προσεγγίζει το πρόβλημα με δομημένο τρόπο, ενσωματώνοντας βιολογική γνώση στη διαδικασία εξόρυξης, επιτυγχάνοντας ιδιαίτερα υψηλά ποσοστά ακρίβειας. Στη δεύτερη κατηγορία δεδομένων (στις συναλλαγές) αφιερώνονται επίσης δύο κεφάλαια της διατριβής. Το πρώτο από αυτά περιλαμβάνει έναν νέο αλγόριθμο για την πρόβλεψη σπανίων γεγονότων σε μια βάση δεδομένων συναλλαγών. Ο αλγόριθμος αυτός ενσωματώνει τη χρονική (ή ακολουθιακή) πληροφορία της συναλλαγής στα αντικείμενα που περιέχει, ώστε να προβλέψει με ακριβή τρόπο την εμφάνιση ενός σπανίου αντικειμένου. Στο δεύτερο κεφάλαιο αυτής της κατηγορίας, ορίζεται ένα νέο πρόβλημα, εκείνο της ανακάλυψης αμοιβαίως αποκλειόμενων αντικειμένων από βάσεις δεδομένων συναλλαγών και προτείνονται κατάλληλες μετρικές, μαζί με έναν αλγόριθμο για την εξόρυξή τους
Although "Knowledge Discovery in Databases" is a young field of research and application, having its roots in the late 1980s, it is already mature enough to offer useful analytical tools, embedded in popular software packages, for all kinds of busi-nesses and organizations. Its applications cover the entire spectrum of human activity, from healthcare and molecular biology to banking, commerce, industry and education. This growing variety of applications along with the vast amounts of storage and computing power available increases the need for more algorithms that are applica-tion-specific, faster and more effective. The importance of Knowledge Discovery in Databases (KDD) is further established by the fact that the progress and development of several fields (such as Molecular Biology) largely depends on its ability to deliver reliable and powerful techniques. Considering also that general purpose algorithms often fail to reach the performance standards set by real-world applications and the fact that KDD is a semi-automatic procedure that requires human guidance and intervention, one can understand the urgent need for new, specialized techniques as well as the improvement of existing ones. This thesis concerns a set of techniques for knowledge discovery from sequential and transactional data. Both data categories share a common property, namely order, along (at least) one dimension. Specifically, two chapters of this thesis refer to the first data category. In the first one, a novel algorithm is proposed for the discovery of weak periodicities in discrete time series data. The algorithm is based on the circular autocorrelation function for the extraction of a refined set of candidate periodicities, used for mining periodic patterns. The second chapter that concerns sequential data belongs to the research field of Bioinformatics. A new data mining methodology is developed for the prediction of the initiation site of the biological process of translation, in genome sequences. The proposed methodology identifies the main components of this problem and assigns a computational component to each separately, in a modular fashion, achieving a high level of accuracy. The contribution of the thesis to knowledge discovery from transactional data is also twofold, covering two chapters. In the first one, a new algorithm is proposed for the prediction of rare events. The algorithm adopts an intuitive framework, embeds the temporal information of the transaction in its items, delivering predictive patterns timely and effectively. In the second chapter of this category, the novel prob-lem of mining for mutually exclusive items is introduced and formulated and a set of metrics, along with a mining algorithm are provided

PhD Thesis / Διδακτορική Διατριβή
info:eu-repo/semantics/doctoralThesis

Μοντελοποίηση
Μηχανική μάθηση
Machine learning
Βιοπληροφορική
Data mining
Modeling
Bioinformatics
Εξόρυξη δεδομένων

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Ελληνική γλώσσα
Αγγλική γλώσσα

2007
2009-06-21T21:00:00Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.